Imputação (genética) - Imputation (genetics)

Imputação em genética refere-se à inferência estatística de genótipos não observados . É conseguido usando haplótipos conhecidos em uma população, por exemplo, do HapMap ou do Projeto 1000 Genomes em humanos, permitindo assim testar a associação entre uma característica de interesse (por exemplo, uma doença) e variantes genéticas experimentalmente não tipadas, mas cujos genótipos têm foi inferido estatisticamente ("imputado"). A imputação do genótipo é geralmente realizada em SNPs , o tipo mais comum de variação genética.

A imputação de genótipo, portanto, ajuda tremendamente a estreitar a localização de variantes provavelmente causais em estudos de associação de todo o genoma , porque aumenta a densidade de SNP (o tamanho do genoma permanece constante, mas o número de variantes genéticas aumenta) e, portanto, reduz a distância entre duas variantes adjacentes SNPs.

Contexto

Em epidemiologia genética e genética quantitativa , os pesquisadores visam identificar localizações genômicas onde a variação entre os indivíduos está associada à variação nas características de interesse entre os indivíduos. Esses estudos, portanto, requerem acesso à composição genética de um conjunto de indivíduos. Sequenciar todo o genoma de cada indivíduo no estudo costuma ser muito caro, portanto, apenas um subconjunto do genoma pode ser medido. Isso geralmente significa, em primeiro lugar, considerar apenas polimorfismos de nucleotídeo único (SNPs) e negligenciar as variantes do número de cópias e, em segundo lugar, apenas medir SNPs sabidamente variáveis ​​na população que provavelmente também sejam variáveis ​​no conjunto de indivíduos em consideração . O subconjunto mais informativo de SNPs é escolhido com base na distribuição da variação genética comum ao longo do genoma, por exemplo, produzida pelo HapMap ou pelo Projeto 1000 Genomes em humanos. Esses SNPs são então usados ​​para construir um micro-array , permitindo assim que cada indivíduo no estudo seja genotipado em todos esses SNPs simultaneamente.

Motivação

Matrizes de genotipagem usadas para estudos de associação do genoma (GWAS) são baseadas em SNPs de marcação e, portanto, não genotipam diretamente todas as variações no genoma. A imputação dos genótipos a um painel de referência que foi genotipado para um número maior de variantes aumenta a cobertura da variação genômica além dos genótipos originais. Como consequência, pode-se avaliar o efeito de mais SNPs do que aqueles no micro-array original. É importante ressaltar que a imputação facilitou a meta-análise de conjuntos de dados que foram genotipados em diferentes matrizes, aumentando a sobreposição de variantes disponíveis para análise entre as matrizes.

Ferramentas

Existem vários pacotes de software disponíveis para imputar genótipos de uma matriz de genotipagem para painéis de referência, como os haplótipos do Projeto 1000 Genomes. Essas ferramentas incluem MaCH Minimac, IMPUTE2 e Beagle. Cada ferramenta fornece prós e contras específicos em termos de velocidade e precisão. Ferramentas adicionais de faseamento, como SHAPEIT2, permitem a preparação de haplótipos de entrada para melhorar a precisão de imputação e o desempenho computacional.

No uso de imputação inicial, haplótipos de populações HapMap foram usados ​​como um painel de referência, mas isso foi sucedido pela disponibilidade de haplótipos do Projeto 1000 Genomes como painéis de referência com mais amostras, em populações mais diversas e com maior densidade de marcadores genéticos . Em meados de 2014, os dados da sequência do genoma completo estão disponíveis publicamente no site do Projeto 1000 Genomes para 2.535 indivíduos de 26 populações diferentes ao redor do mundo.

Modelos estatísticos

Projetar modelos estatísticos precisos para imputação de genótipos está muito relacionado ao problema de estimativa de haplótipos ("faseamento") e é uma área ativa de pesquisa.

Veja também

Referências