Estrutura da população (genética) - Population structure (genetics)

A estrutura populacional (também chamada de estrutura genética e estratificação populacional ) é a presença de uma diferença sistemática nas frequências de alelos entre subpopulações em uma população como resultado de acasalamento não aleatório entre indivíduos. Pode ser informativo de ancestralidade genética e, no contexto da genética médica, é uma variável de confusão importante em estudos de associação ampla do genoma (GWAS).

Descrição

A causa básica da estrutura populacional em espécies que se reproduzem sexualmente é o acasalamento não aleatório entre os grupos: se todos os indivíduos dentro de uma população se acasalam aleatoriamente, então as frequências dos alelos devem ser semelhantes entre os grupos. A estrutura populacional comumente surge da separação física por distância ou barreiras, como montanhas e rios, seguida por deriva genética . Outras causas incluem fluxo gênico de migrações, gargalos e expansões populacionais , efeitos fundadores , pressão evolutiva , chance aleatória e (em humanos) fatores culturais. Mesmo em vez desses fatores, os indivíduos tendem a ficar próximos de onde nasceram, o que significa que os alelos não serão distribuídos aleatoriamente em relação a toda a gama da espécie.

Medidas

A estrutura da população é um fenômeno complexo e nenhuma medida isolada a captura inteiramente. Compreender a estrutura de uma população requer uma combinação de métodos e medidas. Muitos métodos estatísticos baseiam-se em modelos populacionais simples para inferir mudanças demográficas históricas, como a presença de gargalos populacionais, eventos de mistura ou tempos de divergência populacional. Freqüentemente, esses métodos baseiam-se no pressuposto de panmictia , ou homogeneidade em uma população ancestral. A especificação incorreta de tais modelos, por exemplo, por não levar em consideração a existência de estrutura em uma população ancestral, pode dar origem a estimativas de parâmetros fortemente enviesadas. Estudos de simulação mostram que a estrutura histórica da população pode até ter efeitos genéticos que podem ser facilmente mal interpretados como mudanças históricas no tamanho da população ou a existência de eventos de mistura, mesmo quando nenhum desses eventos ocorreu.

Heterozigosidade

Um gargalo populacional pode resultar em perda de heterozigosidade. Nesta população hipotética, um alelo tornou-se fixo depois que a população caiu repetidamente de 10 para 3.

Um dos resultados da estrutura da população é a redução da heterozigosidade . Quando as populações se dividem, os alelos têm uma chance maior de alcançar a fixação dentro das subpopulações, especialmente se as subpopulações são pequenas ou foram isoladas por longos períodos. Essa redução na heterozigosidade pode ser considerada uma extensão da endogamia , com indivíduos em subpopulações sendo mais propensos a compartilhar um ancestral comum recente . A escala é importante - um indivíduo com ambos os pais nascidos no Reino Unido não é consanguíneo em relação à população daquele país, mas é mais consanguíneo do que dois humanos selecionados no mundo inteiro. Isso motiva a derivação das estatísticas F de Wright (também chamadas de "índices de fixação"), que medem a endogamia por meio da heterozigosidade observada versus esperada. Por exemplo, mede o coeficiente de endogamia em um único locus para um indivíduo em relação a alguma subpopulação :

Aqui, está a fração de indivíduos em uma subpopulação que são heterozigotos. Supondo que existam dois alelos, que ocorrem nas respectivas frequências , espera-se que, sob acasalamento aleatório, a subpopulação tenha uma taxa de heterozigosidade de . Então:

Da mesma forma, para a população total , podemos definir o que nos permite calcular a heterozigosidade esperada da subpopulação e o valor como:

Se F for 0, então as frequências alélicas entre as populações são idênticas, sugerindo que não há estrutura. O valor máximo teórico de 1 é atingido quando um alelo atinge a fixação total, mas a maioria dos valores máximos observados são muito mais baixos. F ST é uma das medidas mais comuns de estrutura populacional e existem várias formulações diferentes dependendo do número de populações e dos alelos de interesse. Embora às vezes seja usado como uma distância genética entre populações, nem sempre satisfaz a desigualdade do triângulo e, portanto, não é uma métrica . Também depende da diversidade dentro da população, o que torna difícil a interpretação e comparação.

Inferência de mistura

O genótipo de um indivíduo pode ser modelado como uma mistura entre K grupos discretos de populações. Cada cluster é definido pelas frequências de seus genótipos, e a contribuição de um cluster para os genótipos de um indivíduo é medida por meio de um estimador . Em 2000, Jonathan K. Pritchard introduziu o algoritmo STRUCTURE para estimar essas proporções via cadeia de Markov Monte Carlo , modelando frequências de alelos em cada locus com uma distribuição de Dirichlet . Desde então, algoritmos (como ADMIXTURE) foram desenvolvidos usando outras técnicas de estimativa. As proporções estimadas podem ser visualizadas usando gráficos de barra - cada barra representa um indivíduo e é subdividida para representar a proporção da ancestralidade genética de um indivíduo de uma das K populações.

A variação de K pode ilustrar diferentes escalas de estrutura populacional; o uso de um K pequeno para toda a população humana subdividirá as pessoas aproximadamente por continente, enquanto o uso de K grande dividirá as populações em subgrupos mais finos. Embora os métodos de agrupamento sejam populares, eles estão sujeitos a interpretações errôneas: para dados não simulados, nunca há um valor "verdadeiro" de K , mas sim uma aproximação considerada útil para uma determinada questão. Eles são sensíveis às estratégias de amostragem, tamanho da amostra e parentes próximos em conjuntos de dados; pode não haver nenhuma população discreta; e pode haver estrutura hierárquica onde as subpopulações estão aninhadas. Os clusters podem ser misturados e podem não ter uma interpretação útil como populações de origem.

Um estudo da estrutura populacional de humanos no norte da África e populações vizinhas modelado usando ADMIXTURE e assumindo K = 2,4,6,8 populações (Figura B, de cima para baixo). A variação de K altera a escala do agrupamento. Em K = 2, 80% da ancestralidade inferida para a maioria dos norte-africanos é atribuída a um agrupamento comum a indivíduos árabes bascos, toscanos e do Catar (em roxo). Em K = 4, os clines de ancestralidade norte-africana aparecem (em azul claro). Em K = 6, clines opostos de ancestralidade do Oriente Próximo (Qatar) aparecem (em verde). Em K = 8, os berberes tunisianos aparecem como um aglomerado (em azul escuro).

Redução de dimensionalidade

Um mapa das localizações de amostras genéticas de várias populações africanas (à esquerda) e os componentes principais 1 e 2 dos dados sobrepostos no mapa (à direita). O plano de coordenadas principal foi girado em 16,11 ° para se alinhar com o mapa. Corresponde às distribuições leste-oeste e norte-sul das populações.

Os dados genéticos são de alta dimensionalidade e as técnicas de redução de dimensionalidade podem capturar a estrutura da população. A análise de componentes principais (PCA) foi aplicada pela primeira vez na genética de populações em 1978 por Cavalli-Sforza e colegas e ressurgiu com o sequenciamento de alto rendimento . Inicialmente, o PCA foi usado em frequências de alelos em marcadores genéticos conhecidos para populações, embora mais tarde tenha sido descoberto que, ao codificar SNPs como inteiros (por exemplo, como o número de alelos não de referência ) e normalizar os valores, o PCA poderia ser aplicado no nível de indivíduos. Uma formulação considera indivíduos e SNPs bialélicos. Para cada indivíduo , o valor no local é é o número de alelos não de referência (um de ). Se a frequência do alelo for , a matriz resultante dos genótipos normalizados terá entradas:

O PCA transforma os dados para maximizar a variação; dados suficientes, quando cada indivíduo é visualizado como um ponto em um gráfico, agrupamentos discretos podem se formar. Indivíduos com ancestrais misturados tenderão a cair entre os clusters e, quando houver isolamento homogêneo por distância nos dados, os principais vetores de PC refletirão a variação geográfica. Os autovetores gerados pelo PCA podem ser explicitamente escritos em termos de tempos coalescentes médios para pares de indivíduos, tornando o PCA útil para inferência sobre as histórias populacionais de grupos em uma determinada amostra. O PCA não pode, no entanto, distinguir entre diferentes processos que levam aos mesmos tempos médios de coalescência.

Escalonamento multidimensional e análise discriminante têm sido usados ​​para estudar diferenciação, atribuição de população e para analisar distâncias genéticas. Abordagens de gráfico de vizinhança como incorporação de vizinhança estocástica com distribuição t (t-SNE) e aproximação e projeção de variedade uniforme (UMAP) podem visualizar a estrutura continental e subcontinental em dados humanos. Com conjuntos de dados maiores, o UMAP captura melhor várias escalas de estrutura populacional; padrões de escala fina podem ser ocultados ou divididos com outros métodos, e estes são de interesse quando a gama de populações é diversa, quando há populações misturadas ou ao examinar relações entre genótipos, fenótipos e / ou geografia. Autoencoders variacionais podem gerar genótipos artificiais com estrutura representativa dos dados de entrada, embora não recriem padrões de desequilíbrio de ligação.

Inferência demográfica

A estrutura populacional é um aspecto importante da genética evolutiva e populacional . Eventos como migrações e interações entre grupos deixam uma marca genética nas populações. Populações misturadas terão pedaços de haplótipos de seus grupos ancestrais, que diminuem gradualmente com o tempo devido à recombinação . Explorando esse fato e combinando pedaços de haplótipos compartilhados de indivíduos em um conjunto de dados genéticos, os pesquisadores podem rastrear e datar as origens da mistura de populações e reconstruir eventos históricos, como a ascensão e queda de impérios, comércio de escravos, colonialismo e expansões populacionais.

Papel na epidemiologia genética

A estrutura populacional pode ser um problema para estudos de associação , como estudos de caso-controle , em que a associação entre a característica de interesse e o locus pode estar incorreta. Por exemplo, em um estudo de população de europeus e asiáticos, um estudo de associação do uso de pauzinhos pode "descobrir" um gene em indivíduos asiáticos que leva ao uso de pauzinhos. No entanto, esta é uma relação espúria, pois a variante genética é simplesmente mais comum em asiáticos do que europeus. Além disso, as descobertas genéticas reais podem ser negligenciadas se o locus for menos prevalente na população onde os indivíduos do caso são escolhidos. Por esse motivo, era comum na década de 1990 usar dados de base familiar, onde o efeito da estrutura populacional pode ser facilmente controlado por meio de métodos como o teste de desequilíbrio de transmissão (TDT).

Os fenótipos (características mensuráveis), como altura ou risco de doença cardíaca, são o produto de alguma combinação de genes e ambiente . Essas características podem ser previstas usando escores poligênicos , que buscam isolar e estimar a contribuição da genética para uma característica somando os efeitos de muitas variantes genéticas individuais. Para construir uma pontuação, os pesquisadores primeiro inscrevem os participantes em um estudo de associação para estimar a contribuição de cada variante genética. Em seguida, eles podem usar as contribuições estimadas de cada variante genética para calcular uma pontuação para a característica para um indivíduo que não estava no estudo de associação original. Se a estrutura na população de estudo está correlacionada com a variação ambiental, então o escore poligênico não está mais medindo o componente genético sozinho.

Vários métodos podem, pelo menos parcialmente, controlar esse efeito de confusão. O método de controle genômico foi introduzido em 1999 e é um método relativamente não paramétrico para controlar a inflação das estatísticas de teste . Também é possível usar marcadores genéticos desvinculados para estimar as proporções de ancestralidade de cada indivíduo de algumas subpopulações K , que são consideradas não estruturadas. Abordagens mais recentes fazem uso da análise de componentes principais (PCA), conforme demonstrado por Alkes Price e colegas, ou derivando uma matriz de relacionamento genético (também chamada de matriz de parentesco) e incluindo-a em um modelo linear misto (LMM).

PCA e LMMs tornaram-se os métodos mais comuns para controlar a confusão da estrutura da população. Embora sejam provavelmente suficientes para evitar falsos positivos em estudos de associação, eles ainda são vulneráveis ​​a superestimar os tamanhos de efeito de variantes marginalmente associadas e podem distorcer substancialmente as estimativas de pontuações poligênicas e herdabilidade de traços . Se os efeitos ambientais estiverem relacionados a uma variante que existe em apenas uma região específica (por exemplo, um poluente é encontrado em apenas uma cidade), pode não ser possível corrigir esse efeito de estrutura populacional. Para muitos traços, o papel da estrutura é complexo e não totalmente compreendido, e incorporá-lo aos estudos genéticos permanece um desafio e é uma área ativa de pesquisa.

Referências