Homologia de sequência - Sequence homology

Filogenia de genes como ramos vermelhos e azuis dentro da filogenia de espécies cinzas. Acima: Uma duplicação de gene ancestral produz dois parálogos ( histona H1.1 e 1.2 ). Um evento de especiação produz ortólogos nas duas espécies filhas (humana e chimpanzé). Embaixo: em uma espécie separada ( E. coli ), um gene tem uma função semelhante ( proteína estruturante de nucleóide semelhante à histona ), mas tem uma origem evolutiva separada e, portanto, é um análogo .

Homologia de sequência é a homologia biológica entre sequências de DNA , RNA ou proteínas , definida em termos de ancestralidade compartilhada na história evolutiva da vida . Dois segmentos de DNA podem ter ancestrais compartilhados por causa de três fenômenos: um evento de especiação (ortólogos), ou um evento de duplicação (parálogos), ou então um evento horizontal (ou lateral) de transferência de genes (xenólogos).

A homologia entre DNA, RNA ou proteínas é tipicamente inferida de sua similaridade de sequência de nucleotídeos ou aminoácidos . A similaridade significativa é uma forte evidência de que duas sequências estão relacionadas por mudanças evolutivas de uma sequência ancestral comum. Alinhamentos de múltiplas sequências são usados ​​para indicar quais regiões de cada sequência são homólogas.

Identidade, semelhança e conservação

Um alinhamento de sequência de proteínas histonas de mamíferos . As sequências são os resíduos de aminoácidos 120-180 intermediários das proteínas. Os resíduos que são conservados em todas as sequências são destacados em cinza. A chave abaixo denota sequência conservada (*), mutações conservadoras (:), mutações semiconservativas (.) E mutações não conservativas ().

O termo "porcentagem de homologia" é frequentemente usado para significar "similaridade de sequência", que é a porcentagem de resíduos idênticos ( porcentagem de identidade ), ou a porcentagem de resíduos conservados com propriedades físico-químicas semelhantes ( porcentagem de similaridade ), por exemplo, leucina e isoleucina , é geralmente usado para "quantificar a homologia". Com base na definição de homologia especificada acima, esta terminologia está incorreta, uma vez que a semelhança de sequência é a observação, a homologia é a conclusão. As sequências são homólogas ou não. Isso envolve que o termo "porcentagem de homologia" é um nome impróprio.

Tal como acontece com as estruturas morfológicas e anatômicas, a similaridade de sequência pode ocorrer por causa da evolução convergente , ou, como com sequências mais curtas, por acaso, significando que não são homólogas. As regiões de sequência homóloga também são chamadas de conservadas . Isso não deve ser confundido com a conservação em sequências de aminoácidos , onde o aminoácido em uma posição específica foi substituído por um diferente que tem propriedades físico-químicas funcionalmente equivalentes.

A homologia parcial pode ocorrer onde um segmento das sequências comparadas tem uma origem compartilhada, enquanto o resto não. Essa homologia parcial pode resultar de um evento de fusão gênica .

Ortologia

Acima: Um gene ancestral se duplica para produzir dois parálogos (Genes A e B). Um evento de especiação produz ortólogos nas duas espécies filhas. Embaixo: em uma espécie separada, um gene não relacionado tem uma função semelhante (Gene C), mas tem uma origem evolutiva separada e, portanto, é um análogo .

As sequências homólogas são ortólogas se forem inferidas como descendentes da mesma sequência ancestral separada por um evento de especiação : quando uma espécie diverge em duas espécies separadas, as cópias de um único gene nas duas espécies resultantes são consideradas ortólogas. Ortólogos, ou genes ortólogos, são genes em diferentes espécies que se originaram por descendência vertical de um único gene do último ancestral comum . O termo "ortólogo" foi cunhado em 1970 pelo evolucionista molecular Walter Fitch .

Por exemplo, a proteína reguladora da gripe vegetal está presente tanto na Arabidopsis (planta superior multicelular) quanto na Chlamydomonas (alga verde unicelular). A versão de Chlamydomonas é mais complexa: ela atravessa a membrana duas vezes em vez de uma, contém domínios adicionais e passa por splicing alternativo. No entanto, pode substituir totalmente a proteína Arabidopsis , muito mais simples , se transferida das algas para o genoma da planta por meio de engenharia genética . A similaridade de sequência significativa e os domínios funcionais compartilhados indicam que esses dois genes são genes ortólogos, herdados do ancestral compartilhado .

A ortologia é estritamente definida em termos de ancestralidade. Dado que a ancestralidade exata dos genes em organismos diferentes é difícil de determinar devido à duplicação de genes e eventos de rearranjo do genoma, a evidência mais forte de que dois genes semelhantes são ortólogos geralmente é encontrada realizando uma análise filogenética da linhagem do gene. Os ortólogos freqüentemente, mas nem sempre, têm a mesma função.

As sequências ortólogas fornecem informações úteis na classificação taxonômica e estudos filogenéticos de organismos. O padrão de divergência genética pode ser usado para rastrear o parentesco dos organismos. Dois organismos intimamente relacionados provavelmente exibem sequências de DNA muito semelhantes entre dois ortólogos. Por outro lado, um organismo que é posteriormente removido evolutivamente de outro organismo tende a exibir uma divergência maior na sequência dos ortólogos que estão sendo estudados.

Bancos de dados de genes ortólogos

Dada sua enorme importância para a biologia e bioinformática , os genes ortólogos foram organizados em vários bancos de dados especializados que fornecem ferramentas para identificar e analisar sequências de genes ortólogos. Esses recursos empregam abordagens que podem ser geralmente classificadas em aquelas que usam análise heurística de todas as comparações de sequências de pares e aquelas que usam métodos filogenéticos . Os métodos de comparação de sequências foram pioneiros no banco de dados COGs em 1997. Esses métodos foram estendidos e automatizados nos seguintes bancos de dados:

  • AYbRAH: Analisando Leveduras pela Reconstrução de Ancestrais de Homólogos
  • eggNOG
  • GreenPhylDB para plantas
  • InParanoid se concentra em relacionamentos ortólogos de pares
  • OHNOLOGS é um repositório dos genes retidos de duplicações do genoma inteiro nos genomas dos vertebrados, incluindo humanos e camundongos.
  • OMA
  • OrthoDB reconhece que o conceito de ortologia é relativo a diferentes pontos de especiação, fornecendo uma hierarquia de ortólogos ao longo da árvore de espécies.
  • OrthoInspector é um repositório de genes ortólogos para 4753 organismos que cobrem os três domínios da vida
  • OrthologID
  • OrthoMaM para mamíferos
  • OrthoMCL
  • Arredondar para cima

Abordagens filogenéticas baseadas em árvore visam distinguir a especiação de eventos de duplicação de genes, comparando árvores de genes com árvores de espécies, implementadas em bancos de dados e ferramentas de software como:

Uma terceira categoria de abordagens híbridas usa métodos heurísticos e filogenéticos para construir clusters e determinar árvores, por exemplo:

  • EnsemblCompara GeneTrees
  • HomoloGene
  • Ortholuge

Paralogia

Genes paralogos são genes relacionados por meio de eventos de duplicação no último ancestral comum (LCA) da espécie que está sendo comparada. Eles resultam da mutação de genes duplicados durante eventos de especiação separados. Quando os descendentes do LCA compartilham homólogos mutantes dos genes duplicados originais, esses genes são considerados parálogos.

Por exemplo, no LCA, um gene (gene A) pode ser duplicado para fazer um gene semelhante separado (gene B), esses dois genes continuarão a ser passados ​​para as gerações subsequentes. Durante a especiação, um ambiente irá favorecer uma mutação no gene A (gene A1), produzindo uma nova espécie com os genes A1 e B. Então, em um evento de especiação separado, um ambiente irá favorecer uma mutação no gene B (gene B1) dando origem a uma nova espécie com genes A e B1. Os genes dos descendentes A1 e B1 são parálogos uns aos outros porque são homólogos relacionados por meio de um evento de duplicação no último ancestral comum das duas espécies.

Classificações adicionais de paralogs incluem alloparalogs (out-paralogs) e symparalogs (in-paralogs). Alloparalogs são parálogos que evoluíram de duplicações de genes que precederam o evento de especiação dado. Em outras palavras, os aloparálogos são parálogos que evoluíram de eventos de duplicação que aconteceram no LCA dos organismos que estão sendo comparados. O exemplo acima é um exemplo de aloparalogia. Symparalogs são parálogos que evoluíram da duplicação de genes parálogos em eventos de especiação subsequentes. Pelo exemplo acima, se o descendente com os genes A1 e B passou por outro evento de especiação onde o gene A1 se duplicou, a nova espécie teria os genes B, A1a e A1b. Neste exemplo, os genes A1a e A1b são simparálogos.

Os genes de vertebrados Hox são organizados em conjuntos de parálogos. Cada cluster Hox (HoxA, HoxB, etc.) está em um cromossomo diferente. Por exemplo, o cluster HoxA humano está no cromossomo 7 . O cluster HoxA de camundongo mostrado aqui tem 11 genes parálogos (2 estão faltando).

Genes paralogos podem moldar a estrutura de genomas inteiros e, assim, explicar a evolução do genoma em grande medida. Os exemplos incluem os genes Homeobox ( Hox ) em animais. Esses genes não apenas sofreram duplicações gênicas dentro dos cromossomos, mas também duplicações do genoma inteiro . Como resultado, os genes Hox na maioria dos vertebrados são agrupados em vários cromossomos, sendo os clusters HoxA-D os mais bem estudados.

Outro exemplo são os genes da globina que codificam a mioglobina e a hemoglobina e são considerados antigos parálogos. Da mesma forma, as quatro classes conhecidas de hemoglobinas ( hemoglobina A , hemoglobina A2 , hemoglobina B e hemoglobina F ) são parálogas entre si. Embora cada uma dessas proteínas desempenhe a mesma função básica de transporte de oxigênio, elas já divergem ligeiramente em função: a hemoglobina fetal (hemoglobina F) tem uma afinidade maior pelo oxigênio do que a hemoglobina adulta. A função nem sempre é conservada, no entanto. A angiogenina humana divergiu da ribonuclease , por exemplo, e embora os dois parálogos permaneçam semelhantes na estrutura terciária, suas funções dentro da célula são agora bastante diferentes.

Freqüentemente, afirma-se que os ortólogos são mais funcionalmente semelhantes do que os parálogos de divergência semelhante, mas vários artigos contestaram essa noção.

Regulamento

Os paralogos são frequentemente regulados de forma diferente, por exemplo, por terem diferentes padrões de expressão específicos de tecido (ver genes Hox). No entanto, eles também podem ser regulados de forma diferente no nível de proteína. Por exemplo, Bacillus subtilis codifica dois parálogos da glutamato desidrogenase : GudB é transcrito constitutivamente, enquanto RocG é rigidamente regulado. Em seus estados oligoméricos ativos, ambas as enzimas apresentam taxas enzimáticas semelhantes. No entanto, as trocas de enzimas e promotores causam graves perdas de aptidão, indicando assim a coevolução promotor-enzima. A caracterização das proteínas mostra que, em comparação com RocG, a atividade enzimática de GudB é altamente dependente do glutamato e do pH.

Regiões cromossômicas paralógicas

Às vezes, grandes regiões de cromossomos compartilham conteúdo gênico semelhante a outras regiões cromossômicas dentro do mesmo genoma. Eles são bem caracterizados no genoma humano, onde têm sido usados ​​como evidências para apoiar a hipótese 2R . Conjuntos de genes duplicados, triplicados e quadruplicados, com os genes relacionados em cromossomos diferentes, são deduzidos como remanescentes do genoma ou duplicações cromossômicas. Um conjunto de regiões de paralogia é chamado de paralogon. Conjuntos bem estudados de regiões de paralogia incluem regiões do cromossomo humano 2, 7, 12 e 17 contendo agrupamentos de genes Hox , genes de colágeno , genes de queratina e outros genes duplicados, regiões de cromossomos humanos 4, 5, 8 e 10 contendo genes de receptores de neuropeptídeos, Genes homeobox da classe NK e muitas outras famílias de genes e partes dos cromossomos humanos 13, 4, 5 e X contendo os genes ParaHox e seus vizinhos. O complexo principal de histocompatibilidade (MHC) no cromossomo 6 humano tem regiões de paralogia nos cromossomos 1, 9 e 19. Grande parte do genoma humano parece ser atribuível a regiões de paralogia.

Ohnology

Um evento de duplicação do genoma completo produz um genoma com duas cópias ohnolog de cada gene.
Um evento de especiação produz ortólogos de um gene nas duas espécies filhas. Um evento de transferência horizontal de genes de uma espécie para outra adiciona um xenólogo do gene ao seu genoma.
Um evento de especiação produz ortólogos de um gene nas duas espécies filhas. A hibridização subsequente dessas espécies gera um genoma híbrido com uma cópia homeológica de cada gene de ambas as espécies.

Genes Ohnologous são parálogos genes que têm originado por um processo de 2R duplicação de todo o genoma . O nome foi dado pela primeira vez em homenagem a Susumu Ohno por Ken Wolfe. Ohnologues são úteis para a análise evolutiva porque todos os ohnologues em um genoma divergem pelo mesmo período de tempo (desde sua origem comum na duplicação do genoma inteiro). Ohnologues também são conhecidos por mostrarem maior associação com cânceres, distúrbios genéticos dominantes e variações patogênicas no número de cópias.

Xenologia

Os homólogos resultantes da transferência horizontal de genes entre dois organismos são denominados xenólogos. Os xenólogos podem ter funções diferentes se o novo ambiente for muito diferente para o gene que se move horizontalmente. Em geral, porém, os xenólogos normalmente têm funções semelhantes em ambos os organismos. O termo foi cunhado por Walter Fitch.

Homeologia

Cromossomos ou partes de cromossomos homoólogos (também soletrados como homeólogos) são aqueles reunidos após a hibridização interespécies e alopoliploidização para formar um genoma híbrido , e cuja relação era completamente homóloga em uma espécie ancestral. Em alopoliploides, os cromossomos homólogos dentro de cada sub-genoma parental devem se emparelhar fielmente durante a meiose , levando à herança dissômica; no entanto, em alguns alopoliploides, os cromossomos homoeólogos dos genomas parentais podem ser quase tão semelhantes uns aos outros quanto os cromossomos homólogos, levando à herança tetrassômica (quatro cromossomos emparelhados na meiose), recombinação intergenômica e fertilidade reduzida.

Gametologia

Gametologia denota a relação entre genes homólogos em cromossomos não recombinantes de sexo oposto . O termo foi cunhado por García-Moreno e Mindell. 2000. Os gametólogos resultam da origem da determinação genética do sexo e das barreiras à recombinação entre os cromossomos sexuais. Exemplos de gametólogos incluem CHDW e CHDZ em pássaros.

Veja também

Referências