DNA não codificante -Non-coding DNA

Cariograma esquemático de um ser humano, mostrando uma visão geral do genoma humano na banda G , em que as regiões mais claras são geralmente mais ativas transcricionalmente , enquanto as regiões mais escuras são mais inativas.

Sequências de DNA não codificantes ( ncDNA ) são componentes do DNA de um organismo que não codificam sequências de proteínas . Algum DNA não codificante é transcrito em moléculas de RNA não codificantes funcionais (por exemplo, RNA de transferência , microRNA , piRNA , RNA ribossômico e RNAs reguladores ). Outras regiões funcionais da fração de DNA não codificante incluem sequências regulatórias que controlam a expressão gênica; regiões de fixação do andaime ; origens da replicação do DNA ; centrômeros ; e telômeros . Algumas regiões não codificantes parecem ser principalmente não funcionais, como íntrons , pseudogenes , DNA intergênico e fragmentos de transposons e vírus .

Fração de DNA genômico não codificante

Nas bactérias, as regiões codificantes normalmente ocupam 88% do genoma. Os 12% restantes consistem em grande parte de genes não codificantes e sequências reguladoras, o que significa que quase todo o genoma bacteriano tem uma função. A quantidade de DNA codificador em eucariotos é geralmente uma fração muito menor do genoma porque os genomas eucarióticos contêm grandes quantidades de DNA repetitivo não encontrado em procariotos. O genoma humano contém algo entre 1 a 2% de DNA codificador. O número exato não é conhecido porque há disputas sobre o número de éxons de codificação funcional e sobre o tamanho total do genoma humano. Isso significa que 98-99% do genoma humano consiste em DNA não codificante e isso inclui muitos elementos funcionais, como genes não codificantes e sequências reguladoras.

O tamanho do genoma em eucariotos pode variar em uma ampla faixa, mesmo entre sequências intimamente relacionadas. Esta observação intrigante foi originalmente conhecida como o Paradoxo do valor C , onde "C" se refere ao tamanho do genoma haploide. O paradoxo foi resolvido com a descoberta de que a maioria das diferenças se devia à expansão e contração do DNA repetitivo e não ao número de genes. Alguns pesquisadores especularam que esse DNA repetitivo era principalmente DNA lixo. As razões para as mudanças no tamanho do genoma ainda estão sendo trabalhadas e esse problema é chamado de Enigma do valor C.

Isso levou à observação de que o número de genes não parece se correlacionar com as noções percebidas de complexidade porque o número de genes parece ser relativamente constante, um problema denominado Paradoxo do valor G. Por exemplo, foi relatado que o genoma do unicelular Polychaos dubium (anteriormente conhecido como Amoeba dubia ) contém mais de 200 vezes a quantidade de DNA em humanos (ou seja, mais de 600 bilhões de pares de bases versus um pouco mais de 3 bilhões em humanos ). O genoma do baiacu Takifugu rubripes tem apenas cerca de um oitavo do tamanho do genoma humano, mas parece ter um número comparável de genes. Os genes ocupam cerca de 30% do genoma do baiacu e o DNA codificador é cerca de 10%. (DNA não codificante = 90%.) O tamanho reduzido do genoma do baiacu se deve a uma redução no comprimento dos íntrons e a um DNA menos repetitivo.

Utricularia gibba , uma planta de bexiga , tem um genoma nuclear muito pequeno (100,7 Mb) em comparação com a maioria das plantas. Provavelmente evoluiu de um genoma ancestral com 1.500 Mb de tamanho. O genoma da bexiga tem aproximadamente o mesmo número de genes que outras plantas, mas a quantidade total de DNA codificante chega a cerca de 30% do genoma.

O restante do genoma (70% de DNA não codificante) consiste em promotores e sequências regulatórias mais curtas do que as de outras espécies de plantas. Os genes contêm íntrons, mas há menos deles e são menores que os íntrons em outros genomas de plantas. Existem genes não codificantes, incluindo muitas cópias de genes de RNA ribossômico. O genoma também contém sequências de telômeros e centrômeros como esperado. Grande parte do DNA repetitivo visto em outros eucariotos foi excluído do genoma da bexiga desde que essa linhagem se separou das de outras plantas. Cerca de 59% do genoma das bexigas consiste em sequências relacionadas ao transposon, mas como o genoma é muito menor do que outros genomas, isso representa uma redução considerável na quantidade desse DNA. Os autores do artigo original de 2013 observam que as alegações de elementos funcionais adicionais no DNA não-codificante de animais não parecem se aplicar aos genomas das plantas.

De acordo com um artigo do New York Times, durante a evolução desta espécie, "... o lixo genético que não servia a um propósito foi eliminado e o material necessário foi mantido." De acordo com Victor Albert, da Universidade de Buffalo, a planta é capaz de expurgar o chamado DNA lixo e "ter uma planta multicelular perfeitamente boa com muitas células, órgãos, tipos de tecidos e flores diferentes, e você pode fazer isso sem o lixo. O lixo não é necessário."

Tipos de sequências de DNA não codificantes

Genes não codificantes

Existem dois tipos de genes : genes codificadores de proteínas e genes não codificantes . Genes não codificantes são uma parte importante do DNA não codificante e incluem genes para RNA de transferência e RNA ribossômico . Esses genes foram descobertos na década de 1960. Os genomas procarióticos contêm genes para vários outros RNAs não codificantes, mas os genes de RNA não codificantes são muito mais comuns em eucariotos.

Classes típicas de genes não codificantes em eucariotos incluem genes para pequenos RNAs nucleares (snRNAs), pequenos RNAs nucleolares (sno RNAs), microRNAs (miRNAs), RNAs curtos de interferência (siRNAs), RNAs que interagem com PIWI (piRNAs) e longos RNAs não codificantes . lncRNA). Além disso, há vários genes de RNA únicos que produzem RNAs catalíticos.

Os genes não codificantes representam apenas uma pequena porcentagem dos genomas procarióticos, mas podem representar uma fração muito maior nos genomas eucarióticos. Em humanos, os genes não codificantes ocupam pelo menos 6% do genoma, principalmente porque existem centenas de cópias de genes de RNA ribossômico. Os genes que codificam proteínas ocupam cerca de 38% do genoma; uma fração muito maior do que a região codificadora porque os genes contêm grandes íntrons.

O número total de genes não codificantes no genoma humano é controverso. Alguns cientistas acham que existem apenas cerca de 5.000 genes não codificantes, enquanto outros acreditam que pode haver mais de 100.000 (consulte o artigo sobre RNA não codificante ). A diferença se deve em grande parte ao debate sobre o número de genes lncRNA.

Promotores e elementos reguladores

Os promotores são segmentos de DNA próximos à extremidade 5' do gene onde a transcrição começa. Eles são os locais onde a RNA polimerase se liga para iniciar a síntese de RNA. Cada gene tem um promotor não codificante.

Elementos regulatórios são locais que controlam a transcrição de um gene próximo. Quase sempre são sequências onde os fatores de transcrição se ligam ao DNA e esses fatores de transcrição podem ativar a transcrição (ativadores) ou reprimir a transcrição (repressores). Elementos reguladores foram descobertos na década de 1960 e suas características gerais foram trabalhadas na década de 1970, estudando fatores de transcrição específicos em bactérias e bacteriófagos.

Os promotores e as sequências reguladoras representam uma classe abundante de DNA não codificante, mas consistem principalmente em uma coleção de sequências relativamente curtas, de modo que não ocupam uma fração muito grande do genoma. A quantidade exata de DNA regulador no genoma dos mamíferos não é clara porque é difícil distinguir entre os locais de ligação do fator de transcrição espúrios e aqueles que são funcionais. As características de ligação das proteínas típicas de ligação ao DNA foram caracterizadas na década de 1970 e as propriedades bioquímicas dos fatores de transcrição prevêem que em células com grandes genomas a maioria dos sítios de ligação será fortuita e não biologicamente funcional.

Muitas sequências reguladoras ocorrem perto dos promotores, geralmente a montante do local de início da transcrição do gene. Alguns ocorrem dentro de um gene e alguns estão localizados a jusante do local de terminação da transcrição. Em eucariotos, existem algumas sequências reguladoras que estão localizadas a uma distância considerável da região promotora. Essas sequências regulatórias distantes são freqüentemente chamadas de intensificadores , mas não há uma definição rigorosa de intensificador que o diferencie de outros locais de ligação do fator de transcrição.

íntrons

Ilustração de um precursor de pré-mRNA sem emenda, com cinco íntrons e seis éxons (topo). Depois que os íntrons foram removidos por splicing, a sequência de mRNA madura está pronta para tradução (abaixo).

Os íntrons são as partes de um gene que são transcritas na sequência precursora do RNA , mas finalmente removidas pelo splicing do RNA durante o processamento para o RNA maduro. Os íntrons são encontrados em ambos os tipos de genes: genes codificadores de proteínas e genes não codificantes. Eles estão presentes em procariotos, mas são muito mais comuns em genomas eucarióticos.

Os íntrons do grupo I e do grupo II ocupam apenas uma pequena porcentagem do genoma quando estão presentes. Os íntrons spliceossomais (ver Figura) são encontrados apenas em eucariotos e podem representar uma proporção substancial do genoma. Em humanos, por exemplo, os íntrons em genes codificadores de proteínas cobrem 37% do genoma. Combinar isso com cerca de 1% de sequências de codificação significa que os genes que codificam proteínas ocupam cerca de 39% do genoma humano. Os cálculos para genes não codificantes são mais complicados porque há uma disputa considerável sobre o número total de genes não codificantes, mas tomar apenas os exemplos bem definidos significa que os genes não codificantes ocupam pelo menos 6% do genoma.

Regiões não traduzidas

Os livros-texto padrão de bioquímica e biologia molecular descrevem nucleotídeos não codificantes no mRNA localizados entre a extremidade 5' do gene e o códon de iniciação da tradução. Essas regiões são chamadas de regiões 5' não traduzidas ou 5'-UTRs. Regiões semelhantes chamadas regiões 3' não traduzidas (3'-UTRs) são encontradas no final do gene. Os 5'-UTRs e 3'UTRs são muito curtos em bactérias, mas podem ter várias centenas de nucleotídeos de comprimento em eucariotos. Eles contêm elementos curtos que controlam o início da tradução (5'-UTRs) e o término da transcrição (3'-UTRs), bem como elementos reguladores que podem controlar a estabilidade, o processamento e o direcionamento do mRNA para diferentes regiões da célula.

Origens da replicação

A síntese de DNA começa em locais específicos chamados origens de replicação . Estas são regiões do genoma onde a maquinaria de replicação do DNA é montada e o DNA é desenrolado para iniciar a síntese do DNA. Na maioria dos casos, a replicação prossegue em ambas as direções a partir da origem da replicação.

As principais características das origens de replicação são sequências onde proteínas de iniciação específicas são ligadas. Uma origem de replicação típica cobre cerca de 100-200 pares de bases de DNA. Os procariotos têm uma origem de replicação por cromossomo ou plasmídeo, mas geralmente há origens múltiplas nos cromossomos eucarióticos. O genoma humano contém cerca de 100.000 origens de replicação representando cerca de 0,3% do genoma.

Centrômeros

Os centrômeros são os locais onde as fibras do fuso se ligam aos cromossomos recém-replicados para segregá-los em células-filhas quando a célula se divide. Cada cromossomo eucariótico tem um único centrômero funcional que é visto como uma região constrita em um cromossomo metafásico condensado. O DNA centromérico consiste em várias sequências repetitivas de DNA que geralmente ocupam uma fração significativa do genoma porque cada centrômero pode ter milhões de pares de bases de comprimento. Em humanos, por exemplo, as sequências de todos os 24 centrômeros foram determinadas e representam cerca de 6% do genoma. No entanto, é improvável que todo esse DNA não-codificante seja essencial, pois há uma variação considerável na quantidade total de DNA centromérico em diferentes indivíduos. Os centrômeros são outro exemplo de sequências funcionais de DNA não codificantes que são conhecidas há quase meio século e é provável que sejam mais abundantes do que o DNA codificador.

telômeros

Os telômeros são regiões de DNA repetitivo no final de um cromossomo , que fornecem proteção contra a deterioração cromossômica durante a replicação do DNA . Estudos recentes mostraram que os telômeros funcionam para ajudar em sua própria estabilidade. O RNA contendo repetições teloméricas (TERRA) são transcritos derivados dos telômeros. TERRA demonstrou manter a atividade da telomerase e alongar as extremidades dos cromossomos.

Regiões de fixação do andaime

Ambos os genomas procarióticos e eucaróticos são organizados em grandes loops de DNA ligado a proteínas. Nos eucariotos, as bases das alças são chamadas de regiões de fixação de andaimes (SARs) e consistem em trechos de DNA que se ligam a um complexo RNA/proteína para estabilizar a alça. Existem cerca de 100.000 loops no genoma humano e cada um consiste em cerca de 100 pb de DNA. A quantidade total de DNA dedicada aos SARs representa cerca de 0,3% do genoma humano.

Pseudogenes

Os pseudogenes são principalmente genes anteriores que se tornaram não funcionais devido à mutação, mas o termo também se refere a sequências de DNA inativas derivadas de RNAs produzidos por genes funcionais ( pseudogenes processados ). Os pseudogenes são apenas uma pequena fração do DNA não codificante nos genomas procarióticos porque são eliminados por seleção negativa. Em alguns eucariotos, no entanto, os pseudogenes podem se acumular porque a seleção não é poderosa o suficiente para eliminá-los (consulte Teoria quase neutra da evolução molecular ).

O genoma humano contém cerca de 15.000 pseudogenes derivados de genes codificadores de proteínas e um número desconhecido derivado de genes não codificantes. Eles podem cobrir uma fração substancial do genoma (~ 5%), pois muitos deles contêm sequências de íntrons anteriores, .

Pseudogenes são DNA lixo por definição e evoluem na taxa neutra esperada para DNA lixo. Alguns ex-pseudogenes adquiriram secundariamente uma função e isso leva alguns cientistas a especular que a maioria dos pseudogenes não são lixo porque eles têm uma função ainda a ser descoberta.

Sequências repetidas, transposons e elementos virais

Elementos genéticos móveis na célula (à esquerda) e como eles podem ser adquiridos (à direita)

Transposons e retrotransposons são elementos genéticos móveis . Sequências repetidas de retrotransposon , que incluem elementos nucleares intercalados longos (LINEs) e elementos nucleares intercalados curtos (SINEs), representam uma grande proporção das sequências genômicas em muitas espécies. As sequências Alu , classificadas como um elemento nuclear curto intercalado, são os elementos móveis mais abundantes no genoma humano. Alguns exemplos foram encontrados de SINEs exercendo controle transcricional de alguns genes que codificam proteínas.

As seqüências endógenas de retrovírus são o produto da transcrição reversa de genomas de retrovírus nos genomas de células germinativas . A mutação nessas sequências retrotranscritas pode inativar o genoma viral.

Mais de 8% do genoma humano é composto de sequências endógenas de retrovírus (principalmente deterioradas), como parte da fração de mais de 42% que é reconhecidamente derivada de retrotransposons, enquanto outros 3% podem ser identificados como restos de transposons de DNA . Espera-se que grande parte da metade restante do genoma que está atualmente sem uma origem explicada tenha encontrado sua origem em elementos transponíveis que estavam ativos há tanto tempo (> 200 milhões de anos) que mutações aleatórias os tornaram irreconhecíveis. A variação do tamanho do genoma em pelo menos dois tipos de plantas é principalmente o resultado de sequências de retrotransposon.

DNA altamente repetitivo

DNA altamente repetitivo consiste em trechos curtos de DNA que são repetidos muitas vezes em conjunto (um após o outro). Os segmentos de repetição são geralmente entre 2 bp e 10 bp, mas os mais longos são conhecidos. DNA altamente repetitivo é raro em procariotos, mas comum em eucariotos, especialmente aqueles com grandes genomas. Às vezes é chamado de DNA satélite .

A maior parte do DNA altamente repetitivo é encontrada nos centrômeros e telômeros (veja acima) e a maior parte é funcional, embora alguns possam ser redundantes. A outra fração significativa reside em repetições curtas em tandem (STRs; também chamadas de microssatélites ), consistindo em trechos curtos de uma repetição simples, como ATC. Existem cerca de 350.000 STRs no genoma humano e estão espalhados por todo o genoma com um comprimento médio de cerca de 25 repetições.

Variações no número de repetições STR podem causar doenças genéticas quando estão dentro de um gene, mas a maioria dessas regiões parece ser DNA lixo não funcional, onde o número de repetições pode variar consideravelmente de indivíduo para indivíduo. É por isso que essas diferenças de comprimento são usadas extensivamente na impressão digital de DNA .

DNA lixo

"DNA lixo" refere-se amplamente a "qualquer sequência de DNA que não desempenha um papel funcional no desenvolvimento, fisiologia ou alguma outra capacidade no nível do organismo". O termo "DNA lixo" foi usado na década de 1960. mas só se tornou amplamente conhecido em 1972 em um artigo de Susumu Ohno . Ohno observou que a carga mutacional de mutações deletérias colocou um limite superior no número de loci funcionais que poderiam ser esperados, dada uma taxa de mutação típica. Ele levantou a hipótese de que os genomas de mamíferos não poderiam ter mais de 30.000 loci sob seleção antes que o "custo" da carga mutacional causasse um declínio inevitável na aptidão e, eventualmente, a extinção. A presença de DNA lixo também explicou a observação de que mesmo espécies intimamente relacionadas podem ter tamanhos de genoma amplamente diferentes (ordem de magnitude) ( paradoxo do valor C ).

Alguns autores afirmam que o termo "DNA lixo" ocorre principalmente na ciência popular e não é mais usado em artigos de pesquisa sérios. No entanto, o exame do Web of Science mostra imediatamente que isso é, na melhor das hipóteses, uma simplificação exagerada. Graur, por exemplo, calculou que cada casal humano precisaria ter um grande número de filhos para manter a população se todos os genes fossem essenciais:

A situação se torna muito mais absurda e insustentável se assumirmos que todo o genoma é funcional, como proclamam os criacionistas... exigiria que cada casal produzisse, em média, um mínimo de 272 e um máximo de 5 × 10 53 filhos.

Da mesma forma, em uma revisão recente, Palazzo e Kejiou observaram a impossibilidade de manter uma população com 100% de funcionalidade e apontam que "muitos pesquisadores continuam afirmando, erroneamente, que todo DNA não codificante já foi considerado lixo".

Desde o final da década de 1970, tornou-se evidente que a maior parte do DNA em grandes genomas encontra sua origem na amplificação egoísta de elementos transponíveis , sobre os quais W. Ford Doolittle e Carmen Sapienza em 1980 escreveram na revista Nature : "Quando um determinado DNA, ou classe de DNAs, de função fenotípica não comprovada pode ter desenvolvido uma estratégia (como a transposição) que garante sua sobrevivência genômica, então nenhuma outra explicação para sua existência é necessária." Pode-se esperar que a quantidade de DNA lixo dependa da taxa de amplificação desses elementos e da taxa na qual o DNA não funcional é perdido. Outra fonte é a duplicação do genoma seguida por uma perda de função devido à redundância. Na mesma edição da Nature , Leslie Orgel e Francis Crick escreveram que o DNA lixo tem "pouca especificidade e transmite pouca ou nenhuma vantagem seletiva ao organismo".

O termo "DNA lixo" pode provocar uma forte reação e alguns recomendaram o uso de uma terminologia mais neutra, como "DNA não funcional".

Projeto ENCODE

O projeto Encyclopedia of DNA Elements ( ENCODE ) descobriu, por abordagens bioquímicas diretas, que pelo menos 80% do DNA genômico humano tem atividade bioquímica como "transcrição, associação de fatores de transcrição, estrutura da cromatina e modificação de histonas". Embora isso não tenha sido necessariamente inesperado devido às décadas anteriores de pesquisa descobrindo muitas regiões funcionais não codificantes, alguns cientistas criticaram a conclusão por confundir a atividade bioquímica com a função biológica . Alguns argumentaram que nem a acessibilidade de segmentos do genoma aos fatores de transcrição nem sua transcrição garantem que esses segmentos tenham função bioquímica e que sua transcrição seja seletivamente vantajosa . Afinal, seções não funcionais do genoma podem ser transcritas, visto que os fatores de transcrição normalmente se ligam a sequências curtas encontradas (aleatoriamente) em todo o genoma.

No entanto, outros argumentaram contra confiar apenas em estimativas de genômica comparativa devido ao seu escopo limitado, uma vez que o DNA não codificante está envolvido na atividade epigenética e em redes complexas de interações genéticas e é explorado na biologia evolutiva do desenvolvimento . Antes do ENCODE, as estimativas muito mais baixas de funcionalidade eram baseadas em estimativas de conservação genômica em linhagens de mamíferos. As estimativas para a fração biologicamente funcional do genoma humano com base na genômica comparativa variam entre 8 e 15%. Uma indicação consistente da funcionalidade biológica de uma região genômica é se a sequência dessa região genômica foi mantida por seleção purificadora (ou se a mutação da sequência é deletéria para o organismo). Sob esta definição, 90% do genoma é 'lixo'. No entanto, alguns enfatizam que 'lixo' não é 'lixo' e o grande corpo de transcritos não funcionais produzidos por 'DNA lixo' pode desenvolver elementos funcionais de novo . No entanto, a transcrição e o splicing generalizados no genoma humano têm sido discutidos como outro indicador da função genética, além da conservação genômica, que pode perder sequências funcionais mal conservadas. E muito do aparente DNA lixo está envolvido na regulação epigenética e parece ser necessário para o desenvolvimento de organismos complexos.

Contribuir para o debate é que não há consenso sobre o que constitui um elemento "funcional" no genoma, uma vez que geneticistas, biólogos evolutivos e biólogos moleculares empregam diferentes abordagens e definições de "função", muitas vezes com falta de clareza do que significam. na literatura. Devido à ambiguidade na terminologia, existem diferentes escolas de pensamento sobre este assunto. Além disso, os métodos usados ​​têm limitações, por exemplo, as abordagens genéticas podem perder elementos funcionais que não se manifestam fisicamente no organismo, as abordagens evolutivas têm dificuldades em usar alinhamentos precisos de sequências multiespécies, uma vez que os genomas de espécies intimamente relacionadas variam consideravelmente, e com abordagens bioquímicas , embora tendo alta reprodutibilidade, as assinaturas bioquímicas nem sempre significam automaticamente uma função. Kellis et ai. observou que 70% da cobertura da transcrição era inferior a 1 transcrição por célula (e pode, portanto, ser baseada na transcrição de fundo espúria). Por outro lado, eles argumentaram que a fração de 12 a 15% do DNA humano pode estar sob restrição funcional e ainda pode ser subestimada quando as restrições específicas da linhagem são incluídas. Em última análise, abordagens genéticas, evolutivas e bioquímicas podem ser usadas de maneira complementar para identificar regiões que podem ser funcionais na biologia e nas doenças humanas. Alguns críticos argumentaram que a funcionalidade só pode ser avaliada em referência a uma hipótese nula apropriada . Nesse caso, a hipótese nula seria que essas partes do genoma não são funcionais e possuem propriedades, seja com base na conservação ou na atividade bioquímica, que seriam esperadas de tais regiões com base em nossa compreensão geral da evolução molecular e bioquímica . De acordo com esses críticos, até que uma região em questão tenha mostrado características adicionais, além do que se espera da hipótese nula, ela deve ser provisoriamente rotulada como não funcional.

Estudos de associação ampla do genoma (GWAS) e DNA não codificante

Estudos de associação ampla do genoma (GWAS) identificam ligações entre alelos e características observáveis, como fenótipos e doenças. A maioria das associações é entre polimorfismos de nucleotídeo único (SNPs) e a característica que está sendo examinada e a maioria desses SNPs está localizada em DNA não funcional. A associação estabelece uma ligação que ajuda a mapear a região do DNA responsável pela característica, mas não necessariamente identifica as mutações que causam a doença ou a diferença fenotípica.

SNPs que estão fortemente ligados a características são os mais propensos a identificar uma mutação causal. (A associação é referida como desequilíbrio de ligação forte ). Cerca de 12% desses polimorfismos são encontrados em regiões codificantes; cerca de 40% estão localizados em íntrons; e a maior parte do restante é encontrada em regiões intergênicas, incluindo sequências reguladoras.

Veja também

Referências

Leitura adicional

links externos