Análise de sequência - Sequence analysis

Em bioinformática , a análise de sequência é o processo de submeter uma sequência de DNA , RNA ou peptídeo a qualquer um de uma ampla gama de métodos analíticos para compreender suas características, função, estrutura ou evolução. As metodologias usadas incluem alinhamento de sequências , pesquisas em bancos de dados biológicos e outros.

Desde o desenvolvimento de métodos de produção de alto rendimento de sequências de genes e proteínas, a taxa de adição de novas sequências aos bancos de dados aumentou muito rapidamente. Essa coleção de sequências não aumenta, por si só, a compreensão do cientista sobre a biologia dos organismos. No entanto, comparar essas novas sequências com aquelas com funções conhecidas é uma forma fundamental de compreender a biologia de um organismo de onde vem a nova sequência. Assim, a análise de sequência pode ser usada para atribuir funções a genes e proteínas pelo estudo das semelhanças entre as sequências comparadas. Hoje em dia, existem muitas ferramentas e técnicas que fornecem as comparações de sequências (alinhamento de sequências) e analisam o produto de alinhamento para entender sua biologia.

A análise de sequência em biologia molecular inclui uma ampla gama de tópicos relevantes:

  1. A comparação de sequências para encontrar semelhanças, muitas vezes para inferir se estão relacionadas ( homólogas )
  2. Identificação de características intrínsecas da sequência, como sítios ativos , sítios de modificação pós-tradução , estruturas gênicas , quadros de leitura , distribuições de íntrons e exons e elementos reguladores
  3. Identificação de diferenças e variações de sequência, como mutações pontuais e polimorfismo de nucleotídeo único (SNP), a fim de obter o marcador genético .
  4. Revelando a evolução e diversidade genética de sequências e organismos
  5. Identificação da estrutura molecular apenas da sequência

Em química , a análise de sequência compreende técnicas usadas para determinar a sequência de um polímero formado por vários monômeros (consulte Análise de sequência de polímeros sintéticos ). Em biologia molecular e genética , o mesmo processo é chamado simplesmente de " sequenciamento ".

Em marketing , a análise de sequência é frequentemente usada em aplicativos analíticos de gerenciamento de relacionamento com o cliente, como modelos NPTB (Next Product to Buy).

Nas ciências sociais e na sociologia em particular, os métodos de sequência são cada vez mais usados ​​para estudar o curso de vida e trajetórias de carreira, uso do tempo, padrões de desenvolvimento organizacional e nacional, estrutura de conversação e interação e o problema da sincronia trabalho / família. Este corpo de pesquisa é descrito em análise de seqüência em ciências sociais .

História

Desde que as primeiras sequências da proteína insulina foram caracterizadas por Fred Sanger em 1951, os biólogos vêm tentando usar esse conhecimento para compreender a função das moléculas. Ele e as descobertas de seus colegas contribuíram para o sucesso do sequenciamento do primeiro genoma baseado em DNA. O método usado neste estudo, que é chamado de “método Sanger” ou sequenciamento Sanger , foi um marco no sequenciamento de moléculas de fita longa, como o DNA. Este método acabou sendo usado no projeto do genoma humano . De acordo com Michael Levitt , a análise de sequência nasceu no período de 1969 a 1977. Em 1969, a análise de sequências de RNAs de transferência foi usada para inferir interações de resíduos a partir de mudanças correlacionadas nas sequências de nucleotídeos, dando origem a um modelo da estrutura secundária do tRNA . Em 1970, Saul B. Needleman e Christian D. Wunsch publicaram o primeiro algoritmo de computador para alinhar duas sequências. Ao longo desse tempo, os desenvolvimentos na obtenção da sequência de nucleotídeos melhoraram muito, levando à publicação do primeiro genoma completo de um bacteriófago em 1977. Acredita-se que Robert Holley e sua equipe na Universidade Cornell foram os primeiros a sequenciar uma molécula de RNA.

Alinhamento de sequência

Exemplo de alinhamento de sequência múltipla

Existem milhões de sequências de proteínas e nucleotídeos conhecidas. Essas sequências se enquadram em muitos grupos de sequências relacionadas, conhecidas como famílias de proteínas ou famílias de genes. As relações entre essas sequências são geralmente descobertas alinhando-as e atribuindo a esse alinhamento uma pontuação. Existem dois tipos principais de alinhamento de sequência. O alinhamento de sequência de pares compara apenas duas sequências de cada vez e o alinhamento de sequência múltipla compara muitas sequências. Dois algoritmos importantes para alinhar pares de sequências são o algoritmo Needleman-Wunsch e o algoritmo Smith-Waterman . As ferramentas populares para alinhamento de sequência incluem:

Um uso comum para o alinhamento de sequências em pares é pegar uma sequência de interesse e compará-la com todas as sequências conhecidas em um banco de dados para identificar sequências homólogas . Em geral, as correspondências no banco de dados são ordenadas para mostrar as sequências mais estreitamente relacionadas primeiro, seguidas por sequências com semelhança decrescente. Essas correspondências são geralmente relatadas com uma medida de significância estatística, como um valor de expectativa .

Comparação de perfil

Em 1987, Michael Gribskov, Andrew McLachlan e David Eisenberg introduziram o método de comparação de perfis para identificar semelhanças distantes entre proteínas. Em vez de usar uma única sequência, os métodos de perfil usam um alinhamento de sequência múltipla para codificar um perfil que contém informações sobre o nível de conservação de cada resíduo. Esses perfis podem então ser usados ​​para pesquisar coleções de sequências para encontrar sequências que estão relacionadas. Os perfis também são conhecidos como Matrizes de pontuação específicas da posição (PSSMs). Em 1993, uma interpretação probabilística de perfis foi introduzida por Anders Krogh e colegas usando modelos ocultos de Markov . Esses modelos tornaram-se conhecidos como HMMs de perfil.

Nos últimos anos, foram desenvolvidos métodos que permitem a comparação de perfis diretamente entre si. São conhecidos como métodos de comparação de perfis.

Montagem de sequência

Montagem de sequência refere-se à reconstrução de uma sequência de DNA alinhando e fundindo pequenos fragmentos de DNA. É parte integrante do sequenciamento de DNA moderno . Uma vez que as tecnologias de sequenciamento de DNA atualmente disponíveis não são adequadas para a leitura de sequências longas, grandes pedaços de DNA (como genomas) são frequentemente sequenciados (1) cortando o DNA em pequenos pedaços, (2) lendo os pequenos fragmentos, e (3 ) reconstituindo o DNA original pela fusão das informações em vários fragmentos.

Recentemente, o sequenciamento de várias espécies de uma vez é um dos principais objetivos da pesquisa. Metagenômica é o estudo das comunidades microbianas obtidas diretamente do meio ambiente. Diferente dos microrganismos cultivados em laboratório, a amostra selvagem geralmente contém dezenas, às vezes até milhares de tipos de microrganismos de seus habitats originais. Recuperar os genomas originais pode ser um grande desafio.

Predição de genes

A predição ou descoberta de genes se refere ao processo de identificação das regiões do DNA genômico que codificam os genes . Isso inclui genes que codificam proteínas , bem como genes de RNA , mas também pode incluir a previsão de outros elementos funcionais, como regiões regulatórias . Geri é uma das primeiras e mais importantes etapas na compreensão do genoma de uma espécie, uma vez sequenciada . Em geral, a previsão de genes bacterianos é significativamente mais simples e mais precisa do que a previsão de genes em espécies eucarióticas que geralmente têm padrões complexos de íntron / exon . Identificar genes em sequências longas continua sendo um problema, especialmente quando o número de genes é desconhecido. Modelos ocultos de markov podem ser parte da solução. O aprendizado de máquina desempenhou um papel significativo na previsão da sequência de fatores de transcrição. A análise de sequenciamento tradicional focada nos parâmetros estatísticos da própria sequência de nucleotídeos (os programas mais comuns usados ​​estão listados na Tabela 4.1 ). Outro método é identificar sequências homólogas com base em outras sequências de genes conhecidas (Ferramentas, ver Tabela 4.3 ). Os dois métodos descritos aqui estão focados na sequência. No entanto, o formato dessas moléculas, como DNA e proteína, também foi estudado e proposto para ter uma influência equivalente, se não maior, no comportamento dessas moléculas.

Previsão da estrutura da proteína

Estrutura da proteína alvo (3dsm, mostrada em fitas), com backbones Calpha (em cinza) de 354 modelos previstos para ela submetidos no experimento de predição de estrutura CASP8.

As estruturas 3D das moléculas são de grande importância para suas funções na natureza. Uma vez que a previsão estrutural de grandes moléculas em um nível atômico é um problema amplamente intratável, alguns biólogos introduziram maneiras de prever a estrutura 3D em um nível de sequência primária. Isso inclui a análise bioquímica ou estatística de resíduos de aminoácidos em regiões locais e a inferência estrutural de homólogos (ou outras proteínas potencialmente relacionadas) com estruturas 3D conhecidas.

Tem havido um grande número de abordagens diversas para resolver o problema de previsão de estrutura. Para determinar quais métodos eram mais eficazes, foi fundada uma competição de previsão de estrutura chamada CASP (Critical Assessment of Structure Prediction).

Metodologia

As tarefas que estão no espaço da análise de sequência geralmente não são triviais para resolver e requerem o uso de abordagens relativamente complexas. Dos muitos tipos de métodos usados ​​na prática, os mais populares incluem:

Veja também

Referências