Tradução automática baseada em transferência - Transfer-based machine translation

A pirâmide de Bernard Vauquois mostrando profundidades comparativas de representação intermediária com tradução automática interlingual no pico, seguida por tradução baseada em transferência e, em seguida, tradução direta .

A tradução automática baseada em transferência é um tipo de tradução automática (MT). Atualmente é um dos métodos de tradução automática mais utilizados. Em contraste com o modelo direto mais simples de TM, a transferência de TM divide a tradução em três etapas: análise do texto do idioma de origem para determinar sua estrutura gramatical, transferência da estrutura resultante para uma estrutura adequada para gerar texto no idioma de destino e, finalmente, geração deste texto. Os sistemas de TA baseados em transferência são, portanto, capazes de usar o conhecimento dos idiomas de origem e de destino.

Projeto

Tanto a tradução automática por transferência quanto a tradução automática interlíngua têm a mesma ideia: para fazer uma tradução é necessário ter uma representação intermediária que capte o "significado" da frase original para gerar a tradução correta. Na TM baseada na interlíngua, essa representação intermediária deve ser independente das línguas em questão, enquanto na TM baseada na transferência, ela tem alguma dependência do par de línguas envolvido.

A forma como os sistemas de tradução automática baseados em transferência funcionam varia substancialmente, mas em geral seguem o mesmo padrão: aplicam conjuntos de regras linguísticas que são definidas como correspondências entre a estrutura da língua de partida e a da língua de destino. O primeiro estágio envolve a análise do texto de entrada quanto à morfologia e sintaxe (e às vezes semântica ) para criar uma representação interna. A tradução é gerada a partir dessa representação usando dicionários bilíngues e regras gramaticais.

É possível com esta estratégia de tradução obter traduções de qualidade razoavelmente alta, com precisão em torno de 90% (embora isso seja altamente dependente do par de idiomas em questão, por exemplo, a distância entre os dois).

Operação

Em um sistema de tradução automática baseado em regras, o texto original é primeiro analisado morfologicamente e sintaticamente para obter uma representação sintática. Essa representação pode então ser refinada a um nível mais abstrato, enfatizando as partes relevantes para a tradução e ignorando outros tipos de informação. O processo de transferência então converte essa representação final (ainda no idioma original) em uma representação do mesmo nível de abstração no idioma de destino. Essas duas representações são chamadas de representações "intermediárias". A partir da representação do idioma de destino, as etapas são aplicadas ao contrário.

Análise e transformação

Vários métodos de análise e transformação podem ser usados ​​antes de obter o resultado final. Junto com essas abordagens estatísticas podem ser aumentados sistemas híbridos de geração. Os métodos que são escolhidos e a ênfase dependem em grande parte do projeto do sistema, no entanto, a maioria dos sistemas inclui pelo menos os seguintes estágios:

  • Análise morfológica . As formas de superfície do texto de entrada são classificadas como classe gramatical (por exemplo, substantivo, verbo, etc.) e subcategoria (número, gênero, tempo verbal, etc.). Todas as "análises" possíveis para cada forma de superfície são normalmente geradas neste estágio, junto com o lema da palavra.
  • Categorização lexical . Em qualquer texto, algumas das palavras podem ter mais de um significado , causando ambigüidade na análise. A categorização lexical analisa o contexto de uma palavra para tentar determinar o significado correto no contexto da entrada. Isso pode envolver marcação de classes gramaticais e desambiguação do sentido da palavra .
  • Transferência lexical . Esta é basicamente uma tradução de dicionário; o lema do idioma de origem (talvez com informações de sentido) é consultado em um dicionário bilíngue e a tradução é escolhida.
  • Transferência estrutural . Enquanto os estágios anteriores lidam com palavras, este estágio lida com constituintes maiores, por exemplo, frases e pedaços . As características típicas deste estágio incluem concordância de gênero e número e reordenação de palavras ou frases.
  • Geração morfológica . A partir da saída do estágio de transferência estrutural, as formas de superfície da linguagem alvo são geradas.

Tipos de transferência

Uma das principais características dos sistemas de tradução automática baseados em transferência é uma fase que "transfere" uma representação intermediária do texto no idioma original para uma representação intermediária do texto no idioma de destino. Isso pode funcionar em um dos dois níveis de análise linguística, ou em algum ponto intermediário. Os níveis são:

  • Transferência superficial (ou sintática) . Este nível é caracterizado pela transferência de "estruturas sintáticas" entre as línguas de origem e de destino. É adequado para línguas da mesma família ou do mesmo tipo, por exemplo nas línguas românicas entre espanhol, catalão, francês, italiano, etc.
  • Transferência profunda (ou semântica) . Este nível constrói uma representação semântica que depende do idioma de origem. Essa representação pode consistir em uma série de estruturas que representam o significado. Nestes sistemas de transferência, predicados são tipicamente produzidos. A tradução também normalmente requer transferência estrutural. Este nível é usado para traduzir entre idiomas mais distantes (por exemplo, espanhol-inglês ou espanhol-basco, etc.)

Referências

Veja também