Comparação de diferentes abordagens de tradução automática - Comparison of different machine translation approaches

Baseado em regras e de tradução automática baseada em corpus

De tradução automática baseada em regras (RBMT) é gerada com base na análise morfológica, sintática e semântica de tanto a fonte e as línguas de destino. Tradução máquina baseado no Corpus (CBMT) é gerado na análise de corpora texto bilingue. O primeiro pertence ao domínio de racionalismo e o último empirismo. Dada em grande escala e regras linguísticas refinadas, sistemas RBMT são capazes de produzir traduções com qualidade razoável, mas a construção do sistema é muito demorado e trabalhoso, porque esses recursos linguísticos precisa ser trabalhada à mão, frequentemente referido como conhecimento aquisição problema. Além disso, é de grande dificuldade para corrigir a entrada ou adicionar novas regras para o sistema para gerar uma tradução. Por outro lado, no entanto, a adição de mais exemplos para um sistema CBMT pode melhorar o sistema, uma vez que é com base nos dados, embora a acumulação e gestão do enorme corpus de dados bilíngüe também pode ser caro.

Directo, de transferência e de tradução automática interlingual

Os diretos, à base de transferência máquina de tradução e tradução automática interlingual métodos de tradução automática todos pertencem a RBMT mas diferem na profundidade da análise da língua de origem e até que ponto eles tentam chegar a uma representação independente da linguagem de significado ou intenções entre a origem eo destino idiomas. Suas diferenças podem ser, obviamente, observados através do Triângulo Vauquois, que ilustra estes níveis de análise. Começando com o nível mais raso na parte inferior, transferência direta é feita no nível de palavra. Dependendo encontrar correspondências diretas entre língua de partida e unidades lexicais da língua alvo, DMT é uma abordagem tradução palavra por palavra com alguns ajustes gramaticais simples. Um sistema de DMT é projetado para uma fonte específica e um par de língua-alvo ea unidade de tradução de que é geralmente uma palavra.

E então a tradução ocorre em representações da estrutura da frase fonte e significado, respectivamente, através de abordagens de transferência sintáticas e semânticas. Uma tradução máquina baseada Transferência sistema envolve três etapas. A primeira etapa faz a análise do texto de origem e converte-os em representações abstratas; a segunda etapa converte aqueles em representações orientados para a linguagem de destino equivalentes; ea terceira gera o texto de destino final. A representação é específica para cada par de línguas. A estratégia de transferência pode ser visto como “um compromisso prático entre o uso eficiente dos recursos de sistemas Interlíngua, ea facilidade de implementação de sistemas diretos”.

Finalmente, no nível interlingual, a noção de transferência é substituído pelo interlingua. O IMT opera em duas fases: análise do texto SL em uma representação independente da linguagem universal abstrato de significado, ou seja, o interlingua, que é a fase de análise; gerar este significado usando as unidades lexicais e as construções sintácticas do TL, que é a fase de síntese. Teoricamente, quanto maior o triângulo, o menor custo da análise e síntese. Por exemplo, para traduzir uma SL a N LT, (1 + n) etapas são necessários usando uma interlingua em comparação com N passos de transferência. Mas para traduzir todas as línguas, a poucos passos 2N são necessários pela abordagem IMT comparação com N² pela abordagem TBMT, que é uma redução significativa. Embora nenhum componente de transferência tem que ser criado para cada par de línguas, adotando a abordagem de IMT, a definição de um interlingua é de grande dificuldade e talvez até mesmo impossível para um domínio mais amplo.

tradução e estatística baseada exemplo máquina

Estatística de tradução (SMT) é gerada com base em modelos estatísticos cujos parâmetros são derivados a partir da análise de corpora texto bilingue. O modelo inicial de SMT, com base no Teorema de Bayes , proposto por Brown et ai. considera que cada frase em um idioma é uma possível tradução de qualquer frase na outra e o mais adequado é a tradução que é atribuído a maior probabilidade pelo sistema. Tradução máquina baseado no Exemplo (EBMT) é caracterizado pela sua utilização de corpus bilingue com textos paralelos como o seu conhecimento principal, no qual a conversão de, por analogia, é a ideia principal. Há quatro tarefas em EBMT: aquisição exemplo, o exemplo de base e de gestão, exemplo de aplicação e síntese.

Ambos pertencentes à CBMT, por vezes referido como data-driven MT, EBMT e SMT têm algo em comum que os distinguem de RBMT. Primeiro, eles usam um bitext como fonte de dados fundamental. Em segundo lugar, ambos são empírica com o princípio da aprendizagem de máquina em vez de racional com o princípio da linguistas escrevendo regras. Em terceiro lugar, ambos podem ser melhorados por obter mais dados. Em quarto lugar, os novos pares de línguas pode ser desenvolvido apenas por encontrar dados corpus paralelo adequados, se possível. Para além destas semelhanças, existem também algumas diferenças. SMT essencialmente usa dados estatísticos como parâmetros e probabilidades derivadas da bitext, em que o pré-processamento dos dados é essencial e mesmo que a entrada está nos dados de treinamento, a mesma tradução não é garantido para ocorrer. Em contraste, EBMT utiliza o bitext como a sua fonte primária de dados, em que o pré-processamento dos dados é opcional e, se a entrada é no exemplo conjunto, a mesma tradução é para ocorrer.

Veja também

Referências

  • Nano Gough e Andy Way. Tradução Controlled 2004. Exemplo-base. Em Proceedings of the Ninth EAMT Oficina, Valletta, Malta, pp. 73-81.
  • Jean, Senellart (2006). "Impulsionar o sistema MT baseado em regras linguísticas com abordagens baseadas em corpus".
  • A, Lampert (2004). "Interlíngua em Machine Translation". Relatório Técnico .
  • Reshef, Shilon (2011). "Tradução baseada Transferência máquina entre as línguas morfologicamente-ricos e pobres em recursos: O caso do hebraico e árabe".
  • Somers, H. (1999). "Artigo de Revisão: baseado em Exemplo Machine Translation". Tradução Automática . 14 (2): 113-157. doi : 10,1023 / a: 1008109312730 .
  • Trujillo, A. (1999). Motores de Tradução: Técnicas de Tradução Automática . London: Springer.
  • Andy, Way; Nano Gough (2005). "Comparando o exemplo-base e Estatística de tradução automática". Engenharia Linguagem Natural .