Tradução automática baseada em exemplos - Example-based machine translation

Tradução automática baseada em exemplos ( EBMT ) é um método de tradução automática frequentemente caracterizado pelo uso de um corpus bilíngue com textos paralelos como sua principal base de conhecimento em tempo de execução. É essencialmente uma tradução por analogia e pode ser vista como uma implementação de uma abordagem de raciocínio baseada em casos para o aprendizado de máquina .

Tradução por analogia

Na base da tradução automática baseada em exemplos está a ideia de tradução por analogia. Quando aplicada ao processo de tradução humana, a ideia de que a tradução ocorre por analogia é uma rejeição da ideia de que as pessoas traduzem frases fazendo análises lingüísticas profundas. Em vez disso, baseia-se na crença de que as pessoas traduzem primeiro decompondo uma frase em certas frases, depois traduzindo essas frases e, finalmente, compondo adequadamente esses fragmentos em uma frase longa. As traduções de frases são traduzidas por analogia com as traduções anteriores. O princípio da tradução por analogia é codificado para tradução automática baseada em exemplos por meio das traduções de exemplo que são usadas para treinar tal sistema.

Outras abordagens de tradução automática, incluindo tradução automática estatística , também usam corpora bilíngüe para aprender o processo de tradução.

História

A tradução automática baseada em exemplos foi sugerida pela primeira vez por Makoto Nagao em 1984. Ele destacou que ela é especialmente adaptada para a tradução entre duas línguas totalmente diferentes, como o inglês e o japonês. Nesse caso, uma frase pode ser traduzida em várias frases bem estruturadas em outro idioma, portanto, não adianta fazer a análise lingüística profunda característica da tradução automática baseada em regras .

Exemplo

Exemplo de corpus bilíngue
inglês japonês
Quanto custa aquele guarda-chuva vermelho ? Ano akai kasa wa ikura desu ka.
Quanto custa essa pequena câmera ? Ano chiisai kamera wa ikura desu ka.

Os sistemas de tradução automática baseados em exemplos são treinados a partir de corpora paralelos bilíngues contendo pares de frases como o exemplo mostrado na tabela acima. Os pares de frases contêm frases em um idioma com suas traduções para outro. O exemplo particular mostra um exemplo de um par mínimo , o que significa que as sentenças variam em apenas um elemento. Essas frases simplificam o aprendizado de traduções de partes de uma frase. Por exemplo, um sistema de tradução automática baseado em exemplo aprenderia três unidades de tradução com o exemplo acima:

  1. Quanto é esse X ? corresponde a Ano X wa ikura desu ka.
  2. guarda-chuva vermelho corresponde a akai kasa
  3. pequena câmera corresponde a chiisai kamera

A composição dessas unidades pode ser usada para produzir novas traduções no futuro. Por exemplo, se tivermos sido treinados para usar algum texto que contenha as frases:

O presidente Kennedy foi morto a tiros durante o desfile. e o condenado escapou em 15 de julho. Poderíamos traduzir a frase O condenado foi morto a tiros durante o desfile. substituindo as partes apropriadas das frases.

Verbos compostos

A tradução automática baseada em exemplos é mais adequada para fenômenos de sublinguagem, como verbos frasais . Os verbos frasais têm significados altamente dependentes do contexto. Eles são comuns em inglês, onde compreendem um verbo seguido por um advérbio e / ou uma preposição , que são chamados de partícula do verbo. Os verbos frasais produzem significados específicos do contexto especializados que podem não ser derivados do significado dos constituintes. Quase sempre há uma ambigüidade durante a tradução palavra-a-palavra do idioma de origem para o idioma de destino.

Como exemplo, considere o verbo frasal "colocar" e sua tradução para o hindustani . Ele pode ser usado de qualquer uma das seguintes maneiras:

  • Ram acendeu as luzes. ( Ligado ) (tradução Hindustani: Jalana )
  • Ram colocou um boné. (Vestir) (tradução Hindustani: Pahenna )

Veja também

Referências

Leitura adicional

links externos

  • Cunei - uma plataforma de código aberto para tradução automática baseada em dados que surgiu da pesquisa em EBMT, mas também inclui avanços recentes do campo SMT