Tradução automática baseada em dicionário - Dictionary-based machine translation

De A a A

A tradução automática pode usar um método baseado em entradas de dicionário , o que significa que as palavras serão traduzidas como um dicionário faz - palavra por palavra, geralmente sem muita correlação de significado entre elas. As pesquisas no dicionário podem ser feitas com ou sem análise morfológica ou lematização . Embora esta abordagem à tradução automática seja provavelmente a menos sofisticada, a tradução automática baseada em dicionário é ideal para a tradução de longas listas de frases no nível subsentencial (ou seja, não uma frase completa), por exemplo, estoques ou catálogos simples de produtos e serviços .

Também pode ser usado para agilizar a tradução manual, se a pessoa que a realiza for fluente nos dois idiomas e, portanto, capaz de corrigir sintaxe e gramática.

LMT

LMT, lançado por volta de 1990, é um sistema de tradução automática baseado em Prolog que funciona em dicionários bilíngues especialmente feitos, como o Collins English-German (CEG), que foram reescritos em uma forma indexada e facilmente legível por computadores. Este método utiliza uma base de dados lexicais (LDB) estruturada para identificar corretamente as categorias de palavras da língua de origem, construindo assim uma frase coerente na língua de destino, a partir de análises morfológicas rudimentares. Esse sistema usa "frames" para identificar a posição que uma determinada palavra deve ocupar, do ponto de vista sintático, em uma frase. Esses "quadros" são mapeados por meio de convenções de idioma, como UDICT no caso do inglês.

Em sua forma inicial (protótipo), o LMT usa três léxicos, acessados ​​simultaneamente: origem, transferência e destino, embora seja possível encapsular toda essa informação em um único léxico. O programa usa uma configuração lexical que consiste em dois elementos principais. O primeiro elemento é um adendo do léxico codificado à mão que contém possíveis traduções incorretas. O segundo elemento consiste em vários dicionários bilíngues e monolíngues relativos às duas línguas que são as línguas de origem e de destino.

Tradução automática baseada em exemplos e em dicionário

Este método de tradução automática baseada em dicionário explora um paradigma diferente de sistemas como o LMT. Um sistema de tradução automática baseado em exemplos é fornecido com apenas um "corpus bilíngue alinhado por frases". Usando esses dados, o programa de tradução gera um "dicionário bilíngue palavra por palavra" que é usado para traduções posteriores.

Embora esse sistema seja geralmente considerado uma forma totalmente diferente de tradução automática da tradução automática baseada em dicionário, é importante entender a natureza complementar desses paradigmas. Com o poder combinado inerente a ambos os sistemas, juntamente com o fato de que uma tradução automática baseada em dicionário funciona melhor com listas de palavras "dicionário bilíngue palavra por palavra", ela demonstra o fato de que um acoplamento desses dois motores de tradução geraria uma ferramenta de tradução muito poderosa que, além de ser semanticamente precisa, é capaz de aprimorar suas próprias funcionalidades por meio de loops de feedback perpétuos.

Um sistema que combina os dois paradigmas de uma forma semelhante ao que foi descrito no parágrafo anterior é o mecanismo de tradução automática do mecanismo de tradução automática baseado em exemplos da Pangloss (PanEBMT). PanEBMT usa uma tabela de correspondência entre idiomas para criar seu corpus. Além disso, o PanEBMT oferece suporte a várias operações incrementais em seu corpus, o que facilita uma tradução tendenciosa usada para fins de filtragem.

Processamento de Texto Paralelo

Douglas Hofstadter, por meio de seu "Le Ton beau de Marot: Em Louvor da Música da Língua", prova o que é uma tarefa complexa de tradução. O autor produziu e analisou dezenas e dezenas de traduções possíveis para um poema francês de dezoito versos, revelando assim complexos trabalhos internos de sintaxe, morfologia e significado. Ao contrário da maioria dos motores de tradução que escolhem uma única tradução com base na comparação back to back dos textos nas línguas de origem e de destino, o trabalho de Douglas Hofstadter prova o nível de erro inerente que está presente em qualquer forma de tradução, quando o significado da fonte o texto é muito detalhado ou complexo. Assim, o problema de alinhamento de texto e "estatísticas de linguagem" é trazido à atenção.

Essas discrepâncias levaram às opiniões de Martin Kay sobre a tradução e os mecanismos de tradução como um todo. Como diz Kay, "Sucessos mais substanciais nessas empresas exigirão uma imagem mais nítida do mundo do que qualquer outra que possa ser obtida simplesmente a partir das estatísticas de uso da linguagem" [(página xvii) Processamento de texto paralelo: alinhamento e uso de corpora de tradução] . Assim, Kay trouxe de volta à luz a questão do significado dentro da linguagem e a distorção do significado por meio de processos de tradução.

Estrutura Conceptual Lexical

Um dos usos possíveis da Tradução Automática Baseada em Dicionário é facilitar o "Ensino de Língua Estrangeira" (FLT). Isso pode ser alcançado usando a tecnologia de tradução automática, bem como linguística, semântica e morfologia para produzir "Dicionários em grande escala" em praticamente qualquer idioma. O desenvolvimento da semântica lexical e da linguística computacional durante o período de 1990 a 1996 possibilitou o florescimento do "processamento de linguagem natural" (PNL), ganhando novas capacidades, mas beneficiando a tradução automática em geral.

A "Estrutura Conceptual Lexical" (LCS) é uma representação independente da linguagem. É usado principalmente no ensino de línguas estrangeiras, especialmente no elemento de processamento de linguagem natural do FLT. LCS também provou ser uma ferramenta indispensável para tradução automática de qualquer tipo, como a tradução automática baseada em dicionário. De modo geral, um dos principais objetivos do LCS é "demonstrar que os sentidos do verbo sinônimos compartilham padrões de distribuição".

"DKvec"

"DKvec é um método para extrair léxicos bilíngues, de corpora paralelos ruidosos com base em distâncias de chegada de palavras em corpora paralelos ruidosos". Este método surgiu em resposta a dois problemas que atormentam a extração estatística de léxicos bilíngues: "(1) Como podem ser usados ​​corpora paralelos ruidosos? (2) Como podem ser usados ​​corpora não paralelos, mas comparáveis?"

O método "DKvec" provou ser inestimável para a tradução automática em geral, devido ao incrível sucesso que teve em testes realizados em corpora paralelo ruidoso inglês - japonês e inglês - chinês. Os números de exatidão "mostram uma precisão de 55,35% para um corpus pequeno e uma precisão de 89,93% para um corpus maior". Com números tão impressionantes, é seguro presumir o imenso impacto que métodos como "DKvec" tiveram na evolução da tradução automática em geral, especialmente a tradução automática baseada em dicionário.

Os algoritmos usados ​​para extrair corpora paralelos em um formato bilíngue exploram as seguintes regras para atingir uma precisão satisfatória e qualidade geral:

  1. As palavras têm um sentido por corpus
  2. As palavras têm tradução única por corpus
  3. Sem traduções ausentes no documento de destino
  4. As frequências de ocorrências de palavras bilingues são comparáveis
  5. As posições das ocorrências de palavras bilíngues são comparáveis

Estes métodos podem ser usados ​​para gerar, ou procurar, padrões de ocorrência que por sua vez são usados ​​para produzir vetores de ocorrência binários que são usados ​​pelo método "DKvec".

História da tradução automática

A história da tradução automática (TA) começa em meados dos anos 1940. A tradução automática foi provavelmente a primeira vez que os computadores foram usados ​​para fins não numéricos. A tradução automática gozou de um grande interesse de pesquisa durante os anos 1950 e 1960, que foi seguido por uma estagnação até os anos 1980. Após a década de 1980, a tradução automática tornou-se o mainstream novamente, desfrutando de uma popularidade ainda maior do que nas décadas de 1950 e 1960, bem como uma rápida expansão, amplamente baseada na abordagem de corpora de texto.

O conceito básico de tradução automática pode ser rastreado até o século 17 nas especulações em torno de "línguas universais e dicionários mecânicos". As primeiras sugestões práticas de tradução automática foram feitas em 1933 por Georges Artsrouni na França e Petr Trojanskij na Rússia. Ambos tinham máquinas patenteadas que acreditavam poder ser usadas para traduzir significados de um idioma para outro. "Em junho de 1952, a primeira conferência MT foi convocada no MIT por Yehoshua Bar-Hillel". Em 7 de janeiro de 1954, uma convenção de tradução automática em Nova York, patrocinada pela IBM, serviu para popularizar o campo. A popularidade das convenções veio da tradução de frases curtas em inglês para o russo. Esse feito de engenharia hipnotizou o público e os governos dos Estados Unidos e da URSS, que, portanto, estimularam o financiamento em grande escala da pesquisa em tradução automática. Embora o entusiasmo pela tradução automática fosse extremamente grande, as limitações técnicas e de conhecimento levaram a desilusões em relação ao que a tradução automática era realmente capaz de fazer, pelo menos naquela época. Assim, a tradução automática perdeu popularidade até a década de 1980, quando os avanços na linguística e na tecnologia ajudaram a revitalizar o interesse neste campo.

Recuperação de informação translingual

"A recuperação de informação translingual (TLIR) consiste em fornecer uma consulta em um idioma e pesquisar coleções de documentos em um ou mais idiomas diferentes". A maioria dos métodos de TLIR pode ser quantificada em duas categorias, ou seja, abordagens estatísticas-IR e tradução de consultas. O TLIR baseado em tradução automática funciona de duas maneiras. A consulta é traduzida no idioma de destino ou a consulta original é usada para pesquisar enquanto a coleção de resultados possíveis é traduzida no idioma de consulta e usada para referência cruzada. Ambos os métodos têm prós e contras, a saber:

  • Precisão da tradução - a correção de qualquer tradução automática depende do tamanho do texto traduzido, portanto, textos ou palavras curtos podem sofrer um maior grau de erros semânticos, bem como ambigüidades lexicais, enquanto um texto maior pode fornecer contexto, o que ajuda na desambiguação.
  • Exatidão de recuperação - com base na mesma lógica invocada no ponto anterior, é preferível ter documentos inteiros traduzidos, em vez de consultas, porque textos grandes provavelmente sofrerão menos perda de significado na tradução do que consultas curtas.
  • Praticidade - ao contrário dos pontos anteriores, traduzir consultas curtas é o melhor caminho a percorrer. Isso ocorre porque é fácil traduzir textos curtos, enquanto a tradução de bibliotecas inteiras exige muitos recursos, além do volume de tal tarefa de tradução implicar na indexação dos novos documentos traduzidos

Todos esses pontos comprovam o fato de que a tradução automática baseada em dicionário é a forma mais eficiente e confiável de tradução ao trabalhar com TLIR. Isso ocorre porque o processo "pesquisa cada termo de consulta em um dicionário bilíngue de uso geral e usa todas as traduções possíveis".

Tradução automática de línguas muito próximas

Os exemplos de RUSLAN, um sistema de tradução automática baseado em dicionário entre tcheco e russo e CESILKO, um sistema de tradução automática baseado em dicionário checo - eslovaco, mostra que, no caso de línguas muito próximas, os métodos de tradução mais simples são mais eficientes, rápidos e confiáveis.

O sistema RUSLAN foi feito para comprovar as hipóteses de que idiomas relacionados são mais fáceis de traduzir. O desenvolvimento do sistema começou em 1985 e foi encerrado cinco anos depois devido à falta de financiamento adicional. As lições ensinadas pelo experimento RUSLAN são que uma abordagem de tradução baseada em transferência mantém sua qualidade, independentemente de quão próximos os idiomas estejam. Os dois principais gargalos dos "sistemas completos baseados em transferência" são a complexidade e a falta de confiabilidade da análise sintática.

Multilingual Information Retrieval MLIR

“Os sistemas de recuperação de informação classificam os documentos de acordo com medidas de similaridade estatística com base na coocorrência de termos em consultas e documentos”. O sistema MLIR foi criado e otimizado de forma a facilitar a tradução de consultas baseada em dicionário. Isso porque as consultas tendem a ser curtas, algumas palavras, o que, apesar de não fornecer muito contexto, é mais viável do que traduzir documentos inteiros, por questões práticas. Apesar de tudo isso, o sistema MLIR é altamente dependente de muitos recursos, como software de detecção automática de idioma .

Veja também

Bibliografia