História da tradução automática - History of machine translation

A tradução automática é um subcampo da linguística computacional que investiga o uso de software para traduzir texto ou fala de uma linguagem natural para outra.

Na década de 1950, a tradução automática tornou-se realidade em pesquisas, embora referências ao assunto possam ser encontradas já no século XVII. O experimento de Georgetown , que envolveu uma tradução totalmente automática e bem-sucedida de mais de sessenta frases em russo para o inglês em 1954, foi um dos primeiros projetos registrados. Os pesquisadores do experimento de Georgetown afirmaram sua crença de que a tradução automática seria um problema resolvido dentro de três a cinco anos. Na União Soviética, experimentos semelhantes foram realizados pouco depois. Conseqüentemente, o sucesso do experimento deu início a uma era de financiamento significativo para pesquisas em tradução automática nos Estados Unidos. O progresso alcançado foi muito mais lento do que o esperado; em 1966, o relatório do ALPAC descobriu que dez anos de pesquisa não haviam atendido às expectativas do experimento de Georgetown e resultou em uma redução drástica do financiamento.

O interesse cresceu em modelos estatísticos para tradução automática , que se tornaram mais comuns e também menos caros na década de 1980, à medida que o poder computacional disponível aumentava.

Embora não exista um sistema autônomo de "tradução totalmente automática de alta qualidade de texto irrestrito", existem muitos programas agora disponíveis que são capazes de fornecer resultados úteis dentro de restrições estritas. Vários desses programas estão disponíveis online, como o Google Translate e o sistema SYSTRAN que alimenta o BabelFish do AltaVista (agora Babelfish do Yahoo em 9 de maio de 2008).

O início

As origens da tradução automática podem ser rastreadas até o trabalho de Al-Kindi , um criptógrafo árabe do século 9 que desenvolveu técnicas para tradução de linguagem sistêmica, incluindo criptoanálise , análise de frequência e probabilidade e estatística , que são usadas na tradução automática moderna. A ideia da tradução automática apareceu mais tarde no século XVII. Em 1629, René Descartes propôs uma linguagem universal, com ideias equivalentes em diferentes línguas compartilhando um símbolo.

Em meados da década de 1930, as primeiras patentes de "máquinas de tradução" foram solicitadas por Georges Artsrouni, para um dicionário bilíngue automático com fita de papel . O russo Peter Troyanskii apresentou uma proposta mais detalhada que incluía tanto o dicionário bilíngue quanto um método para lidar com os papéis gramaticais entre as línguas, baseado no sistema gramatical do Esperanto . Esse sistema foi dividido em três etapas: a primeira consistia em um editor nativo do idioma de origem para organizar as palavras em suas formas lógicas e exercer as funções sintáticas; o estágio dois exigia que a máquina "traduzisse" esses formulários para o idioma de destino; e o estágio três exigia um editor nativo no idioma de destino para normalizar essa saída. A proposta de Troyanskii permaneceu desconhecida até o final dos anos 1950, época em que os computadores eram bem conhecidos e utilizados.

Os primeiros anos

O primeiro conjunto de propostas para tradução automática baseada em computador foi apresentado em 1949 por Warren Weaver , um pesquisador da Fundação Rockefeller , " Translation memorandum ". Essas propostas foram baseadas na teoria da informação , sucessos na quebra de código durante a Segunda Guerra Mundial e teorias sobre os princípios universais subjacentes à linguagem natural .

Poucos anos depois que Weaver apresentou suas propostas, a pesquisa começou para valer em muitas universidades nos Estados Unidos. Em 7 de janeiro de 1954, o experimento Georgetown-IBM foi realizado em Nova York, na sede da IBM. Esta foi a primeira demonstração pública de um sistema de tradução automática. A manifestação foi amplamente noticiada nos jornais e atraiu o interesse do público. O próprio sistema, entretanto, não era mais do que um sistema de "brinquedo". Ele tinha apenas 250 palavras e traduziu 49 frases russas cuidadosamente selecionadas para o inglês - principalmente no campo da química . Mesmo assim, estimulou a ideia de que a tradução automática era iminente e estimulou o financiamento da pesquisa, não só nos Estados Unidos, mas em todo o mundo.

Os primeiros sistemas usavam grandes dicionários bilíngues e regras codificadas à mão para fixar a ordem das palavras na produção final, o que acabou sendo considerado muito restritivo no desenvolvimento linguístico da época. Por exemplo, linguística generativa e gramática transformacional foram exploradas para melhorar a qualidade das traduções. Durante este período, os sistemas operacionais foram instalados. A Força Aérea dos Estados Unidos utilizou um sistema produzido pela IBM e pela Washington University , enquanto a Atomic Energy Commission e a Euratom , na Itália, utilizaram um sistema desenvolvido na Georgetown University . Embora a qualidade da saída fosse ruim, ela atendeu a muitas das necessidades dos clientes, principalmente em termos de velocidade.

No final da década de 1950, Yehoshua Bar-Hillel foi solicitado pelo governo dos Estados Unidos para estudar a tradução automática, para avaliar a possibilidade de tradução totalmente automática de alta qualidade por máquinas. Bar-Hillel descreveu o problema da ambigüidade semântica ou duplo sentido, conforme ilustrado na seguinte frase:

O pequeno John estava procurando sua caixa de brinquedos. Finalmente ele o encontrou. A caixa estava na caneta.

A palavra caneta pode ter dois significados: o primeiro significado, algo usado para escrever com tinta; o segundo significado, um recipiente de algum tipo. Para um humano, o significado é óbvio, mas Bar-Hillel afirmou que sem uma "enciclopédia universal" uma máquina nunca seria capaz de lidar com esse problema. Na época, esse tipo de ambigüidade semântica só poderia ser resolvido escrevendo textos-fonte para tradução automática em uma linguagem controlada que usa um vocabulário no qual cada palavra tem exatamente um significado.

Década de 1960, o relatório ALPAC e os anos setenta

A pesquisa na década de 1960 na União Soviética e nos Estados Unidos se concentrou principalmente no par de línguas russo-inglês. Os objetos de tradução eram principalmente documentos científicos e técnicos, como artigos de revistas científicas . As traduções aproximadas produzidas foram suficientes para se obter uma compreensão básica dos artigos. Se um artigo discutia um assunto considerado confidencial, era enviado a um tradutor humano para uma tradução completa; se não, foi descartado.

Um grande golpe veio para a pesquisa de tradução automática em 1966 com a publicação do relatório ALPAC . O relatório foi encomendado pelo governo dos EUA e entregue pelo ALPAC , o Comitê Consultivo de Processamento Automático de Linguagem, um grupo de sete cientistas convocado pelo governo dos EUA em 1964. O governo dos EUA estava preocupado com a falta de progresso, apesar dos gastos significativos . O relatório concluiu que a tradução automática era mais cara, menos precisa e mais lenta do que a tradução humana e que, apesar dos gastos, a tradução automática provavelmente não alcançaria a qualidade de um tradutor humano em um futuro próximo.

O relatório recomendou, entretanto, que ferramentas fossem desenvolvidas para auxiliar os tradutores - dicionários automáticos, por exemplo - e que algumas pesquisas em linguística computacional deveriam continuar a ser apoiadas.

A publicação do relatório teve um impacto profundo na pesquisa em tradução automática nos Estados Unidos e, em menor medida, na União Soviética e no Reino Unido. A pesquisa, pelo menos nos Estados Unidos, foi quase completamente abandonada por mais de uma década. No Canadá, França e Alemanha, no entanto, as pesquisas continuaram. Nos Estados Unidos, as principais exceções foram os fundadores da Systran ( Peter Toma ) e da Logos (Bernard Scott), que estabeleceram suas empresas em 1968 e 1970, respectivamente, e serviram ao Departamento de Defesa dos Estados Unidos. Em 1970, o sistema Systran foi instalado pela Força Aérea dos Estados Unidos e, posteriormente, pela Comissão das Comunidades Européias em 1976. O Sistema METEO , desenvolvido na Université de Montréal , foi instalado no Canadá em 1977 para traduzir as previsões do tempo do inglês para o francês, e traduzia cerca de 80.000 palavras por dia ou 30 milhões de palavras por ano até ser substituído por um sistema concorrente em 30 de setembro de 2001.

Enquanto a pesquisa na década de 1960 se concentrava em pares de idiomas e insumos limitados, a demanda na década de 1970 era por sistemas de baixo custo que pudessem traduzir uma variedade de documentos técnicos e comerciais. Essa demanda foi impulsionada pelo aumento da globalização e pela demanda por tradução no Canadá, Europa e Japão.

Década de 1980 e início de 1990

Na década de 1980, tanto a diversidade quanto o número de sistemas instalados de tradução automática aumentaram. Vários sistemas que dependem da tecnologia de mainframe estavam em uso, como Systran , Logos , Ariane-G5 e Metal .

Como resultado da maior disponibilidade de microcomputadores , surgiu um mercado para sistemas de tradução automática de baixo custo. Muitas empresas aproveitaram isso na Europa, Japão e EUA. Os sistemas também foram colocados no mercado na China, Europa Oriental, Coréia e União Soviética .

Durante a década de 1980, houve muita atividade em MT, especialmente no Japão. Com o computador de quinta geração, o Japão pretendia superar sua concorrência em hardware e software de computador, e um projeto no qual muitas grandes empresas de eletrônicos japonesas se envolveram foi a criação de software para tradução de e para o inglês (Fujitsu, Toshiba, NTT, Brother, Catena , Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki).

A pesquisa durante a década de 1980 normalmente se baseava na tradução por meio de alguma variedade de representação linguística intermediária envolvendo análise morfológica, sintática e semântica.

No final da década de 1980, houve uma grande onda de novos métodos de tradução automática. Um sistema foi desenvolvido na IBM baseado em métodos estatísticos . Makoto Nagao e seu grupo usaram métodos baseados em um grande número de exemplos de tradução, uma técnica que agora é chamada de tradução automática baseada em exemplos . Uma característica definidora de ambas as abordagens foi a negligência das regras sintáticas e semânticas e, em vez disso, confiar na manipulação de grandes corpora de texto .

Durante a década de 1990, estimulada por sucessos em reconhecimento de fala e síntese de fala , a pesquisa começou em tradução de fala com o desenvolvimento do projeto alemão Verbmobil .

O sistema Forward Area Language Converter (FALCon), uma tecnologia de tradução automática projetada pelo Laboratório de Pesquisa do Exército , foi colocado em campo em 1997 para traduzir documentos para soldados na Bósnia.

Houve um crescimento significativo no uso da tradução automática como resultado do advento de computadores de baixo custo e mais potentes. Foi no início da década de 1990 que a tradução automática começou a fazer a transição dos grandes computadores mainframe para os computadores pessoais e estações de trabalho . Duas empresas que lideraram o mercado de PCs por um tempo foram a Globalink e a MicroTac, após a qual uma fusão das duas empresas (em dezembro de 1994) foi considerada do interesse corporativo de ambas. A Intergraph e a Systran também começaram a oferecer versões para PC nessa época. Também foram disponibilizados sites na Internet, como o Babel Fish do AltaVista (usando a tecnologia Systran) e o Google Language Tools (também inicialmente usando exclusivamente a tecnologia Systran).

Anos 2000

O campo da tradução automática passou por grandes mudanças nos últimos anos. Atualmente, uma grande quantidade de pesquisas está sendo feita em tradução automática estatística e tradução automática baseada em exemplos . Na área de tradução de fala, a pesquisa se concentrou na mudança de sistemas de domínio limitado para sistemas de tradução de domínio ilimitado. Em diferentes projetos de pesquisa na Europa (como TC-STAR) e nos Estados Unidos ( programa de exploração autônoma de linguagem STR-DUST e DARPA Global ), foram desenvolvidas soluções para a tradução automática de discursos parlamentares e notícias veiculadas. Nestes cenários, o domínio do conteúdo não se limita mais a uma área especial, mas sim os discursos a serem traduzidos abrangem uma variedade de tópicos. Mais recentemente, o projeto franco-alemão Quaero investiga a possibilidade de fazer uso de traduções automáticas para uma internet multilíngue. O projeto busca traduzir não apenas páginas da web, mas também vídeos e arquivos de áudio da internet.

Hoje, apenas algumas empresas usam a tradução automática estatística comercialmente. Tem havido um interesse renovado na hibridização, com pesquisadores combinando conhecimento sintático e morfológico (isto é, lingüístico) em sistemas estatísticos, bem como combinando estatísticas com sistemas existentes baseados em regras.

Veja também

Notas

Referências

Leitura adicional