Google Tradutor - Google Translate

Google Tradutor
Google Translate logo.svg
Captura de tela do Google Translate.png
Página inicial do Google Tradutor
Tipo de site
Tradução automática neural
Disponível em 109 idiomas, veja abaixo
Proprietário Google
URL traduzir .google .com
Comercial sim
Cadastro Opcional
Comercial Mais de 500 milhões de pessoas diariamente
Lançado 28 de abril de 2006 ; 15 anos atrás (como tradução automática estatística ) 15 de novembro de 2016 ; 4 anos atrás (como tradução automática neural ) ( 2006-04-28 )
 ( 2016-11-15 )
Status atual Ativo

O Google Translate é um serviço de tradução automática neural multilíngue desenvolvido pelo Google para traduzir textos, documentos e sites de um idioma para outro. Ele oferece uma interface de site , um aplicativo móvel para Android e iOS e uma interface de programação de aplicativo que ajuda os desenvolvedores a criar extensões de navegador e aplicativos de software . Em outubro de 2021, o Google Translate oferece suporte a 109 idiomas em vários níveis e, em abril de 2016, atingiu mais de 500 milhões de usuários no total, com mais de 100 bilhões de palavras traduzidas diariamente.

Lançado em abril de 2006 como um serviço de tradução automática de estatísticas , ele usava documentos e transcrições das Nações Unidas e do Parlamento Europeu para coletar dados linguísticos. Em vez de traduzir os idiomas diretamente, ele primeiro traduz o texto para o inglês e, em seguida, direciona para o idioma de destino na maioria das combinações de idiomas que apresenta em sua grade, com algumas exceções, incluindo catalão-espanhol. Durante uma tradução, ele procura padrões em milhões de documentos para ajudar a decidir quais palavras escolher e como organizá-las no idioma de destino. Sua precisão, que foi criticada e ridicularizada em várias ocasiões, foi medida para variar muito entre os idiomas. Em novembro de 2016, o Google anunciou que o Google Translate mudaria para um mecanismo de tradução automática neural - Google Neural Machine Translation (GNMT) - que traduz "frases inteiras de uma vez, em vez de apenas peça por peça. Ele usa esse contexto mais amplo para ajudá-lo descobrir a tradução mais relevante, que ele então reorganiza e ajusta para ser mais como um ser humano falando com uma gramática adequada ". Originalmente habilitado apenas para alguns idiomas em 2016, o GNMT agora é usado em todos os 109 idiomas da lista do Google Translate a partir de outubro de 2021, exceto na tradução entre inglês e latim .

História

O Google Translate é um serviço de tradução complementar desenvolvido pelo Google em abril de 2006. Ele traduz várias formas de textos e mídias, como palavras, frases e páginas da web.

Originalmente, o Google Translate foi lançado como um serviço de tradução automática de estatísticas . O texto de entrada deve ser traduzido para o inglês antes de ser traduzido para o idioma selecionado. Como o SMT usa algoritmos preditivos para traduzir texto, ele tinha uma precisão gramatical pobre. Apesar disso, o Google inicialmente não contratou especialistas para resolver essa limitação devido à natureza em constante evolução da linguagem.

Em janeiro de 2010, o Google lançou um aplicativo Android e uma versão iOS em fevereiro de 2011 para servir como um intérprete pessoal portátil. Em fevereiro de 2010, ele foi integrado a navegadores como o Chrome e foi capaz de pronunciar o texto traduzido, reconhecer automaticamente as palavras em uma imagem e detectar textos e idiomas desconhecidos.

Em maio de 2014, o Google adquiriu o Word Lens para melhorar a qualidade da tradução visual e de voz. É capaz de digitalizar texto ou uma imagem usando o dispositivo e traduzi-lo instantaneamente. Além disso, o sistema identifica automaticamente idiomas estrangeiros e traduz a fala sem exigir que as pessoas toquem no botão do microfone sempre que a tradução da fala for necessária.

Em novembro de 2016, o Google fez a transição de seu método de tradução para um sistema chamado tradução automática neural . Ele usa técnicas de aprendizado profundo para traduzir frases inteiras de uma vez, o que foi medido para ser mais preciso entre inglês e francês, alemão, espanhol e chinês. Nenhum resultado de medição foi fornecido pelos pesquisadores do Google para GNMT do inglês para outros idiomas, de outros idiomas para o inglês ou entre pares de idiomas que não incluem o inglês. Em 2018, ele traduzia mais de 100 bilhões de palavras por dia.

Funções

O Google Translate pode traduzir várias formas de texto e mídia, o que inclui texto, fala e texto em imagens estáticas ou em movimento. Especificamente, suas funções incluem:

  • Tradução de palavras escritas: uma função que traduz palavras escritas ou texto para uma língua estrangeira.
  • Tradução de website: uma função que traduz uma página da web inteira para idiomas selecionados
  • Tradução de documentos: função que traduz um documento carregado pelos usuários para os idiomas selecionados. Os documentos devem estar no formato: .doc, .docx, .odf, .pdf, .ppt, .pptx, .ps, .rtf, .txt, .xls, .xlsx.
  • Tradução de fala: uma função que traduz instantaneamente o idioma falado para o idioma estrangeiro selecionado.
  • Tradução de aplicativos móveis: em 2018, o Google Translate introduziu seu novo recurso chamado “Toque para traduzir”, que tornou a tradução instantânea acessível dentro de qualquer aplicativo sem sair ou trocá-lo.
  • Tradução de imagens: função que identifica o texto em uma foto tirada pelos usuários e traduz o texto na tela instantaneamente por imagens.
  • Tradução escrita à mão: função que traduz idiomas escritos à mão na tela do telefone ou desenhados em um teclado virtual sem o suporte de um teclado.

Para a maioria de seus recursos, o Google Translate oferece a pronúncia, o dicionário e a audição da tradução. Além disso, o Google Translate introduziu seu próprio aplicativo Translate, de modo que a tradução está disponível em um telefone celular no modo offline.

Recursos

O Google Translate produz aproximações em vários idiomas de várias formas de texto e mídia, incluindo texto, fala, sites ou texto em exibição em imagens estáticas ou de vídeo ao vivo. Para alguns idiomas, o Google Translate pode sintetizar a fala a partir do texto e, em certos pares, é possível destacar palavras e frases correspondentes específicas entre o texto de origem e o de destino. Os resultados às vezes são mostrados com informações de dicção abaixo da caixa de tradução, mas não é um dicionário e foi demonstrado que ele inventou traduções em todos os idiomas para palavras que não reconhece. Se "Detectar idioma" for selecionado, o texto em um idioma desconhecido pode ser identificado automaticamente. Na interface da web, os usuários podem sugerir traduções alternativas, como para termos técnicos, ou corrigir erros. Essas sugestões podem ser incluídas em futuras atualizações do processo de tradução. Se um usuário inserir um URL no texto de origem, o Google Translate produzirá um hiperlink para uma tradução automática do site. Os usuários podem salvar propostas de tradução em um "livro de frases" para uso posterior. Para alguns idiomas, o texto pode ser inserido por meio de um teclado na tela , por meio de reconhecimento de manuscrito ou reconhecimento de fala . É possível inserir pesquisas em um idioma de origem que são primeiro traduzidas para um idioma de destino, permitindo navegar e interpretar os resultados do idioma de destino selecionado no idioma de origem.

Textos escritos em grego , devanágari , cirílico e árabe podem ser transliterados automaticamente de equivalentes fonéticos escritos no alfabeto latino . A versão do navegador do Google Translate oferece a opção de leitura fonética para conversão de japonês para inglês. A mesma opção não está disponível na versão paga da API.

Sotaque do inglês que o áudio "text-to-speech" do Google Translate de cada país usa:
  Britânico (pronúncia recebida) (feminino)
  General American (feminino)
  General australiano (feminino)
  Índio (feminino)
  Sem serviço de tradução do Google

Muitos dos idiomas mais populares têm uma função de áudio "text-to-speech" que é capaz de ler de volta um texto naquele idioma, até algumas dezenas de palavras ou mais. No caso de línguas pluricêntricas , o sotaque depende da região: para o inglês, nas Américas , grande parte da Ásia-Pacífico e Ásia Ocidental , o áudio usa sotaque geral americano feminino , enquanto na Europa, Hong Kong , Malásia , Cingapura , Guiana e todas as outras partes do mundo, um sotaque britânico feminino ( pronúncia recebida ) é usado, exceto para um sotaque general australiano usado na Austrália, Nova Zelândia e Ilha Norfolk , e um sotaque inglês indiano usado na Índia; para o espanhol, nas Américas , usa-se o sotaque latino-americano , enquanto nas demais partes do mundo usa-se o sotaque castelhano ; para o português , o sotaque paulista é usado em todo o mundo, exceto em Portugal, onde o sotaque nativo é usado; para o francês , um sotaque quebequense é usado no Canadá, enquanto em outras partes do mundo, um sotaque europeu padrão é usado; para o bengali , um sotaque de Bangladesh masculino é usado, exceto na Índia, onde um sotaque especial de bengali indiano feminino é usado. Algumas línguas menos faladas usam o sintetizador eSpeak de código aberto para sua fala; produzindo uma voz robótica e estranha que pode ser difícil de entender.

Integração do navegador

O Google Translate está disponível em alguns navegadores da web como uma extensão opcional para download que pode executar o mecanismo de tradução, o que permite o acesso do botão direito do mouse ao serviço de tradução. Em fevereiro de 2010, o Google Translate foi integrado ao navegador Google Chrome por padrão, para tradução automática opcional de páginas da web.

Aplicativo móvel

Google Tradutor
Google Translate logo.svg
Captura de tela
Screenshot.png do aplicativo Google Tradutor para iOS
Uma captura de tela do aplicativo iOS do Google Translate, mostrando uma tradução em inglês de "Coffee" para chinês simplificado "咖啡" ou "Kāfēi"
Desenvolvedor (s) Google
lançamento inicial 1 ° de janeiro de 2010 ; 11 anos atrás (para Android) 8 de fevereiro de 2011 ; 10 anos atrás (para iOS) ( 01-01-2010 )
 ( 08/02/2011 )
Liberação (ões) estável (s) [±]
Android 6.5.0.RC04.292618770 / 31 de janeiro de 2020 ; 20 meses atrás ( 2020-01-31 )
iOS 6.3.0 / 3 de outubro de 2019 ; 2 anos atrás ( 03/10/2019 )
Plataforma
Tamanho 20,74 MB (Android)
70,9 MB (iOS)
Disponível em 109 idiomas, veja abaixo
Modelo Tradução automática estatística e neural
Local na rede Internet m .translate .google .com

O aplicativo Google Translate para Android e iOS suporta 109 idiomas e pode propor traduções para 37 idiomas via foto, 32 via voz no "modo de conversação" e 27 via imagens de vídeo ao vivo no "modo de realidade aumentada".

O aplicativo Android foi lançado em janeiro de 2010, enquanto um aplicativo da web HTML5 foi lançado para usuários iOS em agosto de 2008, seguido por um aplicativo nativo em 8 de fevereiro de 2011.

O aplicativo suporta 109 idiomas e entrada de voz para 45 idiomas. Ele está disponível para dispositivos com Android 2.1 e superior e pode ser baixado pesquisando por "Google Translate" no Google Play .

O aplicativo Google Translate atual é compatível com iPhone , iPad e iPod Touch atualizado para iOS 7.0+. Ele aceita entrada de voz para 15 idiomas e permite a tradução de uma palavra ou frase em um de mais de 50 idiomas. As traduções podem ser faladas em voz alta em 23 idiomas diferentes.

Uma versão do Android de janeiro de 2011 experimentou um "Modo de conversação" que visa permitir que os usuários se comuniquem fluidamente com uma pessoa próxima em outro idioma. Originalmente limitado a inglês e espanhol, o recurso recebeu suporte para 12 novos idiomas, ainda em teste, no mês de outubro seguinte.

A funcionalidade de 'entrada da câmera' permite aos usuários tirar uma fotografia de um documento, quadro de avisos, etc. O Google Translate reconhece o texto da imagem usando a tecnologia de reconhecimento óptico de caracteres (OCR) e fornece a tradução. A entrada da câmera não está disponível em todos os idiomas.

Em janeiro de 2015, os aplicativos ganharam a capacidade de propor traduções de sinais físicos em tempo real por meio da câmera do aparelho, como resultado da aquisição do aplicativo Word Lens pelo Google. O lançamento original de janeiro suportava apenas sete idiomas, mas uma atualização de julho adicionou suporte para 20 novos idiomas, com o lançamento de uma nova implementação que utiliza redes neurais convolucionais e também melhorou a velocidade e a qualidade das traduções do modo de conversação ( realidade aumentada ). O recurso foi posteriormente renomeado como Câmera Instantânea. A tecnologia subjacente à Câmera Instantânea combina processamento de imagem e reconhecimento óptico de caracteres e, em seguida, tenta produzir equivalentes entre idiomas usando as estimativas padrão do Google Translate para o texto conforme é percebido.

Em 11 de maio de 2016, o Google lançou o Tap to Translate para o Google Translate para Android. Ao destacar o texto em um aplicativo que está em um idioma estrangeiro, o Tradutor aparecerá dentro do aplicativo e oferecerá traduções.

API

Em 26 de maio de 2011, o Google anunciou que a API do Google Translate para desenvolvedores de software foi descontinuada e deixaria de funcionar. A página da API do Tradutor declarou o motivo como "fardo econômico substancial causado por abuso extenso" com uma data de término definida para 1º de dezembro de 2011. Em resposta à pressão pública, o Google anunciou em junho de 2011 que a API continuaria disponível como uma forma paga serviço.

Como a API foi usada em vários sites e aplicativos de terceiros, a decisão original de descontinuá-la levou alguns desenvolvedores a criticar o Google e questionar a viabilidade de usar APIs do Google em seus produtos.

Google Assistant

O Google Tradutor também fornece traduções para o Google Assistente e os dispositivos em que o Google Assistente é executado, como o Google Home e Pixel Buds .

Idiomas suportados

Desde outubro de 2021, os seguintes 109 idiomas são suportados pelo Google Translate.

História
  1. 1ª fase
    1. Inglês de e para o francês
    2. Inglês de e para alemão
    3. Inglês para e de espanhol
  2. 2ª etapa
    1. Inglês para e de Português
  3. 3ª etapa
    1. Inglês para e de italiano
  4. 4ª etapa
    1. Inglês de e para chinês (simplificado)
    2. Inglês para e de Japonês
    3. Inglês de e para coreano
  5. 5º estágio (lançado em 28 de abril de 2006)
    1. Inglês para e de árabe
  6. 6º estágio (lançado em 16 de dezembro de 2006)
    1. Inglês para e de russo
  7. 7º estágio (lançado em 9 de fevereiro de 2007)
    1. Inglês de e para chinês (tradicional)
    2. Chinês (simplificado de e para tradicional)
  8. 8º estágio (todos os 25 pares de idiomas usam o sistema de tradução automática do Google) (lançado em 22 de outubro de 2007)
    1. Inglês de e para holandês
    2. Inglês de e para grego
  9. 9º estágio
    1. Inglês de e para hindi
  10. 10º estágio (a partir deste estágio, a tradução pode ser feita entre quaisquer dois idiomas, usando o inglês como uma etapa intermediária, se necessário) (lançado em 8 de maio de 2008)
    1. búlgaro
    2. croata
    3. Tcheco
    4. dinamarquês
    5. finlandês
    6. Norueguês ( bokmål )
    7. polonês
    8. romena
    9. sueco
  11. 11º estágio (lançado em 25 de setembro de 2008)
    1. catalão
    2. Filipino
    3. hebraico
    4. indonésio
    5. letão
    6. lituano
    7. sérvio
    8. Eslovaco
    9. Esloveno
    10. ucraniano
    11. vietnamita
  12. 12º estágio (lançado em 30 de janeiro de 2009)
    1. albanês
    2. estoniano
    3. Galego
    4. húngaro
    5. maltês
    6. tailandês
    7. turco
  13. 13º estágio (lançado em 19 de junho de 2009)
    1. persa
  14. 14º estágio (lançado em 24 de agosto de 2009)
    1. afrikaans
    2. Bielo-russo
    3. islandês
    4. irlandês
    5. Macedônio
    6. malaio
    7. Suaíli
    8. galês
    9. Iídiche
  15. 15º estágio (lançado em 19 de novembro de 2009)
    1. A fase Beta está encerrada. Os usuários agora podem escolher ter a romanização escrita para bielorrusso, búlgaro, chinês, grego, hindi, japonês, coreano, russo, tailandês e ucraniano. Para traduções do árabe, hindi e persa, o usuário pode inserir uma transliteração latina do texto e o texto será transliterado para o script nativo desses idiomas conforme o usuário digita. O texto agora pode ser lido por um programa de conversão de texto em fala em inglês, francês, alemão e italiano.
  16. 16º estágio (lançado em 30 de janeiro de 2010)
    1. Crioulo haitiano
  17. 17º estágio (lançado em abril de 2010)
    1. Programa de fala lançado em hindi e espanhol.
  18. 18º estágio (lançado em 5 de maio de 2010)
    1. Programa de discurso lançado em africâner, albanês, catalão, chinês (mandarim), croata, tcheco, dinamarquês, holandês, finlandês, grego, húngaro, islandês, indonésio, letão, macedônio, norueguês, polonês, português, romeno, russo, sérvio, eslovaco , Suaíli, sueco, turco, vietnamita e galês (com base no eSpeak )
  19. 19º estágio (lançado em 13 de maio de 2010)
    1. Armênio
    2. Azerbaijani
    3. Basco
    4. Georgiano
    5. urdu
  20. 20º estágio (lançado em junho de 2010)
    1. Fornece romanização para árabe.
  21. 21º estágio (lançado em setembro de 2010)
    1. Permite a digitação fonética para árabe, grego, hindi, persa, russo, sérvio e urdu.
    2. Latina
  22. 22ª etapa (lançado em dezembro de 2010)
    1. Remoção da romanização do árabe.
    2. Verificação ortográfica adicionada.
    3. Para alguns idiomas, o Google substituiu os sintetizadores de texto para fala da voz de robô do eSpeak por tecnologias de voz da natureza do falante nativo feitas pela SVOX (chinês, tcheco, dinamarquês, holandês, finlandês, grego, húngaro, norueguês, polonês, português, russo, sueco, Turco), e também as versões antigas do francês, alemão, italiano e espanhol; O latim usa o mesmo sintetizador do italiano.
    4. Programa de fala lançado em árabe, japonês e coreano.
  23. 23º estágio (lançado em janeiro de 2011)
    1. Escolha de diferentes traduções para uma palavra.
  24. 24º estágio (lançado em junho de 2011)
    1. 5 novos idiomas índicos (em alfa) e um método de entrada transliterado:
    2. bengali
    3. Guzerate
    4. Canarim
    5. tâmil
    6. Telugu
  25. 25º estágio (lançado em julho de 2011)
    1. Avaliação de tradução introduzida.
  26. 26º estágio (lançado em janeiro de 2012)
    1. Sintetizador de voz masculino holandês substituído por feminino.
    2. Elena por SVOX substituiu a voz eslovaca eSpeak.
    3. Adicionada transliteração de iídiche.
  27. 27º estágio (lançado em fevereiro de 2012)
    1. Programa de fala lançado em tailandês.
    2. esperanto
  28. 28º estágio (lançado em setembro de 2012)
    1. Lao
  29. 29º estágio (lançado em outubro de 2012)
    1. Adicionada transliteração de Lao. (status alfa)
  30. 30º estágio (lançado em outubro de 2012)
    1. Novo programa de fala lançado em inglês.
  31. 31º estágio (lançado em novembro de 2012)
    1. Novo programa de fala em francês, alemão, italiano, latim e espanhol.
  32. 32º estágio (lançado em março de 2013)
    1. Lista de frases adicionada.
  33. 33º estágio (lançado em abril de 2013)
    1. Khmer
  34. 34º estágio (lançado em maio de 2013)
    1. Bósnio
    2. Cebuano
    3. Hmong
    4. Javanês
    5. Marati
  35. 35º estágio (lançado em maio de 2013)
    1. 16 idiomas adicionais podem ser usados ​​com a entrada da câmera: búlgaro, catalão, croata, dinamarquês, estoniano, finlandês, húngaro, indonésio, islandês, letão, lituano, norueguês, romeno, eslovaco, esloveno e sueco.
  36. 36º estágio (lançado em dezembro de 2013)
    1. Hausa
    2. Igbo
    3. maori
    4. mongol
    5. Nepalês
    6. Punjabi ( Gurmukhi )
    7. Somali
    8. Ioruba
    9. zulu
  37. 37º estágio (lançado em junho de 2014)
    1. Definição de palavras adicionadas.
  38. 38º estágio (lançado em dezembro de 2014)
    1. birmanês
    2. Chewa
    3. Cazaque
    4. malgaxe
    5. Malaiala
    6. Cingalês
    7. Sotho
    8. Sudanês
    9. Tadjique
    10. Uzbeque
  39. 39º estágio (lançado em outubro de 2015)
    1. Transliteração do árabe restaurada.
  40. 40º estágio (lançado em novembro de 2015)
    1. Aurebesh
  41. 41º estágio (lançado em fevereiro de 2016)
    1. Aurebesh removido.
    2. Programa de discurso lançado em bengali.
    3. Amárico
    4. Corso
    5. havaiano
    6. Curdo ( curmanji )
    7. Quirguiz
    8. Luxemburguês
    9. Pashto
    10. Samoano
    11. gaélico escocês
    12. Shona
    13. Sindi
    14. Frísia Ocidental
    15. Xhosa
  42. 42º estágio (lançado em setembro de 2016)
    1. Programa de fala lançado em ucraniano.
  43. 43º estágio (lançado em dezembro de 2016)
    1. Programa de fala lançado em Khmer e Sinhala.
  44. 44º estágio (lançado em junho de 2018)
    1. Programa de discurso lançado em birmanês, malaiala, marata, nepalês e télugo.
  45. 45º estágio (lançado em setembro de 2019)
    1. Programa de fala lançado em Gujarati, Kannada e Urdu.
  46. 46º estágio (lançado em fevereiro de 2020)
    1. Kinyarwanda
    2. Odia
    3. Tártaro
    4. Turcomano
    5. Uigur
  47. 47º estágio (lançado em fevereiro de 2021)
    1. Programa de fala lançado em africâner, búlgaro, catalão, islandês, letão, malaio e sérvio (alterado de eSpeak para uma voz natural).
    2. Novo sistema de fala (WaveNet) para vários idiomas.

Linguagens em desenvolvimento e versão beta

Os seguintes idiomas ainda não são suportados pelo Google Translate, mas estão disponíveis na Comunidade do Tradutor. Em outubro de 2021, havia 126 idiomas em desenvolvimento e 25 deles em versão beta .

Os idiomas em versão beta estão mais próximos de seu lançamento público e têm uma opção extra exclusiva de contribuição que permite avaliar até 4 traduções da versão beta por meio da tradução de um texto em inglês de até 50 caracteres.

Idiomas requeridos, mas ainda não foram adicionados

Metodologia de tradução

Em abril de 2006, o Google Translate foi lançado com um mecanismo de tradução automática de estatísticas.

O Google Translate não aplica regras gramaticais , uma vez que seus algoritmos são baseados em análises estatísticas ou de padrões, em vez da análise tradicional baseada em regras. O criador original do sistema, Franz Josef Och , criticou a eficácia dos algoritmos baseados em regras em favor das abordagens estatísticas. As versões originais do Google Translate foram baseadas em um método chamado tradução automática estatística e, mais especificamente, na pesquisa de Och, que ganhou o concurso DARPA para tradução automática de velocidade em 2003. Och era o chefe do grupo de tradução automática do Google até sair para se juntar à Human Longevity , Inc. em julho de 2014.

O Google Translate não traduz de um idioma para outro (L1 → L2). Em vez disso, geralmente traduz primeiro para o inglês e depois para o idioma de destino (L1 → EN → L2). No entanto, como o inglês, como todas as línguas humanas, é ambíguo e depende do contexto, isso pode causar erros de tradução. Por exemplo, traduzir vous do francês para o russo resulta em vous → você → ты OR Bы / вы . Se o Google estivesse usando uma linguagem artificial e inequívoca como intermediária, seria vous → você → Bы / вы OU tu → tu → ты . Esse sufixo de palavras elimina a ambigüidade de seus diferentes significados. Portanto, publicar em inglês, usando palavras inequívocas, fornecendo contexto, usando expressões como "você todos", muitas vezes é uma tradução melhor em uma etapa.

Os idiomas a seguir não têm uma tradução direta do Google de ou para o inglês. Esses idiomas são traduzidos por meio do idioma intermediário indicado (que na maioria dos casos está intimamente relacionado ao idioma desejado, mas mais amplamente falado), além do inglês:

De acordo com Och, uma base sólida para desenvolver um sistema de tradução automática estatística utilizável para um novo par de línguas a partir do zero consistiria em um corpus de texto bilíngüe (ou coleção paralela ) de mais de 150-200 milhões de palavras e dois corpora monolíngues cada um mais de um bilhão de palavras. Modelos estatísticos desses dados são então usados ​​para traduzir entre essas línguas.

Para adquirir essa enorme quantidade de dados linguísticos, o Google usou documentos e transcrições das Nações Unidas e do Parlamento Europeu . A ONU normalmente publica documentos em todas as seis línguas oficiais da ONU , o que produziu um corpus muito grande de 6 línguas.

Quando o Google Translate gera uma proposta de tradução, ele procura padrões em centenas de milhões de documentos para ajudar a decidir sobre a melhor tradução. Ao detectar padrões em documentos que já foram traduzidos por tradutores humanos, o Google Translate faz suposições informadas (IA) sobre o que uma tradução apropriada deve ser.

Antes de outubro de 2007, para outros idiomas além do árabe , chinês e russo , o Google Translate era baseado no SYSTRAN , um mecanismo de software que ainda é usado por vários outros serviços de tradução online, como o Babel Fish (agora extinto). A partir de outubro de 2007, o Google Translate usou tecnologia própria e proprietária baseada na tradução automática estatística , antes de fazer a transição para a tradução automática neural.

Comunidade do Google Tradutor

O Google possui recursos de crowdsourcing para que os voluntários façam parte de sua “Comunidade do Tradutor”, com o objetivo de ajudar a melhorar a precisão do Google Tradutor. Os voluntários podem selecionar até cinco idiomas para ajudar a melhorar a tradução; os usuários podem verificar frases traduzidas e traduzir frases em seus idiomas de e para o inglês, ajudando a melhorar a precisão da tradução de frases mais raras e complexas. Em agosto de 2016, um aplicativo Google Crowdsource foi lançado para usuários do Android, no qual tarefas de tradução são oferecidas. Existem três maneiras de contribuir. Primeiro, o Google mostrará uma frase que deve ser digitada na versão traduzida. Em segundo lugar, o Google mostrará uma tradução proposta para o usuário concordar, discordar ou pular. Terceiro, os usuários podem sugerir traduções para frases onde eles acham que podem melhorar os resultados do Google. Testes em 44 idiomas mostram que o recurso "sugerir uma edição" levou a uma melhoria em no máximo 40% dos casos em quatro anos, enquanto a análise geral mostra que os procedimentos de multidão do Google muitas vezes reduzem traduções erradas.

Tradução automática estatística

Embora o Google tenha implantado um novo sistema chamado tradução automática neural para uma tradução de melhor qualidade, existem idiomas que ainda usam o método de tradução tradicional chamado tradução automática estatística. É um método de tradução baseado em regras que utiliza algoritmos preditivos para adivinhar maneiras de traduzir textos em línguas estrangeiras. Seu objetivo é traduzir frases inteiras, em vez de palavras isoladas, em seguida, reunir frases sobrepostas para tradução. Além disso, também analisa corpora de texto bilíngue para gerar modelo estatístico que traduz textos de um idioma para outro.

Tradução automática do Google Neural

Em setembro de 2016, uma equipe de pesquisa do Google anunciou o desenvolvimento do sistema Google Neural Machine Translation (GNMT) para aumentar a fluência e a precisão no Google Translate e, em novembro, anunciou que o Google Translate mudaria para o GNMT.

O sistema de tradução automática neural do Google Translate usa uma grande rede neural artificial ponta a ponta que tenta realizar o aprendizado profundo , em particular, redes de memória de curto prazo de longo prazo . O GNMT melhora a qualidade da tradução em relação ao SMT em alguns casos porque usa um método de tradução automática baseada em exemplos (EBMT) no qual o sistema "aprende com milhões de exemplos". De acordo com os pesquisadores do Google, ele traduz "frases inteiras de uma vez, em vez de apenas parte por parte. Ele usa esse contexto mais amplo para ajudá-lo a descobrir a tradução mais relevante, que então reorganiza e ajusta para ficar mais parecida com uma pessoa que fala Gramática correcta". A "arquitetura proposta" do GNMT de "aprendizado de sistema" foi implementada em mais de uma centena de idiomas suportados pelo Google Translate. Com a estrutura de ponta a ponta, o Google afirma, mas não demonstra para a maioria dos idiomas, que "o sistema aprende com o tempo para criar traduções melhores e mais naturais". A rede GNMT tenta a tradução automática interlinguística , que codifica a "semântica da frase em vez de simplesmente memorizar traduções frase a frase", e o sistema não inventou sua própria linguagem universal, mas usa "a semelhança encontrada entre muitas línguas" . GNMT foi habilitado primeiro para oito idiomas: de e para inglês e chinês, francês, alemão, japonês, coreano, português, espanhol e turco. Em março de 2017, ele foi habilitado para hindi, russo e vietnamita, seguido por bengali, guzerate, indonésio, canarim, malaiala, marata, punjabi, tâmil e télugo em abril.

Precisão

O Google Translate não é tão confiável quanto a tradução humana. Quando o texto é bem estruturado, escrito em linguagem formal, com frases simples, relacionadas a tópicos formais para os quais os dados de treinamento são amplos, ele geralmente produz conversões semelhantes às traduções humanas entre o inglês e uma série de idiomas de alto recurso. A precisão diminui para esses idiomas quando menos dessas condições se aplicam, por exemplo, quando o comprimento da frase aumenta ou o texto usa linguagem familiar ou literária. Para muitas outras línguas em relação ao inglês, ele pode produzir a essência do texto nessas circunstâncias formais. A avaliação humana do inglês para todos os 102 idiomas mostra que a ideia principal de um texto é transmitida mais de 50% do tempo para 35 idiomas. Para 67 idiomas, um resultado minimamente compreensível não é alcançado em 50% das vezes ou mais. Alguns estudos avaliaram chinês, francês, alemão e espanhol para inglês, mas nenhuma avaliação humana sistemática foi conduzida da maioria dos idiomas do Google Translate para o inglês. Pontuações especulativas de idioma para idioma extrapoladas de medições de inglês para outro indicam que o Google Translate produzirá resultados de tradução que transmitem a essência de um texto de um idioma para outro mais da metade do tempo em cerca de 1% dos pares de idiomas, onde nenhum o idioma é o inglês.

Quando usado como um dicionário para traduzir palavras isoladas, o Google Translate é altamente impreciso porque deve adivinhar entre palavras polissêmicas . Entre as 100 palavras mais populares do idioma inglês, que representam mais de 50% de todo o inglês escrito, a palavra média tem mais de 15 sentidos, o que torna as chances contra uma tradução correta de cerca de 15 para 1 se cada sentido mapear para um diferente palavra no idioma de destino. A maioria das palavras comuns em inglês tem pelo menos dois sentidos, o que produz chances de 50/50 no caso provável de que o idioma de destino use palavras diferentes para esses diferentes sentidos. As probabilidades são semelhantes de outras línguas para o inglês. O Google Translate faz suposições estatísticas que aumentam a probabilidade de produzir o sentido mais frequente de uma palavra, com a consequência de que uma tradução precisa não poderá ser obtida em casos que não correspondam à ocorrência do corpus majoritário ou plural . A precisão das previsões de uma única palavra não foi medida para nenhum idioma. Como quase todos os pares de idiomas diferentes do inglês giram em torno do inglês, as chances de obter traduções precisas de uma única palavra de um idioma diferente do inglês para outro podem ser estimadas multiplicando o número de sentidos no idioma de origem pelo número de sentidos de cada um deles os termos têm em inglês. Quando o Google Translate não tem uma palavra em seu vocabulário, ele cria um resultado como parte de seu algoritmo.

A imprecisão do Google Translate pode ser ilustrada traduzindo de um idioma para outro e de volta para o idioma original. Isso geralmente resultará em construções sem sentido, em vez da recuperação do texto original.

Limitações

O Google Translate, como outras ferramentas de tradução automática, tem suas limitações. O serviço limita o número de parágrafos e a gama de termos técnicos que podem ser traduzidos e, embora possa ajudar o leitor a compreender o conteúdo geral de um texto em língua estrangeira, nem sempre fornece traduções precisas e, na maioria das vezes, tende a se repetir literalmente a mesma palavra que se espera traduzir. Gramaticamente, por exemplo, o Google Translate se esforça para diferenciar entre aspectos imperfeitos e perfeitos nas línguas românicas, de modo que atos habituais e contínuos no passado costumam se tornar eventos históricos únicos . Embora pareça pedante, isso muitas vezes pode levar a resultados incorretos (para um falante nativo de francês e espanhol, por exemplo), o que teria sido evitado por um tradutor humano. O conhecimento do modo subjuntivo é virtualmente inexistente. Além disso, a segunda pessoa formal ( vous ) é freqüentemente escolhida, qualquer que seja o contexto ou uso aceito. Como seu material de referência em inglês contém apenas formulários "você", ele tem dificuldade em traduzir um idioma com variações "todos vocês" ou "vocês" formais.

Devido às diferenças entre os idiomas em investimento, pesquisa e extensão dos recursos digitais, a precisão do Google Translate varia muito entre os idiomas. Alguns idiomas produzem resultados melhores do que outros. A maioria das línguas da África, Ásia e Pacífico tende a ter pontuação baixa em relação às pontuações de muitas línguas europeias bem financiadas, sendo o afrikaans e o chinês as exceções de pontuação mais alta em seus continentes. Nenhum idioma nativo da Austrália ou das Américas está incluído no Google Translate. As pontuações mais altas para o europeu podem ser parcialmente atribuídas ao Europarl Corpus , um tesouro de documentos do Parlamento Europeu que foram traduzidos profissionalmente pelo mandato da União Europeia em até 21 línguas. Uma análise de 2010 indicou que a tradução do francês para o inglês é relativamente precisa, e as análises de 2011 e 2012 mostraram que a tradução do italiano para o inglês também é relativamente precisa. No entanto, se o texto-fonte for mais curto, as traduções automáticas baseadas em regras costumam ter um desempenho melhor; este efeito é particularmente evidente nas traduções de chinês para inglês. Embora edições de traduções possam ser enviadas, em chinês, especificamente, não é possível editar frases como um todo. Em vez disso, deve-se editar às vezes conjuntos arbitrários de caracteres, levando a edições incorretas. Um bom exemplo é russo para inglês. Antigamente, alguém usaria o Google Translate para fazer um rascunho e, em seguida, usaria um dicionário e o bom senso para corrigir os inúmeros erros. Desde o início de 2018, o Tradutor é suficientemente preciso para tornar a Wikipedia em russo acessível para quem sabe ler em inglês. A qualidade do Tradutor pode ser verificada adicionando-o como uma extensão do Chrome ou Firefox e aplicando-o aos links do idioma esquerdo de qualquer artigo da Wikipedia. Ele pode ser usado como um dicionário digitando palavras. Pode-se traduzir de um livro usando um scanner e um OCR como o Google Drive, mas isso leva cerca de cinco minutos por página.

Na função Tradução de palavras escritas, há um limite de palavras para a quantidade de texto que pode ser traduzida de uma vez. Portanto, o texto descritivo deve ser transferido para um formulário de documento e traduzido por meio de sua função de tradução de documentos.

Além disso, como todos os programas de tradução automática, o Google Translate luta com a polissemia (os múltiplos significados que uma palavra pode ter) e expressões com várias palavras (termos que têm significados que não podem ser compreendidos ou traduzidos pela análise das unidades de palavras individuais que os compõem). Uma palavra em um idioma estrangeiro pode ter dois significados diferentes no idioma traduzido. Isso pode levar a erros de tradução.

Além disso, os erros gramaticais continuam sendo uma limitação importante para a precisão do Google Translate.

Licenças e componentes de código aberto

Língua WordNet Licença
albanês Albanet CC-BY 3.0 / GPL 3
árabe Wordnet árabe CC-BY-SA 3
catalão Repositório Central Multilingue CC-BY-3.0
chinês Wordnet chinês Wordnet
dinamarquês Dannet Wordnet
inglês Princeton Wordnet Wordnet
finlandês FinnWordnet Wordnet
francês WOLF (WOrdnet Libre du Français) CeCILL-C
Galego Repositório Central Multilingue CC-BY-3.0
hebraico Hebraico Wordnet Wordnet
hindi IIT Bombay Wordnet Indo Wordnet
indonésio Wordnet Bahasa MIT
italiano MultiWordnet CC-BY-3.0
japonês Wordnet japonesa Wordnet
Javanês Javanês Wordnet Wordnet
malaio Wordnet Bahasa MIT
norueguês Wordnet norueguês Wordnet
persa Persa Wordnet Livre para usar
polonês plWordnet Wordnet
português OpenWN-PT CC-BY-SA-3.0
espanhol Repositório Central Multilingue CC-BY-3.0
tailandês Wordnet tailandês Wordnet

Avaliações

Pouco depois de lançar o serviço de tradução pela primeira vez, o Google venceu uma competição internacional de tradução automática em inglês para árabe e inglês para chinês.

Erros de tradução e esquisitices

Como o Google Translate usou correspondência estatística para traduzir, o texto traduzido pode muitas vezes incluir erros aparentemente sem sentido e óbvios, às vezes trocando termos comuns por termos comuns semelhantes, mas não equivalentes em outro idioma, ou invertendo o significado da frase. Sites de novidades, como Bad Translator e Translation Party, utilizaram o serviço para produzir textos humorísticos, traduzindo de um lado para outro entre vários idiomas, semelhante ao telefone de jogos infantis .

Se o aplicativo tentar traduzir " A piada mais engraçada do mundo " do Monty Python para o inglês, o serviço retornará a mensagem "[FATAL ERROR]".

Uso do tribunal

Em 2017, o Google Translate foi usado durante uma audiência no tribunal quando os oficiais do tribunal do Teesside Magistrates 'Court não conseguiram reservar um intérprete para o réu chinês.

Veja também

Referências

links externos