LEPOR - LEPOR

Lepor ( Le ngth Penalidade, P recision, n-grama Po sição diferença Penalidade e R eCall) é uma linguagem automática independente máquina avaliação tradução métrica com parâmetros ajustáveis e factores reforçado.

Fundo

Desde que a IBM propôs e percebeu o sistema de BLEU como a métrica automática para avaliação da Tradução Automática (MT), muitos outros métodos foram propostos para revisá-lo ou melhorá-lo, como TER, METEOR , etc. No entanto, existem alguns problemas no tradicional métricas de avaliação automática . Algumas métricas têm um bom desempenho em certos idiomas, mas são fracas em outros, o que geralmente é chamado de problema de viés de idioma. Algumas métricas dependem de muitos recursos da linguagem ou informações linguísticas, o que torna difícil para outros pesquisadores repetir os experimentos. LEPOR é uma métrica de avaliação automática que tenta resolver alguns dos problemas existentes. LEPOR é projetado com fatores aumentados e os parâmetros ajustáveis ​​correspondentes para resolver o problema de viés de linguagem. Além disso, na versão melhorada do LEPOR, ou seja, o hLEPOR, ele tenta usar os recursos linguísticos otimizados que são extraídos de treebanks . Outra versão avançada do LEPOR é a métrica nLEPOR, que adiciona os recursos de n-gram aos fatores anteriores. Até agora, a métrica LEPOR foi desenvolvida na série LEPOR.

As métricas LEPOR foram estudadas e analisadas por muitos pesquisadores de diferentes áreas, como tradução automática, geração de linguagem natural e pesquisa, e muito mais. As métricas LEPOR estão recebendo mais atenção dos pesquisadores científicos no processamento de linguagem natural .

Projeto

LEPOR é projetado com os fatores de penalidade de comprimento aprimorada, precisão , penalidade de ordem de palavras de n-grama e recall . A penalidade de comprimento aumentada garante que a tradução de hipótese, que geralmente é traduzida por sistemas de tradução automática, seja punida se for mais longa ou mais curta do que a tradução de referência. A pontuação de precisão reflete a exatidão da tradução da hipótese. A pontuação de recall reflete a lealdade da tradução da hipótese para a tradução de referência ou idioma de origem. O fator de penalidade de ordem de palavras baseado em n-grama é projetado para as diferentes ordens de posição entre a tradução de hipótese e a tradução de referência. O fator de penalidade de ordem de palavras tem se mostrado útil por muitos pesquisadores, como o trabalho de Wong e Kit (2008).

À luz de que as métricas de correspondência de string de superfície de palavra foram criticadas por falta de sintaxe e consciência semântica, a métrica LEPOR desenvolvida (hLEPOR) investiga a integração de características linguísticas, como a classe gramatical (POS). POS é introduzido como uma certa funcionalidade da sintaxe e do ponto de vista semântico, por exemplo, se um token de uma frase de saída é um verbo enquanto se espera que seja um substantivo, então deve haver uma penalidade; além disso, se o PDV for o mesmo, mas a palavra exata não for a mesma, por exemplo, bom x bom, então esse candidato receberá certo crédito. A pontuação geral do hLEPOR é então calculada como a combinação da pontuação no nível da palavra e pontuação no nível POS com um conjunto de ponderação. O conhecimento de n-gram inspirado na modelagem de linguagem também é amplamente explorado no nLEPOR. Além do conhecimento de n-gram para cálculo de penalidade de diferença de posição de n-gram, n-gram também é aplicado à precisão de n-gram e recuperação de n-gram em nLEPOR, e o parâmetro n é um fator ajustável. Além do conhecimento de PDV em hLEPOR, a estrutura de frase da análise de informações está incluída em uma nova variante do HPPR. Na modelagem de avaliação HPPR, o conjunto de estrutura de frase, como sintagma nominal, sintagma verbal, frase preposicional, frase adverbial, é considerado durante a correspondência do texto candidato ao texto de referência.

Implementação de Software

As métricas LEPOR foram implementadas originalmente na linguagem de programação Perl e, recentemente, a versão Python está disponível por outros pesquisadores e engenheiros, com um anúncio para a imprensa da empresa Logrus Global Language Service.

atuação

Série Lepor mostraram suas boas atuações no ACL workshop internacional anual da tradução automática estatística ( ACL-WMT ). O ACL-WMT é mantido pelo grupo de interesse especial de tradução automática (SIGMT) na associação internacional de linguística computacional (ACL). No ACL-WMT 2013, há duas faixas de tradução e avaliação, inglês para outro e outro para inglês. Os "outros" idiomas incluem espanhol , francês , alemão , tcheco e russo . Na direção inglês para outro, a métrica nLEPOR alcança a maior pontuação de correlação em nível de sistema com julgamentos humanos usando o coeficiente de correlação de Pearson, a segunda maior pontuação de correlação em nível de sistema com julgamentos humanos usando o coeficiente de correlação de Spearman . Na direção outro-para-inglês, nLEPOR tem desempenho moderado e METEOR produz a maior pontuação de correlação com julgamentos humanos, o que se deve ao fato de que nLEPOR usa apenas o recurso linguístico conciso, informações da classe gramatical, exceto para o oficialmente oferecido dados de treinamento; no entanto, METEOR usou muitos outros recursos externos, como os dicionários de sinônimos , paráfrase e lematização , etc.

Um trabalho extenso e introdução sobre o desempenho do LEPOR em diferentes condições, incluindo a forma pura da superfície da palavra, recursos de POS , recursos de tags de frase, é descrito em uma tese da Universidade de Macau .

Há uma análise estatística profunda sobre o desempenho do hLEPOR e do nLEPOR no WMT13, que mostra seu desempenho como uma das melhores métricas "tanto na avaliação individual do par de idiomas para espanhol para inglês quanto no conjunto agregado de 9 pares de idiomas.", Consulte o artigo (Avaliação precisa de métricas de tradução automática em nível de segmento) " https://www.aclweb.org/anthology/N15-1124 " Graham et al. NAACL 2015 ( https://github.com/ygraham/segment-mteval )

Formulários

As séries de métricas automáticas LEPOR têm sido aplicadas e utilizadas por muitos pesquisadores de diferentes áreas do processamento de linguagem natural . Por exemplo, em MT padrão e MT Neural. Também fora da comunidade de MT, por exemplo, aplicou a avaliação LEPOR in Search; mencionou a aplicação do LEPOR para avaliação da geração de código (linguagem de programação); investigou a avaliação automática da geração de linguagem natural com métricas, incluindo LEPOR, e argumentou que as métricas automáticas podem ajudar nas avaliações de nível de sistema; também LEPOR é aplicado na avaliação de legendagem de imagens.

Veja também

Notas

Referências

  • Papineni, K., Roukos, S., Ward, T. e Zhu, WJ (2002). "BLEU: um método para avaliação automática da tradução automática" em ACL-2002: 40º encontro anual da Association for Computational Linguistics pp. 311-318
  • Han, ALF, Wong, DF, e Chao, LS (2012) "LEPOR: A Robust Evaluation Metric for Machine Translation with Augmented Factors" in Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012): Posters, pp. 441– 450. Mumbai, índia. Artigo online Ferramenta de código aberto
  • Han, ALF, Wong, DF, Chao, LS, He, L., Lu, Y., Xing, J., e Zeng, X. (2013a) "Modelo independente de linguagem para avaliação de tradução automática com fatores reforçados" em Procedimentos da Cúpula de Tradução Automática XIV (MT SUMMIT 2013), pp. 215-222. Nice, França. Editor: International Association for Machine Translation. Artigo online Ferramenta de código aberto
  • Han, ALF, Wong, DF, Chao, LS, Lu, Y., He, L., Wang, Y., e Zhou, J. (2013b) "A Description of Tunable Machine Translation Evaluation Systems in WMT13 Metrics Task" em Anais do Oitavo Workshop sobre Tradução Automática Estatística, ACL-WMT13, Sofia, Bulgária. Association for Computational Linguistics. Artigo online, pp. 414-421
  • Han, Aaron L.-F .; Wong, Derek F .; Chao, Lidia S .; Ele, Liangye; Lu, Yi (2014). "Modelo de estimativa de qualidade não supervisionado para tradução de inglês para alemão e sua aplicação em avaliação supervisionada extensiva" . The Scientific World Journal . 2014 : 1-12. doi : 10.1155 / 2014/760301 . PMC  4032676 . PMID  24892086 .
  • ACL-WMT. (2013) " ACL-WMT13 METRICS TASK "
  • Wong, B. TM e Kit, C. (2008). "Escolha e posição de palavras para avaliação automática de MT" no Workshop: MetricsMATR da Association for Machine Translation in the Americas (AMTA) , artigo resumido, Waikiki, EUA.
  • Banerjee, S. e Lavie, A. (2005) "METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments" in Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and / or Summarization in the 43rd Annual Meeting of a Associação de Lingüística Computacional (ACL-2005), Ann Arbor, Michigan, junho de 2005
  • Han, Lifeng. (2014) "LEPOR: An Augmented Machine Translation Evaluation Metric". Dissertação de Mestrado em Engenharia de Software. Universidade de Macau, Macau. [1] PPT
  • Yvette Graham, Timothy Baldwin e Nitika Mathur. (2015) Avaliação precisa das métricas de tradução automática em nível de segmento. In NAACL HLT 2015, The 2015 Conference of the North American Chapter da Association for Computational Linguistics: Human Language Technologies, Denver, Colorado, EUA, 31 de maio - 5 de junho de 2015, páginas 1183–1191.
  • Han, Lifeng (2016). "Recursos e métodos de avaliação de tradução automática: uma pesquisa". arXiv : 1605.04515 [ cs.CL ].
  • Jekaterina Novikova, Ondˇrej Dušek, Amanda Cercas Curry e Verena Rieser. (2017) Por que precisamos de novas métricas de avaliação para NLG. Em Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, páginas 2241–2252, Copenhagen, Dinamarca. Association for Computational Linguistics.
  • Liu, Zeyang; Zhou, Ke; Wilson, Max L. (2021). "Meta-avaliação de métricas de avaliação de pesquisa conversacional". Transações ACM em sistemas de informação . 39 (4): 1–42. arXiv : 2104.13453 . doi : 10.1145 / 3445029 . S2CID  233423567 .
  • Liguori, Pietro; Al-Hossami, Erfan; Cotroneo, Domenico; Natella, Roberto; Cukic, Bojan; Shaikh, Samira (2021). "Shellcode_IA32: um conjunto de dados para geração automática de código Shell". arXiv : 2104.13100 [ cs.SE ].
  • Celikyilmaz, Asli; Clark, Elizabeth; Gao, Jianfeng (2020). "Avaliação da geração de texto: uma pesquisa". arXiv : 2006.14799 [ cs.CL ].
  • D Qiu, B Rothrock, T Islam, AK Didier, VZ Sun… (2020) SCOTI: Legendagem científica de imagens de terreno para priorização de dados e pesquisa local de imagens. Planetário e Espaço. Elsevier
  • Marzouk, Shaimaa; Hansen-Schirra, Silvia (2019). "Avaliação do impacto da linguagem controlada na tradução automática neural em comparação com outras arquiteturas de MT". Tradução automática . 33 (1–2): 179–203. doi : 10.1007 / s10590-019-09233-w . S2CID  171094946 .
  • Han, Aaron Li-Feng; Wong, Derek F .; Chao, Lidia S .; Ele, Liangye; Li, Shuo; Zhu, Ling (2013). "Phrase Tagset Mapping for French and English Treebanks and Your Application in Machine Translation Evaluation". Processamento de linguagem e conhecimento na web . Notas de aula em Ciência da Computação. 8105 . pp. 119–131. doi : 10.1007 / 978-3-642-40722-2_13 . ISBN 978-3-642-40721-5.

links externos