Wikcionário - Wiktionary

Wikcionário
	Logotipo do Wikcionário em inglês
	Captura de tela Página principal do Wikcionário em inglês em 14 de janeiro de 2019
Tipo de site	Dicionário online
Disponível em	Multilíngue (158 ativos)
Proprietário	Fundação Wikimedia
Criado por	Jimmy Wales e a comunidade Wikimedia
URL	wiktionary .org
Comercial	Não
Cadastro	Opcional
Lançado	12 de dezembro de 2002 ; 18 anos atras
Status atual	ativo

O Wikcionário é um projeto multilíngue baseado na web para criar um dicionário de termos de conteúdo gratuito (incluindo palavras , frases , provérbios , reconstruções linguísticas , etc.) em todas as línguas naturais e em várias línguas artificiais . Essas entradas podem conter definições , imagens para ilustrações, pronúncias , etimologias , inflexões , exemplos de uso, citações , termos relacionados e traduções de palavras em outros idiomas, entre outros recursos. É editado de forma colaborativa por meio de um wiki . Seu nome é uma maleta das palavras wiki e dicionário . Ele está disponível em 182 idiomas e em inglês simples . Como seu projeto irmão Wikipedia , o Wikcionário é administrado pela Fundação Wikimedia e é escrito em colaboração por voluntários , apelidado de "Wikcionários". Seu software wiki , MediaWiki , permite que quase qualquer pessoa com acesso ao site crie e edite entradas.

Como o Wikcionário não é limitado por considerações de espaço de impressão, a maioria das edições em idiomas do Wikcionário fornecem definições e traduções de palavras de muitos idiomas, e algumas edições oferecem informações adicionais normalmente encontradas em tesauros .

Os dados do Wikcionário são freqüentemente usados em várias tarefas de processamento de linguagem natural .

História e desenvolvimento

O Wikcionário foi colocado online em 12 de dezembro de 2002, seguindo uma proposta de Daniel Alston e uma ideia de Larry Sanger , co-fundador da Wikipedia. Em 28 de março de 2004, os primeiros Wikcionários não ingleses foram iniciados em francês e polonês . Desde então, foram iniciados Wikcionários em várias outras línguas. O Wikcionário foi hospedado em um nome de domínio temporário (wiktionary.wikipedia.org) até 1 de maio de 2004, quando mudou para o nome de domínio atual. Em julho de 2021, o Wikcionário apresentava mais de 30 milhões de artigos (e ainda mais entradas) em suas edições. A maior das edições linguísticas é o Wikcionário em inglês, com mais de 6,8 milhões de entradas, seguido pelo Wikcionário francês com mais de 4,2 milhões e o Wikcionário malgaxe com mais de 1,7 milhões de entradas. Quarenta e três edições em idiomas do Wikcionário contêm mais de 100.000 entradas cada.

O uso de bots para gerar um grande número de artigos é visível como "surtos de crescimento" neste gráfico de contagens de artigos nas oito maiores edições do Wikcionário. (Dados de dezembro de 2009)

Muitas das definições nas maiores edições de idioma do projeto foram criadas por bots que encontraram maneiras criativas de gerar entradas ou (raramente) importaram automaticamente milhares de entradas de dicionários publicados anteriormente. Sete dos 18 bots registrados no Wikcionário Inglês em 2007 criaram 163.000 das entradas lá.

Outro desses bots, "ThirdPersBot", foi responsável pela adição de várias conjugações de terceira pessoa que não teriam recebido suas próprias entradas nos dicionários padrão; por exemplo, definiu "fumegantes" como a "forma presente simples de terceira pessoa do singular de fumegante". Das 1.269.938 definições que o Wikcionário em inglês fornece para 996.450 palavras em inglês, 478.068 são definições de "forma de" desse tipo. Isso significa que, mesmo sem essas entradas, sua cobertura do inglês é significativamente maior do que a dos principais dicionários impressos monolíngues. O Terceiro Novo Dicionário Internacional da Língua Inglesa Merriam-Webster , Unabridged , por exemplo, tem 475.000 entradas (com muitos headwords adicionais incorporados); o Oxford English Dictionary tem 615.000 entradas, mas também inclui o inglês médio , para o qual o Wikcionário em inglês tem 34.234 definições adicionais. Existem estatísticas detalhadas para mostrar quantas entradas de vários tipos existem.

O Wikcionário em inglês não depende de bots tanto quanto algumas outras edições. Os wikcionários franceses e vietnamitas , por exemplo, importaram grandes seções do Free Vietnamese Dictionary Project (FVDP), que fornece dicionários bilíngues de conteúdo gratuito de e para o vietnamita. Essas entradas importadas constituem praticamente todo o conteúdo da edição vietnamita. Como a edição em inglês, o Wikcionário francês importou aproximadamente 20.000 entradas do banco de dados Unihan de caracteres chineses, japoneses e coreanos . O Wikcionário francês cresceu rapidamente em 2006 graças em grande parte aos bots que copiam muitas entradas de dicionários antigos e licenciados gratuitamente, como a oitava edição do Dictionnaire de l'Académie française (1935, cerca de 35.000 palavras), e usando bots para adicionar palavras de outras edições do Wikcionário com traduções em francês. A edição russa cresceu cerca de 80.000 entradas à medida que "LXbot" adicionou entradas padronizadas (com cabeçalhos, mas sem definições) para palavras em inglês e alemão .

Em julho de 2021, en.wiktionary tinha mais de 791.870 definições de gloss e mais de 1.269.938 definições totais (incluindo formas diferentes) apenas para entradas em inglês, com um total de mais de 9.928.056 definições em todos os idiomas.

Logos

O Wikcionário historicamente carece de um logotipo uniforme em suas numerosas edições de idiomas. Algumas edições usam logotipos que representam uma entrada de dicionário sobre o termo "Wikcionário", com base no logotipo anterior do Wikcionário em inglês, que foi projetado por Brion Vibber, um desenvolvedor do MediaWiki . Como um logotipo puramente textual deve variar consideravelmente de idioma para idioma, um concurso de quatro fases para adotar um logotipo uniforme foi realizado no Wikimedia Meta-Wiki de setembro a outubro de 2006. Algumas comunidades adotaram a entrada vencedora de "Smurrayinchester", um 3 × 3 grade de ladrilhos de madeira, cada um contendo um caractere de um sistema de escrita diferente. No entanto, a pesquisa não teve tanta participação da comunidade wikcionária quanto alguns membros da comunidade esperavam, e vários wikis maiores acabaram mantendo seus logotipos textuais.

Em abril de 2009, o problema foi ressuscitado com um novo concurso. Desta vez, uma representação por "AAEngelman" de um dicionário aberto de capa dura ganhou uma votação frente a frente contra o logotipo de 2006, mas o processo para refinar e adotar o novo logotipo então parou. Nos anos seguintes, alguns wikis substituíram seus logotipos textuais por um dos dois logotipos mais recentes. Em 2012, 55 wikis que usavam o logotipo do Wikcionário em inglês receberam versões localizadas do design de 2006 de "Smurrayinchester". Em julho de 2016, o Wikcionário em inglês adotou uma variante desse logotipo. Em 4 de julho de 2016, 135 wikis, representando 61% das entradas do Wikcionário, usam um logotipo baseado no design de 2006 por "Smurrayinchester", 33 wikis (36%) usam um logotipo textual e três wikis (3%) usam o de 2009 design por "AAEngelman".

Critérios para garantir a precisão

Para garantir a precisão, o Wikcionário em inglês tem uma política que exige que os termos sejam atestados . Os termos nos principais idiomas, como inglês e chinês, devem ser verificados por:

uso claramente difundido, ou
uso em mídia gravada permanentemente, transmitindo significado, em pelo menos três instâncias independentes abrangendo pelo menos um ano.

Para línguas menos documentadas, como o Creek e línguas extintas, como o latim , um uso em uma mídia permanentemente registrada ou uma menção em uma obra de referência é verificação suficiente.

Multilíngue

Em outubro de 2021, havia sites do Wikcionário em 182 idiomas, dos quais 158 ativos e 24 fechados. Os sites ativos possuem 30.604.247 artigos, e os sites fechados, 339 artigos. Existem 6.401.039 usuários registrados, dos quais 4.727 estão ativos recentemente.

Os dez principais projetos de linguagem wiktionary por contagem de artigos do espaço principal:

№	Língua	Wiki	Boa	Total	Editar% s	Admins	Comercial	Usuários ativos	arquivos
1	inglês	en	6.805.664	7.748.050	64.159.832	103	3.865.931	1.804	24
2	francês	fr	4.252.066	4.572.906	29.847.394	35	313.809	465	6
3	malgaxe	mg	1.709.188	1.792.331	29.121.199	2	9.706	9	3
4	russo	ru	1.148.801	2.404.961	12.025.802	14	266.488	258	142
5	chinês	zh	1.079.226	1.643.278	6.317.646	7	98.920	65	36
6	alemão	de	1.007.724	1.173.340	8.869.745	17	204.475	215	99
7	Servo-croata	sh	911.567	916.410	1.469.307	4	6.515	1	3
8	espanhol	es	908.462	962.857	5.020.845	8	133.449	89	14
9	sueco	sv	810.881	851.493	3.622.458	14	49.527	64	1
10	grego	el	798.915	839.603	5.321.529	7	47.661	68	55

Para uma lista completa com os totais, veja as Estatísticas da Wikimedia:

Recepção critica

A recepção crítica do Wikcionário foi mista. Em 2006, Jill Lepore escreveu no artigo "A Arca de Noé" para a The New Yorker ,

Não há show de mãos no Wikcionário . Não tem nem redação. "Seja o seu próprio lexicógrafo!", Pode ser o lema do Wikcionário . Quem precisa de especialistas? Por que pagar um bom dinheiro por um dicionário escrito por lexicógrafos quando poderíamos improvisar um juntos?

O wikcionário não é tão republicano ou democrático quanto o maoísta. E é tão bom quanto os livros com direitos autorais expirados dos quais ele rouba.

A crítica de Keir Graff para Booklist foi menos crítica:

Existe um lugar para o Wikcionário? Sem dúvida. A indústria e o entusiasmo de seus muitos criadores são a prova de que existe um mercado. E é maravilhoso ter outra fonte forte para usar ao pesquisar os termos estranhos que surgem no mundo em rápida mudança de hoje e no ambiente online. Mas, como acontece com tantas fontes da Web (incluindo esta coluna), é melhor usado por usuários sofisticados em conjunto com fontes mais confiáveis.

As referências em outras publicações são fugazes e parte de discussões maiores da Wikipedia, não progredindo além de uma definição, embora David Brooks em The Nashua Telegraph a tenha descrito como "selvagem e confusa". Um dos impedimentos para a cobertura independente do Wikcionário é a confusão contínua de que ele é apenas uma extensão da Wikipedia.

A medida de correção das inflexões para um subconjunto das palavras polonesas no Wikcionário inglês mostrou que esses dados gramaticais são muito estáveis. Apenas 131 de 4.748 palavras polonesas tiveram seus dados de inflexão corrigidos.

Desde 2016, o Wikcionário tem visto um uso crescente na academia.

Dados do Wikcionário em processamento de linguagem natural

O Wikcionário possui dados semiestruturados . Os dados lexicográficos do Wikcionário podem ser convertidos em formato legível por máquina para serem usados em tarefas de processamento de linguagem natural .

A mineração de dados do Wikcionário é uma tarefa complexa. Existem as seguintes dificuldades:

- (1) as mudanças constantes e frequentes nos dados e esquemas
- (2) a heterogeneidade nos esquemas de edição da linguagem wikcionária e
- (3) a natureza centrada no ser humano de um wiki .

Existem vários analisadores para diferentes edições em idiomas do Wikcionário:

Wikcionário da DBpedia: um subprojeto da DBpedia , os dados são extraídos de wikcionários em inglês, francês, alemão e russo; os dados incluem idioma, classes gramaticais, definições, relações semânticas e traduções. A descrição declarativa do esquema da página, expressões regulares e transdutor de estado finito são usados para extrair informações.
JWKTL (Java Wiktionary Library): fornece acesso aos dumps do Wikcionário em inglês e do Wikcionário em alemão por meio de uma API do Wikcionário Java . Os dados incluem idioma, classes gramaticais, definições, citações, relações semânticas, etimologias e traduções. JWKTL é distribuído sob a licença Apache .
wikokit: o analisador do Wikcionário Inglês e do Wikcionário Russo. Os dados analisados incluem idioma, classes gramaticais, definições, citações, relações semânticas e traduções. Este é um software de código aberto multi-licenciado .
As entradas etimológicas foram analisadas no projeto Etymological WordNet .

Exemplos de tarefas de processamento de linguagem natural que foram resolvidas com a ajuda de dados do Wikcionário incluem:

Tradução automática baseada em regras entre o idioma holandês e o afrikaans ; dados do Wikcionário Inglês, Wikcionário Holandês e Wikipedia foram usados com a plataforma de tradução automática Apertium .
Construção de dicionário legível por máquina pelo analisador NULEX, que integra recursos linguísticos abertos: Wikcionário em inglês, WordNet e VerbNet . Os NULEX analisador arranhões Inglês Wikcionário para obter informações tensa (verbos), plural e partes do discurso (substantivos).
Reconhecimento e síntese de fala , onde o Wikcionário foi usado para criar automaticamente dicionários de pronúncia. Os pares de pronúncias de palavras foram recuperados de 6 edições em idiomas do Wikcionário (tcheco, inglês, francês, espanhol, polonês e alemão). As pronúncias são em termos do Alfabeto Fonético Internacional . O sistema ASR baseado no Wikcionário Inglês tem a maior taxa de erros de palavras, onde cada terceiro fonema deve ser alterado.
Engenharia de ontologia e construção de redes semânticas .
Correspondência de ontologias .
Simplificação de texto . Medero & Ostendorf avaliaram a dificuldade de vocabulário ( detecção do nível de leitura ) com a ajuda de dados do Wikcionário. Propriedades de palavras extraídas de entradas do Wikcionário (comprimento de definição e POS , sentido e contagens de tradução) foram investigadas. Medero e Ostendorf esperavam que
- (1) palavras muito comuns têm maior probabilidade de ter várias classes gramaticais,
- (2) palavras comuns têm mais probabilidade de ter vários sentidos,
- (3) é mais provável que palavras comuns tenham sido traduzidas para vários idiomas. Esses recursos extraídos de entradas do Wikcionário foram úteis para distinguir os tipos de palavras que aparecem nos artigos da Wikipedia em inglês simples de palavras que só aparecem nos artigos comparáveis do inglês padrão.
Marcação de parte do discurso . Li et al. (2012) construíram POS-taggers multilíngües para oito idiomas com poucos recursos com base nos modelos de Wikcionário em inglês e de Markov Oculto .
Análise de sentimento .

"Wikidata: dados lexicográficos" foi iniciado em 2018 para fornecer suporte de dados estruturados para Wikitonários. Ele armazena dados de palavras de todas as línguas em um modelo de dados legível por máquina, em um namespace "Lexeme" dedicado no Wikidata. Em outubro de 2021, o projeto acumulou mais de 600.000 entradas de lexemas em vários idiomas.

Veja também

Lista de Wikcionários

Notas

Referências

Citações

Fontes

Chesley, Paula; Vincent, Bruce; Xu, Li; Srihari, Rohini K. (2006). "Usando verbos e adjetivos para classificar automaticamente o sentimento do blog" (PDF) . Treinamento . 580 : 233–235 . Recuperado em 9 de maio de 2013 .

Hellmann, Sebastian; Brekle, Jonas; Auer, Sören (2012). "Aproveitando o crowdsourcing de recursos lexicais para inicializar uma nuvem de dados linguísticos" (PDF) . Proc. Joint Int. Conferência de Tecnologia Semântica (JIST) . Nara, Japão.

Hellmann, S .; Auer, S. (2013). "Rumo à Extração de Conhecimento Colaborativo em Escala da Web" (PDF) . Em Gurevych, Iryna; Kim, Jungi (eds.). A People's Web encontra a PNL . Teoria e Aplicações do Processamento de Linguagem Natural. Springer-Verlag . pp. 287–313. ISBN 978-3-642-35084-9.

Krizhanovsky, Andrew (2010). "Transformação da estrutura de entrada do Wikcionário em tabelas e relações em um esquema de banco de dados relacional". arXiv : 1011,1368 [ cs ].
Krizhanovsky, Andrew (2010). "A comparação de tesauros do Wikcionário transformados em formato legível por máquina". arXiv : 1006,5040 [ cs ].

Kurmas, Zachary (julho de 2010). Zawilinski: uma biblioteca para estudar gramática no Wikcionário . Anais do 6º Simpósio Internacional sobre Wikis e Colaboração Aberta. Gdansk, Polônia . Recuperado em 29 de julho de 2011 .

Li, Shen; Graça, João V .; Taskar, Ben (2012). "Marcação de classe gramatical supervisionada pelo Wiki" (PDF) . Anais da Conferência Conjunta de 2012 sobre Métodos Empíricos em Processamento de Linguagem Natural e Aprendizagem Computacional de Linguagem Natural . Ilha de Jeju, Coréia: Association for Computational Linguistics. pp. 1389–1398.

Lepore, Jill (6 de novembro de 2006). "Arca de Noé" . The New Yorker (Resumo) . Recuperado em 21 de abril de 2007 .

Lin, Feiyu; Krizhanovsky, Andrew (2011). "Correspondência de ontologias multilíngües com base em dados do Wikcionário acessíveis via terminal SPARQL". Proc. da 13ª Conferência Russa sobre Bibliotecas Digitais RCDL'2011 . Voronezh, Rússia. pp. 19–26. arXiv : 1109.0732 . Bibcode : 2011arXiv1109.0732L .

McFate, Clifton J .; Forbus, Kenneth D. (2011). "NULEX: um léxico de ampla cobertura de licença aberta" (PDF) . O 49º Encontro Anual da Associação de Linguística Computacional: Tecnologias da Linguagem Humana, Anais da Conferência . Portland, Oregon, EUA: The Association for Computer Linguistics. pp. 363-367. ISBN 978-1-932432-88-6.

Medero, Julie; Ostendorf, Mari (2009). "Análise de dificuldade de vocabulário usando wiktionary" (PDF) . Proc. Oficina SLaTE .

Meyer, CM; Gurevych, I. (2010). "Vale seu peso em ouro ou ainda outro recurso - um estudo comparativo do Wikcionário, OpenThesaurus e GermaNet" (PDF) . Proc. 11ª Conferência Internacional sobre Processamento Inteligente de Texto e Lingüística Computacional, Iasi, Romênia . pp. 38–49. Arquivado do original (PDF) em 1º de dezembro de 2017 . Recuperado em 10 de maio de 2013 .

Meyer, CM; Gurevych, I. (2012). "OntoWiktionary - Construindo uma Ontologia a partir do Wikcionário de Dicionário Online Colaborativo" (PDF) . Em Pazienza, MT; Stellato, A. (eds.). Desenvolvimento de Ontologias Semi-Automáticas: Processos e Recursos . IGI Global. pp. 131–161. ISBN 978-1-4666-0188-8. Arquivado do original (PDF) em 9 de outubro de 2013.

Otte, Pim; Tyers, FM (2011). "Tradução automática baseada em regras rápidas entre holandês e afrikaans" (PDF) . Em Forcada, Mikel L .; Depraetere, Heidi; Vandeghinste, Vincent (eds.). 16ª Conferência Anual da Associação Europeia de Tradução Automática, EAMT11 . Leuven, Bélgica. pp. 153–160.

Sascha, Wolfer; Müller-Spitzer, Carolin (2016). "Quantas pessoas constituem uma multidão e o que elas fazem? Análise quantitativa das revisões nas edições do Wikcionário em inglês e alemão" . Lexikos . 26 : 347–371. ISSN 1684-4904 . OCLC 7211535994 - via ProQuest.

Schlippe, Tim; Ochs, Sebastian; Schultz, Tanja (2012). "Geração de modelo de grafema para fonema para idiomas indo-europeus" (PDF) . Acústica, Fala e Processamento de Sinais (ICASSP) . Kyoto, Japão. pp. 4801–4804.

Smirnov A, Levashova T, Karpov A, Kipyatkova I, Ronzhin A, Krizhanovsky A, Krizhanovsky N (2012). "Análise do corpus de citações do Wikcionário Russo". Pesquisa em Ciência da Computação . 56 : 101–112. arXiv : 2002.00734 . CiteSeerX 10.1.1.694.9627 . doi : 10.13053 / rcs-56-1-11 . S2CID 10726045 .

Zesch, Torsten; Müller, Christof; Gurevych, Iryna (2008). "Extraindo Conhecimento Semântico Lexical da Wikipedia e Wikcionário" (PDF) . Proceedings of the Conference on Language Resources and Evaluation (LREC) . Marrakech, Marrocos.

“Wikcionário” . Os 101 principais sites da Web. Revista PC . Ziff Davis. 6 de abril de 2005. Arquivado do original em 21 de dezembro de 2005 . Recuperado em 16 de dezembro de 2005 .

links externos

Lista de todas as edições do Wikcionário
Primeira página do Wikcionário
- Wikcionário inglês
Pacote Wikcionário Android norepositório F-Droid
Wikcionário no Google Play
Estatísticas multilíngues do Wikcionário
Página da Wikimedia no Wikcionário (incluindo lista de todos os Wikcionários existentes)
Páginas sobre o Wikcionário em Meta .

Languages

In other projects