Bigram - Bigram

Um bigrama ou digrama é uma sequência de dois elementos adjacentes de uma sequência de tokens , que normalmente são letras, sílabas ou palavras. Um bigrama é um n- grama para n = 2. A distribuição de frequência de cada bigrama em uma string é comumente usada para análise estatística simples de texto em muitas aplicações, incluindo linguística computacional, criptografia, reconhecimento de voz e assim por diante.

Bigramas de lacuna ou bigramas de salto são pares de palavras que permitem lacunas (talvez evitando palavras de conexão ou permitindo alguma simulação de dependências, como em uma gramática de dependência ).

Bigramas de palavras principais são bigramas de lacuna com uma relação de dependência explícita.

Detalhes

Os bigramas ajudam a fornecer a probabilidade condicional de um token dado o token anterior, quando a relação da probabilidade condicional é aplicada:

Ou seja, a probabilidade de um token dado o token anterior é igual à probabilidade de seu bigrama, ou a coocorrência dos dois tokens , dividida pela probabilidade do token anterior.

Formulários

Os bigramas são usados ​​na maioria dos modelos de linguagem de sucesso para reconhecimento de fala . Eles são um caso especial de N-gram .

Ataques de frequência bigram podem ser usados ​​em criptografia para resolver criptogramas . Veja análise de frequência .

A frequência dos bigramas é uma abordagem para a identificação estatística da linguagem .

Algumas atividades em logologia ou linguística recreativa envolvem bigramas. Isso inclui tentativas de encontrar palavras em inglês começando com todos os bigramas possíveis ou palavras contendo uma sequência de bigramas repetidos, como logogogo .

Frequência do bigrama na língua inglesa

A frequência dos bigramas de letras mais comuns em um pequeno corpus inglês é:

th 1.52       en 0.55       ng 0.18
he 1.28       ed 0.53       of 0.16
in 0.94       to 0.52       al 0.09
er 0.94       it 0.50       de 0.09
an 0.82       ou 0.50       se 0.08
re 0.68       ea 0.47       le 0.08
nd 0.63       hi 0.46       sa 0.06
at 0.59       is 0.46       si 0.05
on 0.57       or 0.43       ar 0.04
nt 0.56       ti 0.34       ve 0.04
ha 0.56       as 0.33       ra 0.04
es 0.56       te 0.27       ld 0.02
st 0.55       et 0.19       ur 0.02

Frequências completas de bigrama para um corpus maior estão disponíveis.

Veja também

Referências

  1. ^ Collins, Michael John (1996-06-24). "Um novo analisador estatístico baseado em dependências lexicais de bigrama" . Anais da 34ª reunião anual da Association for Computational Linguistics - . Association for Computational Linguistics. pp. 184–191. arXiv : cmp-lg / 9605012 . doi : 10.3115 / 981863.981888 . S2CID   12615602 . Página visitada em 09/10/2018 .
  2. ^ Cohen, Philip M. (1975). "Bigramas iniciais" . Maneiras de palavras . 8 (2) . Retirado em 11 de setembro de 2016 .
  3. ^ Corbin, Kyle (1989). "Bigramas duplos, triplos e quádruplos" . Maneiras de palavras . 22 (3) . Retirado em 11 de setembro de 2016 .
  4. ^ Projeto do Cornell Math Explorer - Cifras de substituição
  5. ^ Jones, Michael N; DJK Mewhort (agosto de 2004). "Contagem de letras com distinção entre maiúsculas e minúsculas e frequência de bigrama de corpora em inglês de grande escala" . Métodos, instrumentos e computadores de pesquisa do comportamento . 36 (3): 388–396. doi : 10.3758 / bf03195586 . ISSN   0743-3808 . PMID   15641428 .
  6. ^ "Contagens de freqüência de letras em inglês: Mayzner revisitado ou ETAOIN SRHLDCU" . norvig.com . Página visitada em 28/10/2019 .