Análise estatística - Statistical parsing

A análise estatística é um grupo de métodos de análise no processamento de linguagem natural . Os métodos têm em comum o fato de associarem regras gramaticais a uma probabilidade. As regras gramaticais são tradicionalmente vistas na linguística computacional como definidoras de sentenças válidas em um idioma. Dentro dessa mentalidade, a ideia de associar cada regra a uma probabilidade fornece a frequência relativa de qualquer regra gramatical dada e, por dedução, a probabilidade de uma análise completa de uma frase. (A probabilidade associada a uma regra gramatical pode ser induzida, mas a aplicação dessa regra gramatical dentro de uma árvore de análise e o cálculo da probabilidade da árvore de análise com base nas regras de seu componente é uma forma de dedução.) Usando este conceito, estatística analisadores fazem uso de um procedimento para pesquisar em um espaço de todos os analisadores candidatos, e o cálculo da probabilidade de cada candidato, para derivar a análise mais provável de uma frase. O algoritmo de Viterbi é um método popular de busca da análise mais provável.

"Pesquisar", neste contexto, é uma aplicação de algoritmos de pesquisa em inteligência artificial .

Como exemplo, pense na frase "A lata pode conter água". Um leitor veria instantaneamente que existe um objeto chamado "a lata" e que esse objeto está realizando a ação 'pode' (isto é, é capaz de); e a coisa que o objeto é capaz de fazer é "segurar"; e a coisa que o objeto é capaz de segurar é "água". Usando uma terminologia mais linguística, "o pode" é um sintagma nominal composto de um determinante seguido por um substantivo, e "pode ​​conter água" é um sintagma verbal que é composto por um verbo seguido por um sintagma verbal. Mas esta é a única interpretação da frase? Certamente, "The can can " é um sintagma nominal perfeitamente válido que se refere a um tipo de dança, e "hold water" também é um sintagma verbal válido, embora o significado forçado da frase combinada não seja óbvio. Esta falta de significado não é vista como um problema pela maioria dos linguistas (para uma discussão sobre este ponto, veja Idéias verdes incolores dormindo furiosamente ), mas de um ponto de vista pragmático, é desejável obter a primeira interpretação ao invés da segunda e analisadores estatísticos conseguir isso classificando as interpretações com base em sua probabilidade.

(Neste exemplo, várias suposições sobre a gramática foram feitas, como uma derivação simples da esquerda para a direita em vez de dirigida pela cabeça, seu uso de frases nominais em vez das frases determinantes atualmente em voga e nenhuma verificação de tipo impedindo um substantivo concreto sendo combinado com uma frase verbal abstrata. Nenhuma dessas suposições afeta a tese do argumento e um argumento comparável pode ser feito usando qualquer outro formalismo gramatical.)

Existem vários métodos que os algoritmos de análise estatística usam com frequência. Embora poucos algoritmos usem todos esses, eles fornecem uma boa visão geral do campo geral. A maioria dos algoritmos de análise estatística é baseada em uma forma modificada de análise de gráfico . As modificações são necessárias para suportar um número extremamente grande de regras gramaticais e, portanto, espaço de busca e, essencialmente, envolvem a aplicação de algoritmos clássicos de inteligência artificial à busca tradicionalmente exaustiva. Alguns exemplos de otimizações estão apenas procurando um subconjunto provável do espaço de pesquisa ( pesquisa de pilha ), para otimizar a probabilidade de pesquisa ( algoritmo de Baum-Welch ) e para descartar parses que são muito semelhantes para serem tratados separadamente ( algoritmo de Viterbi ).

Pessoas notáveis ​​em análise estatística

Veja também