Comprimento mínimo da mensagem - Minimum message length

O comprimento mínimo da mensagem (MML) é um método da teoria da informação bayesiana para comparação e seleção de modelos estatísticos. Ele fornece uma reformulação da teoria da informação formal da Navalha de Occam : mesmo quando os modelos são iguais em sua medida de precisão de ajuste aos dados observados, aquele que gera a explicação mais concisa dos dados é mais provável de ser correto (onde a explicação consiste no declaração do modelo, seguida pela codificação sem perdas dos dados usando o modelo declarado). O MML foi inventado por Chris Wallace , aparecendo pela primeira vez no artigo seminal "Uma medida de informação para classificação". O MML pretende ser não apenas uma construção teórica, mas uma técnica que pode ser implantada na prática. Ele difere do conceito relacionado de complexidade de Kolmogorov porque não requer o uso de uma linguagem de Turing-completa para modelar dados.

Definição

Shannon 's uma teoria matemática de Comunicação (1948) afirma que um código óptimo, o comprimento da mensagem (em binário) de um evento , onde tem probabilidade , é dada por .

O teorema de Bayes afirma que a probabilidade de uma hipótese (variável) dada evidência fixa é proporcional a , que, pela definição de probabilidade condicional , é igual a . Queremos o modelo (hipótese) com a maior probabilidade posterior . Suponha que codifiquemos uma mensagem que representa (descreve) o modelo e os dados em conjunto. Desde então , o modelo mais provável terá a mensagem mais curta. A mensagem quebra em duas partes: . A primeira parte codifica o próprio modelo. A segunda parte contém informações (por exemplo, valores de parâmetros ou condições iniciais, etc.) que, quando processadas pelo modelo, produzem os dados observados.

A MML troca de maneira natural e precisa a complexidade do modelo pela qualidade do ajuste. Um modelo mais complicado leva mais tempo para ser declarado (primeira parte mais longa), mas provavelmente se ajusta melhor aos dados (segunda parte mais curta). Portanto, uma métrica MML não escolherá um modelo complicado, a menos que esse modelo se pague.

Parâmetros de valor contínuo

Uma razão pela qual um modelo pode ser mais longo seria simplesmente porque seus vários parâmetros são declarados com maior precisão, exigindo assim a transmissão de mais dígitos. Muito do poder do MML deriva de sua manipulação de quão acuradamente os parâmetros de estado em um modelo e uma variedade de aproximações que tornam isso viável na prática. Isso permite comparar de forma útil, digamos, um modelo com muitos parâmetros declarados de forma imprecisa em relação a um modelo com menos parâmetros declarados de forma mais precisa.

Principais recursos do MML

  • O MML pode ser usado para comparar modelos de estruturas diferentes. Por exemplo, sua primeira aplicação foi encontrar modelos de mistura com o número ideal de classes. Adicionar classes extras a um modelo de mistura sempre permitirá que os dados sejam ajustados com maior precisão, mas de acordo com o MML, isso deve ser pesado em relação aos bits extras necessários para codificar os parâmetros que definem essas classes.
  • MML é um método de comparação de modelos bayesianos . Dá uma pontuação a cada modelo.
  • MML é invariável em escala e estatisticamente invariante. Ao contrário de muitos métodos de seleção Bayesianos, o MML não se importa se você muda da medição do comprimento para o volume ou das coordenadas cartesianas para as coordenadas polares.
  • MML é estatisticamente consistente. Para problemas como o problema de Neyman-Scott (1948) ou análise fatorial em que a quantidade de dados por parâmetro é limitada acima, o MML pode estimar todos os parâmetros com consistência estatística .
  • O MML é responsável pela precisão da medição. Ele usa a informação de Fisher (na aproximação de Wallace-Freeman 1987, ou outros hipervolumes em outras aproximações ) para discretizar parâmetros contínuos de forma otimizada. Portanto, a posterior é sempre uma probabilidade, não uma densidade de probabilidade.
  • MML está em uso desde 1968. Esquemas de codificação MML foram desenvolvidos para várias distribuições e muitos tipos de alunos de máquina, incluindo classificação não supervisionada, árvores de decisão e gráficos, sequências de DNA, redes Bayesianas , redes neurais (uma camada apenas até agora), compressão de imagem, segmentação de imagem e função, etc.

Veja também

Referências

links externos

Publicação Original:

Livros:

Links Relacionados: