Informação Fisher - Fisher information

Em estatística matemática , a informação de Fisher (às vezes chamado simplesmente de informações ) é uma forma de medir a quantidade de informações que um observável variável aleatória X transporta cerca de um parâmetro desconhecido θ de uma distribuição que os modelos X . Formalmente, é a variância da pontuação ou o valor esperado das informações observadas . Na estatística bayesiana , a distribuição assintótica do modo posterior depende da informação de Fisher e não do anterior (de acordo com o teorema de Bernstein-von Mises , que foi antecipado por Laplace para famílias exponenciais ). O papel da informação de Fisher na teoria assintótica de estimativa de máxima verossimilhança foi enfatizado pelo estatístico Ronald Fisher (seguindo alguns resultados iniciais de Francis Ysidro Edgeworth ). As informações de Fisher também são usadas no cálculo do Jeffreys prior , que é usado em estatísticas Bayesianas.

A matriz de informações de Fisher é usada para calcular as matrizes de covariância associadas às estimativas de máxima verossimilhança . Ele também pode ser usado na formulação de estatísticas de teste, como o teste de Wald .

Os sistemas estatísticos de natureza científica (físicos, biológicos, etc.) cujas funções de verossimilhança obedecem à invariância de deslocamento mostraram obedecer ao máximo de informações de Fisher. O nível do máximo depende da natureza das restrições do sistema.

Definição

A informação de Fisher é uma forma de medir a quantidade de informação que uma variável aleatória observável X carrega sobre um parâmetro desconhecido θ do qual a probabilidade de X depende. Seja f ( X ; θ ) a função de densidade de probabilidade (ou função de massa de probabilidade ) para X condicionada ao valor de θ . Ele descreve a probabilidade de observarmos um determinado resultado de X , dado um valor conhecido de θ . Se f tiver um pico agudo em relação às mudanças em θ , é fácil indicar o valor "correto" de θ a partir dos dados, ou de forma equivalente, que os dados X fornecem muitas informações sobre o parâmetro θ . Se a probabilidade f for plana e espalhada, então seriam necessárias muitas amostras de X para estimar o valor "verdadeiro" real de θ que seria obtido usando toda a população sendo amostrada. Isso sugere estudar algum tipo de variação em relação a θ .

Formalmente, a derivada parcial em relação a θ do logaritmo natural da função de verossimilhança é chamada de pontuação . Sob certas condições de regularidade, se θ é o parâmetro verdadeiro (ou seja, X é realmente distribuído como f ( X ; θ )), pode ser mostrado que o valor esperado (o primeiro momento ) da pontuação, avaliado no valor verdadeiro do parâmetro , é 0:

A variância da pontuação é definida como a informação de Fisher :

Observe isso . Uma variável aleatória com informações de Fisher altas implica que o valor absoluto da pontuação é frequentemente alto. As informações de Fisher não são função de uma observação particular, pois a variável aleatória X foi calculada.

Se log  f ( x ; θ ) é duas vezes diferenciável em relação a θ , e sob certas condições de regularidade, então a informação de Fisher também pode ser escrita como

Desde a

e

Assim, a informação de Fisher pode ser vista como a curvatura da curva de suporte (o gráfico da log-verossimilhança). Perto da estimativa de máxima verossimilhança , as informações de Fisher baixas indicam, portanto, que o máximo parece "contundente", ou seja, o máximo é raso e há muitos valores próximos com log-verossimilhança semelhante. Por outro lado, informações de Fisher altas indicam que o máximo é nítido.

Condições de regularidade

As condições de regularidade são as seguintes:

  1. A derivada parcial de f ( X ; θ ) com respeito a θ existe em quase toda parte . (Ele pode deixar de existir em um conjunto nulo, contanto que este conjunto não dependa de θ .)
  2. A integral de f ( X ; θ ) pode ser diferenciada sob o sinal de integral em relação a θ .
  3. O suporte de f ( X ; θ ) não depende de θ .

Se θ for um vetor, então as condições de regularidade devem ser válidas para cada componente de θ . É fácil encontrar um exemplo de densidade que não satisfaz as condições de regularidade: A densidade de uma variável Uniforme (0, θ ) falha em satisfazer as condições 1 e 3. Neste caso, embora a informação de Fisher possa ser calculada a partir de a definição, não terá as propriedades que normalmente se supõe que tenha.

Em termos de probabilidade

Como a probabilidade de θ dado X é sempre proporcional à probabilidade f ( X ; θ ), seus logaritmos necessariamente diferem por uma constante que é independente de θ , e as derivadas desses logaritmos em relação a θ são necessariamente iguais. Assim, pode-se substituir em log-verossimilhança l ( θ ; X ) em vez de log f ( X ; θ ) nas definições de Informação de Fisher.

Amostras de qualquer tamanho

O valor X pode representar uma única amostra retirada de uma única distribuição ou pode representar uma coleção de amostras retiradas de uma coleção de distribuições. Se houver n amostras e as n distribuições correspondentes forem estatisticamente independentes , as informações de Fisher serão necessariamente a soma dos valores de informações de Fisher de amostra única, um para cada amostra de sua distribuição. Em particular, se as n distribuições são independentes e distribuídas de forma idêntica, então a informação de Fisher será necessariamente n vezes a informação de Fisher de uma única amostra da distribuição comum.

Derivação informal do limite Cramér – Rao

O limite de Cramér-Rao afirma que o inverso da informação de Fisher é um limite inferior da variância de qualquer estimador imparcial de θ . HL Van Trees (1968) e B. Roy Frieden (2004) fornecem o seguinte método de derivar o limite de Cramér-Rao , um resultado que descreve o uso da informação de Fisher.

Informalmente, começamos considerando um estimador imparcial . Matematicamente, "imparcial" significa que

Essa expressão é zero independente de θ , portanto, sua derivada parcial em relação a θ também deve ser zero. Pela regra do produto , esta derivada parcial também é igual a

Para cada θ , a função de verossimilhança é uma função de densidade de probabilidade e, portanto . Um cálculo básico implica que

Usando esses dois fatos acima, obtemos

Fatorar o integrando dá

Quadrando a expressão na integral, a desigualdade de Cauchy-Schwarz produz

O segundo fator entre colchetes é definido como a informação de Fisher, enquanto o primeiro fator entre colchetes é o erro quadrático médio esperado do estimador . Ao reorganizar, a desigualdade nos diz que

Em outras palavras, a precisão com a qual podemos estimar θ é fundamentalmente limitada pela informação de Fisher da função de verossimilhança.

Experiência de Bernoulli de parâmetro único

Um ensaio de Bernoulli é uma variável aleatória com dois resultados possíveis, "sucesso" e "falha", com o sucesso tendo uma probabilidade de θ . O resultado pode ser considerado como determinado por um lançamento de moeda, com a probabilidade de cara ser θ e a probabilidade de coroa ser 1 - θ .

Seja X um julgamento de Bernoulli. A informação Fisher contida em X pode ser calculada para ser

Como as informações de Fisher são aditivas, as informações de Fisher contidas em n ensaios de Bernoulli independentes são, portanto,

Este é o recíproco da variância do número médio de sucessos em n tentativas de Bernoulli , portanto, neste caso, o limite de Cramér-Rao é uma igualdade.

Forma de matriz

Quando existem N parâmetros, de modo que θ é um N × um vector , em seguida, a informação de Fisher toma a forma de um N × N matriz . Esta matriz é chamada de matriz de informação de Fisher (FIM) e tem um elemento típico

A FIM é um N × N matriz semidefinido positivo . Se for positivo definido, então ele define uma métrica Riemanniana no espaço de parâmetros N - dimensional . A geometria de informações do tópico usa isso para conectar as informações de Fisher à geometria diferencial e, nesse contexto, essa métrica é conhecida como métrica de informações de Fisher .

Sob certas condições de regularidade, a matriz de informações de Fisher também pode ser escrita como

O resultado é interessante de várias maneiras:

  • Ele pode ser derivado como o Hessiano da entropia relativa .
  • Ela pode ser usada como uma métrica Riemanniana para definir a geometria Fisher-Rao quando for definida positiva.
  • Pode ser entendido como uma métrica induzida a partir da métrica euclidiana , após mudança apropriada de variável.
  • Em sua forma de valor complexo, é a métrica Fubini-Study .
  • É a parte chave da prova do teorema de Wilks , que permite estimativas da região de confiança para estimativa de máxima verossimilhança (para aquelas condições para as quais se aplica) sem a necessidade do Princípio da Verossimilhança .
  • Nos casos em que os cálculos analíticos do FIM acima são difíceis, é possível formar uma média das estimativas de Monte Carlo fáceis de Hessian da função de probabilidade logarítmica negativa como uma estimativa do FIM. As estimativas podem ser baseadas em valores da função de log-verossimilhança negativa ou no gradiente da função de log-verossimilhança negativa; nenhum cálculo analítico do Hessian da função de verossimilhança negativa é necessário.

Parâmetros ortogonais

Dizemos que dois parâmetros θ i e θ j são ortogonais se o elemento da i- ésima linha ej- ésima coluna da matriz de informação de Fisher for zero. Os parâmetros ortogonais são fáceis de lidar no sentido de que suas estimativas de máxima verossimilhança são independentes e podem ser calculadas separadamente. Ao lidar com problemas de pesquisa, é muito comum o pesquisador investir algum tempo na busca por uma parametrização ortogonal das densidades envolvidas no problema.

Modelo estatístico singular

Se a matriz de informação de Fisher for definida positiva para todo θ , então o modelo estatístico correspondente é considerado regular ; caso contrário, o modelo estatístico é considerado singular . Exemplos de modelos estatísticos singulares incluem o seguinte: misturas normais, misturas binomiais, misturas multinomiais, redes Bayesianas, redes neurais, funções de base radial, modelos de Markov ocultos, gramáticas estocásticas livres de contexto, regressões de classificação reduzida, máquinas de Boltzmann.

No aprendizado de máquina , se um modelo estatístico é elaborado de forma que extraia estruturas ocultas de um fenômeno aleatório, ele naturalmente se torna singular.

Distribuição normal multivariada

O FIM para uma distribuição normal multivariada N- variada , tem uma forma especial. Seja o vetor de parâmetros K -dimensional e o vetor de variáveis ​​normais aleatórias seja . Suponha que os valores médios dessas variáveis ​​aleatórias sejam , e deixe ser a matriz de covariância . Então, para , a entrada ( m , n ) do FIM é:

onde denota a transposição de um vetor, denota o traço de uma matriz quadrada e:

Observe que um caso especial, mas muito comum, é aquele em que , uma constante. Então

Neste caso, a matriz de informação de Fisher pode ser identificada com a matriz de coeficiente das equações normais da teoria de estimativa de mínimos quadrados .

Outro caso especial ocorre quando a média e a covariância dependem de dois parâmetros vetoriais diferentes, digamos, β e θ . Isso é especialmente popular na análise de dados espaciais, que geralmente usa um modelo linear com resíduos correlacionados. Nesse caso,

Onde

Propriedades

Regra da corrente

Semelhante à entropia ou informação mútua , a informação de Fisher também possui uma decomposição de regra em cadeia . Em particular, se X e Y são variáveis ​​aleatórias distribuídas em conjunto, segue-se que:

onde e é a informação de Fisher de Y em relação a calculada em relação à densidade condicional de Y, dado um valor específico  X  =  x .

Como um caso especial, se as duas variáveis ​​aleatórias são independentes , a informação produzida pelas duas variáveis ​​aleatórias é a soma das informações de cada variável aleatória separadamente:

Consequentemente, a informação em uma amostra aleatória de n observações independentes e distribuídas de forma idêntica é n vezes a informação em uma amostra de tamanho 1.

Estatística suficiente

A informação fornecida por uma estatística suficiente é a mesma que a da amostra X . Isso pode ser visto usando o critério de fatoração de Neyman para uma estatística suficiente. Se T ( X ) é suficiente para θ , então

Para algumas funções g e h . A independência de h ( X ) de θ implica

e a igualdade de informações segue então a definição de informação de Fisher. Mais geralmente, se T = t ( X ) é uma estatística , então

com igualdade se e somente se T for uma estatística suficiente .

Reparametrização

As informações de Fisher dependem da parametrização do problema. Se θ e η são duas parametrizações escalares de um problema de estimativa, e θ é uma função continuamente diferenciável de η , então

onde e são as medidas da informação de Fisher de η e θ , respectivamente.

No caso do vetor, suponha e são k -vetores que parametrizam um problema de estimativa, e suponha que seja uma função continuamente diferenciável de , então,

onde a ( i , j ) º elemento do k  x  k Jacobiana matriz é definida pela

e onde está a matriz transposta de

Na geometria da informação , isso é visto como uma mudança de coordenadas em uma variedade Riemanniana , e as propriedades intrínsecas da curvatura permanecem inalteradas sob diferentes parametrizações. Em geral, a matriz de informação Fisher fornece uma métrica Riemanniana (mais precisamente, a métrica Fisher-Rao) para a variedade de estados termodinâmicos e pode ser usada como uma medida de complexidade geométrica de informação para uma classificação de transições de fase , por exemplo, o escalar curvatura do tensor métrico termodinâmico diverge em (e apenas em) um ponto de transição de fase.

No contexto termodinâmico, a matriz de informações de Fisher está diretamente relacionada à taxa de mudança nos parâmetros de ordem correspondentes . Em particular, tais relações identificam transições de fase de segunda ordem por meio de divergências de elementos individuais da matriz de informação de Fisher.

Desigualdade isoperimétrica

A matriz de informação de Fisher desempenha um papel em uma desigualdade como a desigualdade isoperimétrica . De todas as distribuições de probabilidade com uma determinada entropia, aquela cuja matriz de informação de Fisher tem o menor traço é a distribuição Gaussiana. É como, de todos os conjuntos limitados com um determinado volume, a esfera tem a menor área de superfície.

A prova envolve pegar uma variável aleatória multivariada com função de densidade e adicionar um parâmetro de localização para formar uma família de densidades . Então, por analogia com a fórmula de Minkowski-Steiner , a "área de superfície" de é definida como

onde é uma variável gaussiana com matriz de covariância . O nome "área de superfície" é adequado porque o poder de entropia é o volume do "conjunto de suporte efetivo", assim como a "derivada" do volume do conjunto de suporte efetivo, muito parecido com a fórmula de Minkowski-Steiner. O restante da prova usa a desigualdade de poder de entropia , que é como a desigualdade de Brunn-Minkowski . O traço da matriz de informações de Fisher é considerado um fator de .

Formulários

Projeto ideal de experimentos

As informações de Fisher são amplamente utilizadas no planejamento experimental ideal . Devido à reciprocidade da variância do estimador e da informação de Fisher, minimizar a variância corresponde a maximizar a informação .

Quando o modelo estatístico linear (ou linearizado ) possui vários parâmetros , a média do estimador de parâmetros é um vetor e sua variância é uma matriz . O inverso da matriz de variância é denominado "matriz de informação". Como a variância do estimador de um vetor de parâmetros é uma matriz, o problema de "minimizar a variância" é complicado. Usando a teoria estatística , os estatísticos comprimem a matriz de informações usando estatísticas de resumo com valor real ; sendo funções com valor real, esses "critérios de informação" podem ser maximizados.

Tradicionalmente, os estatísticos avaliam estimadores e designs considerando algumas estatísticas resumidas da matriz de covariância (de um estimador não enviesado), geralmente com valores reais positivos (como o determinante ou o traço da matriz ). Trabalhar com números reais positivos traz várias vantagens: Se o estimador de um único parâmetro tem uma variância positiva, então a variância e as informações de Fisher são números reais positivos; portanto, eles são membros do cone convexo de números reais não negativos (cujos membros diferentes de zero têm recíprocos neste mesmo cone).

Para vários parâmetros, as matrizes de covariância e as matrizes de informação são elementos do cone convexo de matrizes simétricas definidas não negativas em um espaço vetorial parcialmente ordenado , sob a ordem de Loewner (Löwner). Este cone é fechado sob a adição e inversão de matrizes, bem como sob a multiplicação de números reais positivos e matrizes. Uma exposição da teoria da matriz e da ordem de Loewner aparece em Pukelsheim.

Os critérios tradicionais de otimalidade são os invariantes da matriz de informação , no sentido da teoria dos invariantes ; algebricamente, os critérios de otimalidade tradicionais são funcionais dos autovalores da matriz de informação (Fisher) (ver projeto ótimo ).

Jeffreys anterior em estatísticas Bayesianas

Na estatística bayesiana , a informação de Fisher é usada para calcular o prior de Jeffreys , que é um prior padrão e não informativo para parâmetros de distribuição contínua.

Neurociência computacional

As informações de Fisher foram usadas para encontrar limites na precisão dos códigos neurais. Nesse caso, X é normalmente as respostas conjuntas de muitos neurônios que representam uma variável de baixa dimensão θ (como um parâmetro de estímulo). Em particular, o papel das correlações no ruído das respostas neurais foi estudado.

Derivação das leis físicas

As informações de Fisher desempenham um papel central em um princípio controverso apresentado por Frieden como a base das leis físicas, uma afirmação que tem sido contestada.

Aprendizado de máquina

As informações de Fisher são usadas em técnicas de aprendizado de máquina, como consolidação de peso elástico , que reduz o esquecimento catastrófico em redes neurais artificiais .

Relação com entropia relativa

A informação de Fisher está relacionada à entropia relativa . A entropia relativa, ou divergência de Kullback-Leibler , entre duas distribuições e pode ser escrita como

Agora, considere uma família de distribuições de probabilidade parametrizadas por . Em seguida, a divergência Kullback-Leibler , entre duas distribuições na família pode ser escrita como

Se for fixo, então a entropia relativa entre duas distribuições da mesma família é minimizada em . Para perto de , pode-se expandir a expressão anterior em uma série até a segunda ordem:

Mas a derivada de segunda ordem pode ser escrita como

Assim, a informação de Fisher representa a curvatura da entropia relativa.

História

As informações de Fisher foram discutidas por vários estatísticos antigos, principalmente FY Edgeworth . Por exemplo, Savage diz: "Nele [informações de Fisher], ele [Fisher] foi até certo ponto antecipado (Edgeworth 1908–9 esp. 502, 507–8, 662, 677–8, 82–5 e referências a ele [Edgeworth ] cita incluindo Pearson e Filon 1898 [...]). " Existem várias fontes históricas antigas e uma série de revisões deste trabalho inicial.

Veja também

Outras medidas empregadas na teoria da informação :

Notas

Referências