Distância de energia - Energy distance

A distância de energia é uma distância estatística entre distribuições de probabilidade . Se X e Y são vetores aleatórios independentes em R d com funções de distribuição cumulativa (cdf) F e G respectivamente, então a distância de energia entre as distribuições F e G é definida como a raiz quadrada de

onde (X, X ', Y, Y') são independentes, o cdf de X e X 'é F, o cdf de Y e Y' é G, é o valor esperado e || . || denota o comprimento de um vetor. A distância de energia satisfaz todos os axiomas de uma métrica, portanto, a distância de energia caracteriza a igualdade de distribuições: D (F, G) = 0 se e somente se F = G. A distância de energia para aplicações estatísticas foi introduzida em 1985 por Gábor J. Székely , que provou que para variáveis ​​aleatórias de valor real é exatamente o dobro da distância de Harald Cramér :

Para uma prova simples dessa equivalência, consulte Székely (2002).

Em dimensões superiores, no entanto, as duas distâncias são diferentes porque a distância de energia é invariante em rotação, enquanto a distância de Cramér não. (Observe que a distância de Cramér não é a mesma que o critério de distribuição livre de Cramér-von Mises .)

Generalização para espaços métricos

Pode-se generalizar a noção de distância de energia para distribuições de probabilidade em espaços métricos. Let Ser um espaço métrico com sua álgebra Borel sigma . Deixe denotar a coleção de todas as medidas de probabilidade no espaço mensurável . Se μ e ν são medidas de probabilidade em , então a energia-distância de μ e ν pode ser definida como a raiz quadrada de

No entanto, isso não é necessariamente não negativo. Se for um kernel definido fortemente negativo, então é uma métrica , e vice-versa. Essa condição é expressa dizendo que tem tipo negativo. O tipo negativo não é suficiente para ser uma métrica; a última condição é expressa dizendo que tem tipo negativo forte. Nessa situação, a distância de energia é zero se, e somente se, X e Y estiverem distribuídos de forma idêntica. Um exemplo de métrica de tipo negativo, mas não de tipo negativo forte, é o plano com a métrica de táxi . Todos os espaços euclidianos e até mesmo os espaços de Hilbert separáveis ​​têm tipo negativo forte.

Na literatura sobre métodos de kernel para aprendizado de máquina , essas noções generalizadas de distância de energia são estudadas sob o nome de discrepância média máxima. A equivalência de métodos baseados em distância e métodos kernel para teste de hipóteses é abordada por vários autores.

Estatísticas de energia

Um conceito estatístico relacionado, a noção de estatística E ou estatística de energia, foi introduzida por Gábor J. Székely na década de 1980, quando ele estava dando palestras em colóquio em Budapeste, Hungria e no MIT, Yale e Columbia. Este conceito é baseado na noção de energia potencial de Newton . A ideia é considerar as observações estatísticas como corpos celestes governados por uma energia potencial estatística que é zero apenas quando uma hipótese estatística nula subjacente é verdadeira. As estatísticas de energia são funções de distâncias entre observações estatísticas.

Distância energia e E-estatística foram considerados como N -distances e N-estatística na AA Zinger, Kakosyan AV, Klebanov LB Caracterização de distribuições por meio de valores médios de algumas estatísticas em ligação com algumas métricas de probabilidade, problemas de estabilidade para modelos estocásticos. Moscow, VNIISI, 1989,47-55. (em russo), tradução para o inglês: uma caracterização de distribuições por valores médios de estatísticas e certas métricas probabilísticas AA Zinger, AV Kakosyan, LB Klebanov em Journal of Soviet Mathematics (1992). No mesmo artigo foi dada uma definição de kernel definido fortemente negativo, e fornecida uma generalização sobre espaços métricos, discutida acima. O livro também fornece esses resultados e suas aplicações para testes estatísticos. O livro contém também algumas aplicações para recuperar a medida de seu potencial.

Teste para distribuições iguais

Considerar a hipótese nula de que duas variáveis aleatórias, X e Y , têm os mesmos distribuições de probabilidade: . Para amostras estatísticas de X e Y :

e ,

as seguintes médias aritméticas de distâncias são calculadas entre as amostras X e Y:

.

A estatística E da hipótese nula subjacente é definida da seguinte forma:

Pode-se provar isso e que o valor da população correspondente é zero se e somente se X e Y tiverem a mesma distribuição ( ). Sob esta hipótese nula, a estatística de teste

converge em distribuição para uma forma quadrática de variáveis ​​aleatórias normais padrão independentes . Sob a hipótese alternativa, T tende ao infinito. Isso torna possível construir um teste estatístico consistente , o teste de energia para distribuições iguais.

O coeficiente E de não homogeneidade também pode ser introduzido. Está sempre entre 0 e 1 e é definido como

onde denota o valor esperado . H  = 0 exatamente quando X e Y têm a mesma distribuição.

Qualidade de ajuste

Uma medida multivariada de adequação é definida para distribuições em dimensão arbitrária (não restrita pelo tamanho da amostra). A estatística de adequação de energia é

onde X e X 'são independentes e identicamente distribuídos de acordo com a distribuição hipotética, e . A única condição exigida é que X tenha momento finito sob a hipótese nula. Sob a hipótese nula , e a distribuição assintótica de Q n é uma forma quadrática de variáveis ​​aleatórias Gaussianas centradas. Sob uma hipótese alternativa, Q n tende ao infinito estocasticamente e, portanto, determina um teste estatisticamente consistente. Para a maioria das aplicações, o expoente 1 (distância euclidiana) pode ser aplicado. O importante caso especial de teste de normalidade multivariada é implementado no pacote de energia para R. Os testes também são desenvolvidos para distribuições de cauda pesada, como Pareto ( lei de potência ), ou distribuições estáveis por aplicação de expoentes em (0,1).

Formulários

Os aplicativos incluem:

Gneiting e Raftery aplicam distância de energia para desenvolver um tipo novo e muito geral de regra de pontuação adequada para previsões probabilísticas, a pontuação de energia.
  • Estatísticas robustas
  • Redução de cenário
  • Seleção de genes
  • Análise de dados de microarray
  • Análise da estrutura do material
  • Dados morfométricos e quimiométricos

Aplicações de estatísticas da energia são implementadas no código aberto energia pacote para R .

Referências