Correlação de distância - Distance correlation

Em estatística e na teoria da probabilidade , a correlação de distância ou covariância de distância é uma medida de dependência entre dois vetores aleatórios emparelhados de dimensão arbitrária, não necessariamente igual . O coeficiente de correlação da distância da população é zero se e somente se os vetores aleatórios forem independentes . Assim, a correlação de distância mede a associação linear e não linear entre duas variáveis ​​aleatórias ou vetores aleatórios. Isso contrasta com a correlação de Pearson , que só pode detectar associação linear entre duas variáveis ​​aleatórias .

A correlação de distância pode ser usada para realizar um teste estatístico de dependência com um teste de permutação . Primeiro, calcula-se a correlação de distância (envolvendo a recentralização de matrizes de distância euclidiana) entre dois vetores aleatórios e, em seguida, compara esse valor com as correlações de distância de muitos embaralhamentos de dados.

Vários conjuntos de ( xy ) pontos, com o coeficiente de correlação distância de x e y para cada conjunto. Compare com o gráfico de correlação

Fundo

A medida clássica de dependência, o coeficiente de correlação de Pearson , é principalmente sensível a uma relação linear entre duas variáveis. A correlação de distância foi introduzida em 2005 por Gábor J. Székely em várias palestras para abordar esta deficiência da correlação de Pearson , nomeadamente que pode facilmente ser zero para variáveis ​​dependentes. Correlação = 0 (não correlação) não implica independência, enquanto correlação de distância = 0 implica independência. Os primeiros resultados sobre correlação de distância foram publicados em 2007 e 2009. Foi comprovado que a covariância de distância é igual à covariância browniana. Essas medidas são exemplos de distâncias de energia .

A correlação distância é derivado a partir de um número de outras quantidades que são utilizados na sua especificação, especificamente: variância distância , distância desvio padrão , e covariância distância . Essas quantidades assumem os mesmos papéis que os momentos ordinários com nomes correspondentes na especificação do coeficiente de correlação momento-produto de Pearson .

Definições

Covariância de distância

Vamos começar com a definição da covariância da distância da amostra . Seja ( X kY k ), k  = 1, 2, ..., n uma amostra estatística de um par de variáveis ​​aleatórias de valor real ou vetorial ( XY ). Em primeiro lugar, calcular o n por n matrizes de distância ( um j , k ) e ( b j , k ) contendo todos os pares distâncias

onde || ⋅ || denota norma euclidiana . Em seguida, pegue todas as distâncias duplamente centradas

onde é a média da j -ésima linha, é a média da k -ésima coluna e é a grande média da matriz de distância da amostra X. A notação é semelhante para os valores b . (Nas matrizes de distâncias centradas ( A j , k ) e ( B j , k ) todas as linhas e todas as colunas somam zero.) A covariância de distância amostral quadrada (um escalar) é simplesmente a média aritmética dos produtos A j , k B j , k :

A estatística T n = n dCov 2 n ( X , Y ) determina um teste multivariado consistente de independência de vetores aleatórios em dimensões arbitrárias. Para uma implementação ver dcov.test função na energia pacote para R .

O valor populacional da covariância de distância pode ser definido ao longo das mesmas linhas. Seja X uma variável aleatória que assume valores em um espaço euclidiano p- dimensional com distribuição de probabilidade μ e seja Y uma variável aleatória que assume valores em um espaço euclidiano q- dimensional com distribuição de probabilidade ν , e suponha que X e Y sejam finitos expectativas. Escrever

Finalmente, defina o valor da população da covariância de distância quadrada de X e Y como

Pode-se mostrar que isso equivale à seguinte definição:

onde E denota o valor esperado e e são independentes e distribuídos de forma idêntica. As variáveis aleatórias activadas e denotam cópias independentes e identicamente distribuídas (iid) das variáveis e e são similarmente iid. A covariância de distância pode ser expressa em termos da covariância de Pearson clássica , cov , da seguinte forma:

Esta identidade mostra que a covariância de distância não é a mesma que a covariância de distâncias, cov (|| X - X ' ||, || Y - Y' || ). Isso pode ser zero mesmo se X e Y não forem independentes.

Alternativamente, a covariância de distância pode ser definida como a norma L 2 ponderada da distância entre a função característica conjunta das variáveis ​​aleatórias e o produto de suas funções características marginais:

onde ,, e são as funções características de ( X , Y ), X e Y , respectivamente, p , q denotam a dimensão euclidiana de X e Y e, portanto, de s e t , e c p , c q são constantes. A função de peso é escolhida para produzir uma medida equivariante de escala e invariante de rotação que não vai a zero para variáveis ​​dependentes. Uma interpretação da definição da função característica é que as variáveis e isX e e itY são representações cíclicas de X e Y com períodos diferentes dados por s e t , e a expressão ϕ X , Y ( s , t ) - ϕ X ( s ) ϕ Y ( t ) no numerador da definição da função característica de covariância de distância é simplesmente a covariância clássica de e isX e e itY . A definição da função característica mostra claramente que dCov 2 ( X , Y ) = 0 se e somente se X e Y são independentes.

Variância de distância e desvio padrão de distância

A variância da distância é um caso especial de covariância da distância quando as duas variáveis ​​são idênticas. O valor da variação da distância da população é a raiz quadrada de

onde ,, e são variáveis ​​aleatórias independentes e distribuídas de forma idêntica , denota o valor esperado , e para a função , por exemplo ,.

A variação da distância da amostra é a raiz quadrada de

que é uma relação de Corrado Gini da diferença média introduzida em 1912 (mas Gini não funcionou com distâncias centrados).

O desvio padrão da distância é a raiz quadrada da variação da distância .

Correlação de distância

A correlação de distância de duas variáveis ​​aleatórias é obtida dividindo sua covariância de distância pelo produto de seus desvios padrão de distância . A correlação de distância é

e a correlação de distância de amostra é definida substituindo a covariância de distância de amostra e variâncias de distância para os coeficientes de população acima.

Para facilitar o cálculo da correlação de distância da amostra ver a decoração função na energia pacote para R .

Propriedades

Correlação de distância

  1. e ; isso contrasta com a correlação de Pearson, que pode ser negativa.
  2. se e somente se X e Y são independentes.
  3. implica que as dimensões dos subespaços lineares abrangidos por amostras X e Y respectivamente são quase certamente iguais e se assumirmos que esses subespaços são iguais, então neste subespaço para algum vetor A , escalar b e matriz ortonormal .

Covariância de distância

  1. e ;
  2. para todos os vetores constantes , escalares e matrizes ortonormais .
  3. Se os vetores aleatórios e são independentes, então
    A igualdade é mantida se e somente se e forem constantes, ou e forem ambas constantes, ou forem mutuamente independentes.
  4. se e somente se X e Y são independentes.

Esta última propriedade é o efeito mais importante de se trabalhar com distâncias centralizadas.

A estatística é um estimador tendencioso de . Sob independência de X e Y

Um estimador imparcial de é fornecido por Székely e Rizzo.

Variância de distância

  1. se e somente se quase com certeza.
  2. se e somente se todas as observações de amostra forem idênticas.
  3. para todos os vetores constantes A , escalares b e matrizes ortonormais .
  4. Se X e Y forem independentes, então .

A igualdade é válida em (iv) se e somente se uma das variáveis ​​aleatórias X ou Y for uma constante.

Generalização

A covariância de distância pode ser generalizada para incluir potências de distância euclidiana. Definir

Em seguida, para cada , e são independentes se e somente se . É importante notar que esta caracterização não vale para o expoente ; neste caso, para bivariada , é uma função determinística da correlação de Pearson. Se e são potências das distâncias correspondentes , então a covariância da distância da amostra pode ser definida como o número não negativo para o qual

Pode-se estender a métrica do espaço -valued variáveis aleatórias e : Se tem direito em um espaço métrico com a métrica , em seguida, definir , e (desde que é finito, ou seja, tem finito primeiro momento), . Então, se tiver lei (em um espaço métrico possivelmente diferente com primeiro momento finito), defina

Isso não é negativo para todos esses iff ambos os espaços métricos têm tipo negativo. Aqui, um espaço métrico tem tipo negativo se for isométrico a um subconjunto de um espaço de Hilbert . Se ambos os espaços métricos tiverem tipo negativo forte, então iff são independentes.

Definição alternativa de covariância de distância

A covariância de distância original foi definida como a raiz quadrada de , em vez do próprio coeficiente quadrado. tem a propriedade de ser a distância de energia entre a distribuição conjunta de e o produto de seus marginais. Sob esta definição, no entanto, a variação da distância, em vez do desvio padrão da distância, é medida nas mesmas unidades que as distâncias.

Alternativamente, pode-se definir a covariância de distância como o quadrado da distância de energia: Nesse caso, o desvio padrão de distância de é medido nas mesmas unidades que a distância, e existe um estimador imparcial para a covariância de distância da população.

Sob essas definições alternativas, a correlação de distância também é definida como o quadrado , em vez da raiz quadrada.

Formulação alternativa: covariância browniana

A covariância browniana é motivada pela generalização da noção de covariância para processos estocásticos. O quadrado da covariância das variáveis ​​aleatórias X e Y pode ser escrito da seguinte forma:

onde E denota o valor esperado e o primo denota cópias independentes e distribuídas de forma idêntica. Precisamos da seguinte generalização desta fórmula. Se U (s), V (t) são processos aleatórios arbitrários definidos para todos os reais s e t, então defina a versão centrada em U de X por

sempre que o valor esperado condicional subtraído existir e denotar por Y V a versão centrada em V de Y. A covariância (U, V) de (X, Y) é definida como o número não negativo cujo quadrado é

sempre que o lado direito for não negativo e finito. O exemplo mais importante é quando U e V são movimentos brownianos independentes de dois lados / processos de Wiener com expectativa zero e covariância | s | + | t | - | s - t | = 2 min ( s , t ) (apenas para s não negativo, t). (Isso é duas vezes a covariância do processo de Wiener padrão; aqui o fator 2 simplifica os cálculos.) Neste caso, a covariância ( U , V ) é chamada de covariância browniana e é denotada por

Há uma coincidência surpreendente: a covariância browniana é a mesma que a covariância de distância:

e, portanto, a correlação browniana é igual à correlação de distância.

Por outro lado, se substituirmos o movimento browniano pela função de identidade determinística id , Cov id ( X , Y ) é simplesmente o valor absoluto da covariância de Pearson clássica ,

Métricas relacionadas

Outras métricas correlacionais, incluindo métricas correlacionais baseadas em kernel (como o Critério de Independência de Hilbert-Schmidt ou HSIC) também podem detectar interações lineares e não lineares. Tanto a correlação de distância quanto as métricas baseadas em kernel podem ser usadas em métodos como análise de correlação canônica e análise de componente independente para produzir maior poder estatístico .

Veja também

Notas

Referências

links externos