Correlação de distância - Distance correlation
Em estatística e na teoria da probabilidade , a correlação de distância ou covariância de distância é uma medida de dependência entre dois vetores aleatórios emparelhados de dimensão arbitrária, não necessariamente igual . O coeficiente de correlação da distância da população é zero se e somente se os vetores aleatórios forem independentes . Assim, a correlação de distância mede a associação linear e não linear entre duas variáveis aleatórias ou vetores aleatórios. Isso contrasta com a correlação de Pearson , que só pode detectar associação linear entre duas variáveis aleatórias .
A correlação de distância pode ser usada para realizar um teste estatístico de dependência com um teste de permutação . Primeiro, calcula-se a correlação de distância (envolvendo a recentralização de matrizes de distância euclidiana) entre dois vetores aleatórios e, em seguida, compara esse valor com as correlações de distância de muitos embaralhamentos de dados.
Fundo
A medida clássica de dependência, o coeficiente de correlação de Pearson , é principalmente sensível a uma relação linear entre duas variáveis. A correlação de distância foi introduzida em 2005 por Gábor J. Székely em várias palestras para abordar esta deficiência da correlação de Pearson , nomeadamente que pode facilmente ser zero para variáveis dependentes. Correlação = 0 (não correlação) não implica independência, enquanto correlação de distância = 0 implica independência. Os primeiros resultados sobre correlação de distância foram publicados em 2007 e 2009. Foi comprovado que a covariância de distância é igual à covariância browniana. Essas medidas são exemplos de distâncias de energia .
A correlação distância é derivado a partir de um número de outras quantidades que são utilizados na sua especificação, especificamente: variância distância , distância desvio padrão , e covariância distância . Essas quantidades assumem os mesmos papéis que os momentos ordinários com nomes correspondentes na especificação do coeficiente de correlação momento-produto de Pearson .
Definições
Covariância de distância
Vamos começar com a definição da covariância da distância da amostra . Seja ( X k , Y k ), k = 1, 2, ..., n uma amostra estatística de um par de variáveis aleatórias de valor real ou vetorial ( X , Y ). Em primeiro lugar, calcular o n por n matrizes de distância ( um j , k ) e ( b j , k ) contendo todos os pares distâncias
onde || ⋅ || denota norma euclidiana . Em seguida, pegue todas as distâncias duplamente centradas
onde é a média da j -ésima linha, é a média da k -ésima coluna e é a grande média da matriz de distância da amostra X. A notação é semelhante para os valores b . (Nas matrizes de distâncias centradas ( A j , k ) e ( B j , k ) todas as linhas e todas as colunas somam zero.) A covariância de distância amostral quadrada (um escalar) é simplesmente a média aritmética dos produtos A j , k B j , k :
A estatística T n = n dCov 2 n ( X , Y ) determina um teste multivariado consistente de independência de vetores aleatórios em dimensões arbitrárias. Para uma implementação ver dcov.test função na energia pacote para R .
O valor populacional da covariância de distância pode ser definido ao longo das mesmas linhas. Seja X uma variável aleatória que assume valores em um espaço euclidiano p- dimensional com distribuição de probabilidade μ e seja Y uma variável aleatória que assume valores em um espaço euclidiano q- dimensional com distribuição de probabilidade ν , e suponha que X e Y sejam finitos expectativas. Escrever
Finalmente, defina o valor da população da covariância de distância quadrada de X e Y como
Pode-se mostrar que isso equivale à seguinte definição:
onde E denota o valor esperado e e são independentes e distribuídos de forma idêntica. As variáveis aleatórias activadas e denotam cópias independentes e identicamente distribuídas (iid) das variáveis e e são similarmente iid. A covariância de distância pode ser expressa em termos da covariância de Pearson clássica , cov , da seguinte forma:
Esta identidade mostra que a covariância de distância não é a mesma que a covariância de distâncias, cov (|| X - X ' ||, || Y - Y' || ). Isso pode ser zero mesmo se X e Y não forem independentes.
Alternativamente, a covariância de distância pode ser definida como a norma L 2 ponderada da distância entre a função característica conjunta das variáveis aleatórias e o produto de suas funções características marginais:
onde ,, e são as funções características de ( X , Y ), X e Y , respectivamente, p , q denotam a dimensão euclidiana de X e Y e, portanto, de s e t , e c p , c q são constantes. A função de peso é escolhida para produzir uma medida equivariante de escala e invariante de rotação que não vai a zero para variáveis dependentes. Uma interpretação da definição da função característica é que as variáveis e isX e e itY são representações cíclicas de X e Y com períodos diferentes dados por s e t , e a expressão ϕ X , Y ( s , t ) - ϕ X ( s ) ϕ Y ( t ) no numerador da definição da função característica de covariância de distância é simplesmente a covariância clássica de e isX e e itY . A definição da função característica mostra claramente que dCov 2 ( X , Y ) = 0 se e somente se X e Y são independentes.
Variância de distância e desvio padrão de distância
A variância da distância é um caso especial de covariância da distância quando as duas variáveis são idênticas. O valor da variação da distância da população é a raiz quadrada de
onde ,, e são variáveis aleatórias independentes e distribuídas de forma idêntica , denota o valor esperado , e para a função , por exemplo ,.
A variação da distância da amostra é a raiz quadrada de
que é uma relação de Corrado Gini da diferença média introduzida em 1912 (mas Gini não funcionou com distâncias centrados).
O desvio padrão da distância é a raiz quadrada da variação da distância .
Correlação de distância
A correlação de distância de duas variáveis aleatórias é obtida dividindo sua covariância de distância pelo produto de seus desvios padrão de distância . A correlação de distância é
e a correlação de distância de amostra é definida substituindo a covariância de distância de amostra e variâncias de distância para os coeficientes de população acima.
Para facilitar o cálculo da correlação de distância da amostra ver a decoração função na energia pacote para R .
Propriedades
Correlação de distância
- e ; isso contrasta com a correlação de Pearson, que pode ser negativa.
- se e somente se X e Y são independentes.
- implica que as dimensões dos subespaços lineares abrangidos por amostras X e Y respectivamente são quase certamente iguais e se assumirmos que esses subespaços são iguais, então neste subespaço para algum vetor A , escalar b e matriz ortonormal .
Covariância de distância
- e ;
- para todos os vetores constantes , escalares e matrizes ortonormais .
- Se os vetores aleatórios e são independentes, então
- se e somente se X e Y são independentes.
Esta última propriedade é o efeito mais importante de se trabalhar com distâncias centralizadas.
A estatística é um estimador tendencioso de . Sob independência de X e Y
Um estimador imparcial de é fornecido por Székely e Rizzo.
Variância de distância
- se e somente se quase com certeza.
- se e somente se todas as observações de amostra forem idênticas.
- para todos os vetores constantes A , escalares b e matrizes ortonormais .
- Se X e Y forem independentes, então .
A igualdade é válida em (iv) se e somente se uma das variáveis aleatórias X ou Y for uma constante.
Generalização
A covariância de distância pode ser generalizada para incluir potências de distância euclidiana. Definir
Em seguida, para cada , e são independentes se e somente se . É importante notar que esta caracterização não vale para o expoente ; neste caso, para bivariada , é uma função determinística da correlação de Pearson. Se e são potências das distâncias correspondentes , então a covariância da distância da amostra pode ser definida como o número não negativo para o qual
Pode-se estender a métrica do espaço -valued variáveis aleatórias e : Se tem direito em um espaço métrico com a métrica , em seguida, definir , e (desde que é finito, ou seja, tem finito primeiro momento), . Então, se tiver lei (em um espaço métrico possivelmente diferente com primeiro momento finito), defina
Isso não é negativo para todos esses iff ambos os espaços métricos têm tipo negativo. Aqui, um espaço métrico tem tipo negativo se for isométrico a um subconjunto de um espaço de Hilbert . Se ambos os espaços métricos tiverem tipo negativo forte, então iff são independentes.
Definição alternativa de covariância de distância
A covariância de distância original foi definida como a raiz quadrada de , em vez do próprio coeficiente quadrado. tem a propriedade de ser a distância de energia entre a distribuição conjunta de e o produto de seus marginais. Sob esta definição, no entanto, a variação da distância, em vez do desvio padrão da distância, é medida nas mesmas unidades que as distâncias.
Alternativamente, pode-se definir a covariância de distância como o quadrado da distância de energia: Nesse caso, o desvio padrão de distância de é medido nas mesmas unidades que a distância, e existe um estimador imparcial para a covariância de distância da população.
Sob essas definições alternativas, a correlação de distância também é definida como o quadrado , em vez da raiz quadrada.
Formulação alternativa: covariância browniana
A covariância browniana é motivada pela generalização da noção de covariância para processos estocásticos. O quadrado da covariância das variáveis aleatórias X e Y pode ser escrito da seguinte forma:
onde E denota o valor esperado e o primo denota cópias independentes e distribuídas de forma idêntica. Precisamos da seguinte generalização desta fórmula. Se U (s), V (t) são processos aleatórios arbitrários definidos para todos os reais s e t, então defina a versão centrada em U de X por
sempre que o valor esperado condicional subtraído existir e denotar por Y V a versão centrada em V de Y. A covariância (U, V) de (X, Y) é definida como o número não negativo cujo quadrado é
sempre que o lado direito for não negativo e finito. O exemplo mais importante é quando U e V são movimentos brownianos independentes de dois lados / processos de Wiener com expectativa zero e covariância | s | + | t | - | s - t | = 2 min ( s , t ) (apenas para s não negativo, t). (Isso é duas vezes a covariância do processo de Wiener padrão; aqui o fator 2 simplifica os cálculos.) Neste caso, a covariância ( U , V ) é chamada de covariância browniana e é denotada por
Há uma coincidência surpreendente: a covariância browniana é a mesma que a covariância de distância:
e, portanto, a correlação browniana é igual à correlação de distância.
Por outro lado, se substituirmos o movimento browniano pela função de identidade determinística id , Cov id ( X , Y ) é simplesmente o valor absoluto da covariância de Pearson clássica ,
Métricas relacionadas
Outras métricas correlacionais, incluindo métricas correlacionais baseadas em kernel (como o Critério de Independência de Hilbert-Schmidt ou HSIC) também podem detectar interações lineares e não lineares. Tanto a correlação de distância quanto as métricas baseadas em kernel podem ser usadas em métodos como análise de correlação canônica e análise de componente independente para produzir maior poder estatístico .
Veja também
- Coeficiente RV
- Para obter uma estatística de terceira ordem relacionada, consulte Dispersão de distância .
Notas
Referências
- Bickel, Peter J .; Xu, Ying (2009). "Discussão sobre: covariância de distância browniana" . The Annals of Applied Statistics . 3 (4): 1266–1269. doi : 10.1214 / 09-AOAS312A .
- Gini, C. (1912). Variabilità e Mutabilità . Bolonha: Tipografia di Paolo Cuppini. Bibcode : 1912vamu.book ..... G .
- Kosorok, Michael R. (2009). "Discussão sobre: covariância de distância browniana". The Annals of Applied Statistics . 3 (4): 1270–1278. arXiv : 1010.0822 . doi : 10.1214 / 09-AOAS312B . S2CID 88518490 .
- Pearson, K. (1895). "Nota sobre regressão e herança no caso de dois pais". Proceedings of the Royal Society . 58 : 240–242. Bibcode : 1895RSPS ... 58..240P .
- Pearson, K. (1895). "Notas sobre a história da correlação" . Biometrika . 13 : 25–45. doi : 10.1093 / biomet / 13.1.25 .
- Székely, Gábor J .; Rizzo, Maria L. (2009a). "Covariância de distância browniana" . The Annals of Applied Statistics . 3 (4): 1236–1265. doi : 10.1214 / 09-AOAS312 . PMC 2889501 . PMID 20574547 .
- Székely, Gábor J .; Rizzo, Maria L. (2009b). "Tréplica: covariância de distância browniana" . The Annals of Applied Statistics . 3 (4): 1303-1308. doi : 10.1214 / 09-AOAS312REJ .
- Székely, Gabor J .; Rizzo, Maria L. (2014). "Correlação de distância parcial com métodos para dissimilaridades". The Annals of Statistics . 42 (6): 2382–2412. arXiv : 1310,2926 . Bibcode : 2014arXiv1310.2926S . doi : 10.1214 / 14-AOS1255 . S2CID 55801702 .