Correlação de distância

Em estatística e na teoria da probabilidade , a correlação de distância ou covariância de distância é uma medida de dependência entre dois vetores aleatórios emparelhados de dimensão arbitrária, não necessariamente igual . O coeficiente de correlação da distância da população é zero se e somente se os vetores aleatórios forem independentes . Assim, a correlação de distância mede a associação linear e não linear entre duas variáveis aleatórias ou vetores aleatórios. Isso contrasta com a correlação de Pearson , que só pode detectar associação linear entre duas variáveis aleatórias .

A correlação de distância pode ser usada para realizar um teste estatístico de dependência com um teste de permutação . Primeiro, calcula-se a correlação de distância (envolvendo a recentralização de matrizes de distância euclidiana) entre dois vetores aleatórios e, em seguida, compara esse valor com as correlações de distância de muitos embaralhamentos de dados.

Vários conjuntos de ( x , y ) pontos, com o coeficiente de correlação distância de x e y para cada conjunto. Compare com o gráfico de correlação

Fundo

A medida clássica de dependência, o coeficiente de correlação de Pearson , é principalmente sensível a uma relação linear entre duas variáveis. A correlação de distância foi introduzida em 2005 por Gábor J. Székely em várias palestras para abordar esta deficiência da correlação de Pearson , nomeadamente que pode facilmente ser zero para variáveis dependentes. Correlação = 0 (não correlação) não implica independência, enquanto correlação de distância = 0 implica independência. Os primeiros resultados sobre correlação de distância foram publicados em 2007 e 2009. Foi comprovado que a covariância de distância é igual à covariância browniana. Essas medidas são exemplos de distâncias de energia .

A correlação distância é derivado a partir de um número de outras quantidades que são utilizados na sua especificação, especificamente: variância distância , distância desvio padrão , e covariância distância . Essas quantidades assumem os mesmos papéis que os momentos ordinários com nomes correspondentes na especificação do coeficiente de correlação momento-produto de Pearson .

Definições

Covariância de distância

Vamos começar com a definição da covariância da distância da amostra . Seja ( X _k , Y _k ), k = 1, 2, ..., n uma amostra estatística de um par de variáveis aleatórias de valor real ou vetorial ( X , Y ). Em primeiro lugar, calcular o n por n matrizes de distância ( um _{j , k} ) e ( b _{j , k} ) contendo todos os pares distâncias

{\ displaystyle {\ begin {alinhados} a_ {j, k} & = \ | X_ {j} -X_ {k} \ |, \ qquad j, k = 1,2, \ ldots, n, \\ b_ { j, k} & = \ | Y_ {j} -Y_ {k} \ |, \ qquad j, k = 1,2, \ ldots, n, \ end {alinhado}}}

onde || ⋅ || denota norma euclidiana . Em seguida, pegue todas as distâncias duplamente centradas

{\ displaystyle A_ {j, k}: = a_ {j, k} - {\ overline {a}} _ {j \ cdot} - {\ overline {a}} _ {\ cdot k} + {\ overline { a}} _ {\ cdot \ cdot}, \ qquad B_ {j, k}: = b_ {j, k} - {\ overline {b}} _ {j \ cdot} - {\ overline {b}} _ {\ cdot k} + {\ overline {b}} _ {\ cdot \ cdot},}

onde é a média da $j$ -ésima linha, é a média da $k$ -ésima coluna e é a grande média da matriz de distância da amostra $X.$ A notação é semelhante para os valores $b$ . (Nas matrizes de distâncias centradas ( A _j_,_k ) e ( B _j_,_k ) todas as linhas e todas as colunas somam zero.) A covariância de distância amostral quadrada (um escalar) é simplesmente a média aritmética dos produtos A _j_,_k B _j_,_k : ${\ displaystyle \ textstyle {\ overline {a}} _ {j \ cdot}}$ ${\ displaystyle \ textstyle {\ overline {a}} _ {\ cdot k}}$ ${\ displaystyle \ textstyle {\ overline {a}} _ {\ cdot \ cdot}}$

{\ displaystyle \ operatorname {dCov} _ {n} ^ {2} (X, Y): = {\ frac {1} {n ^ {2}}} \ sum _ {j = 1} ^ {n} \ soma _ {k = 1} ^ {n} A_ {j, k} \, B_ {j, k}.}

A estatística T _n = n dCov ²_n ( X , Y ) determina um teste multivariado consistente de independência de vetores aleatórios em dimensões arbitrárias. Para uma implementação ver dcov.test função na energia pacote para R .

O valor populacional da covariância de distância pode ser definido ao longo das mesmas linhas. Seja X uma variável aleatória que assume valores em um espaço euclidiano p- dimensional com distribuição de probabilidade $μ$ e seja Y uma variável aleatória que assume valores em um espaço euclidiano q- dimensional com distribuição de probabilidade $ν$ , e suponha que X e Y sejam finitos expectativas. Escrever

{\ displaystyle a _ {\ mu} (x): = \ operatorname {E} [\ | Xx \ |], \ quad D (\ mu): = \ operatorname {E} [a _ {\ mu} (X)] , \ quad d _ {\ mu} (x, x '): = \ | x-x' \ | -a _ {\ mu} (x) -a _ {\ mu} (x ') + D (\ mu). }

Finalmente, defina o valor da população da covariância de distância quadrada de X e Y como

{\ displaystyle \ operatorname {dCov} ^ {2} (X, Y): = \ operatorname {E} {\ big [} d _ {\ mu} (X, X ') d _ {\ nu} (Y, Y' ){\grande ]}.}

Pode-se mostrar que isso equivale à seguinte definição:

{\ displaystyle {\ begin {alinhado} \ operatorname {dCov} ^ {2} (X, Y): = {} & \ operatorname {E} [\ | X-X '\ | \, \ | Y-Y' \ |] + \ operatorname {E} [\ | X-X '\ |] \, \ operatorname {E} [\ | Y-Y' \ |] \\ & \ qquad {} - \ operatorname {E} [ \ | X-X '\ | \, \ | Y-Y' '\ |] - \ operatorname {E} [\ | X-X' '\ | \, \ | Y-Y' \ |] \\ = {} & \ operatorname {E} [\ | X-X '\ | \, \ | Y-Y' \ |] + \ operatorname {E} [\ | X-X '\ |] \, \ operatorname {E } [\ | Y-Y '\ |] \\ & \ qquad {} -2 \ operatorname {E} [\ | X-X' \ | \, \ | Y-Y '' \ |], \ end { alinhado}}}

onde E denota o valor esperado e e são independentes e distribuídos de forma idêntica. As variáveis aleatórias activadas e denotam cópias independentes e identicamente distribuídas (iid) das variáveis e e são similarmente iid. A covariância de distância pode ser expressa em termos da covariância de Pearson clássica , cov , da seguinte forma: ${\ displaystyle \ textstyle (X, Y),}$ ${\ displaystyle \ textstyle (X ', Y'),}$ ${\ displaystyle \ textstyle (X '', Y '')}$ ${\ displaystyle \ textstyle (X ', Y')}$ ${\ displaystyle \ textstyle (X '', Y '')}$ ${\ displaystyle X}$ ${\ displaystyle Y}$

{\ displaystyle \ operatorname {dCov} ^ {2} (X, Y) = \ operatorname {cov} (\ | X-X '\ |, \ | Y-Y' \ |) -2 \ operatorname {cov} ( \ | X-X '\ |, \ | Y-Y' '\ |).}

Esta identidade mostra que a covariância de distância não é a mesma que a covariância de distâncias, cov (|| X - X ' ||, || Y - Y' || ). Isso pode ser zero mesmo se X e Y não forem independentes.

Alternativamente, a covariância de distância pode ser definida como a norma L ² ponderada da distância entre a função característica conjunta das variáveis aleatórias e o produto de suas funções características marginais:

{\ displaystyle \ operatorname {dCov} ^ {2} (X, Y) = {\ frac {1} {c_ {p} c_ {q}}} \ int _ {\ mathbb {R} ^ {p + q} } {\ frac {\ left | \ varphi _ {X, Y} (s, t) - \ varphi _ {X} (s) \ varphi _ {Y} (t) \ right | ^ {2}} {| s | _ {p} ^ {1 + p} | t | _ {q} ^ {1 + q}}} \, dt \, ds}

onde ,, e são as funções características de ( X , Y ), X e Y , respectivamente, p , q denotam a dimensão euclidiana de X e Y e, portanto, de s e t , e c _p , c _q são constantes. A função de peso é escolhida para produzir uma medida equivariante de escala e invariante de rotação que não vai a zero para variáveis dependentes. Uma interpretação da definição da função característica é que as variáveis e ^isX e e ^itY são representações cíclicas de X e Y com períodos diferentes dados por s e t , e a expressão ϕ _X_,_Y ( s , t ) - ϕ _X ( s ) ϕ _Y ( t ) no numerador da definição da função característica de covariância de distância é simplesmente a covariância clássica de e ^isX e e ^itY . A definição da função característica mostra claramente que dCov ² ( X , Y ) = 0 se e somente se X e Y são independentes. ${\ displaystyle \ varphi _ {X, Y} (s, t)}$ ${\ displaystyle \ varphi _ {X} (s)}$ ${\ displaystyle \ varphi _ {Y} (t)}$ ${\ displaystyle ({c_ {p} c_ {q}} {| s | _ {p} ^ {1 + p} | t | _ {q} ^ {1 + q}}) ^ {- 1}}$

Variância de distância e desvio padrão de distância

A variância da distância é um caso especial de covariância da distância quando as duas variáveis são idênticas. O valor da variação da distância da população é a raiz quadrada de

{\ displaystyle \ operatorname {dVar} ^ {2} (X): = \ operatorname {E} [\ | X-X '\ | ^ {2}] + \ operatorname {E} ^ {2} [\ | X -X '\ |] -2 \ operatorname {E} [\ | X-X' \ | \, \ | X-X '' \ |],}

onde ,, e são variáveis aleatórias independentes e distribuídas de forma idêntica , denota o valor esperado , e para a função , por exemplo ,. ${\ displaystyle X}$ ${\ displaystyle X '}$ ${\ displaystyle X ''}$ ${\ displaystyle \ operatorname {E}}$ ${\ displaystyle f ^ {2} (\ cdot) = (f (\ cdot)) ^ {2}}$ ${\ displaystyle f (\ cdot)}$ ${\ displaystyle \ operatorname {E} ^ {2} [\ cdot] = (\ operatorname {E} [\ cdot]) ^ {2}}$

A variação da distância da amostra é a raiz quadrada de

{\ displaystyle \ operatorname {dVar} _ {n} (X): = \ operatorname {dCov} _ {n} ^ {2} (X, X) = {\ tfrac {1} {n ^ {2}}} \ sum _ {k, \ ell} A_ {k, \ ell} ^ {2},}

que é uma relação de Corrado Gini da diferença média introduzida em 1912 (mas Gini não funcionou com distâncias centrados).

O desvio padrão da distância é a raiz quadrada da variação da distância .

A correlação de distância de duas variáveis aleatórias é obtida dividindo sua covariância de distância pelo produto de seus desvios padrão de distância . A correlação de distância é

{\ displaystyle \ operatorname {dCor} (X, Y) = {\ frac {\ operatorname {dCov ^ {2}} (X, Y)} {\ sqrt {\ operatorname {dVar} (X) \, \ operatorname { dVar} (Y)}}},}

e a correlação de distância de amostra é definida substituindo a covariância de distância de amostra e variâncias de distância para os coeficientes de população acima.

Para facilitar o cálculo da correlação de distância da amostra ver a decoração função na energia pacote para R .

Propriedades

Correlação de distância

${\ displaystyle 0 \ leq \ operatorname {dCor} _ {n} (X, Y) \ leq 1}$ e ; isso contrasta com a correlação de Pearson, que pode ser negativa. ${\ displaystyle 0 \ leq \ operatorname {dCor} (X, Y) \ leq 1}$
${\ displaystyle \ operatorname {dCor} (X, Y) = 0}$ se e somente se $X$ e $Y$ são independentes.
${\ displaystyle \ operatorname {dCor} _ {n} (X, Y) = 1}$ implica que as dimensões dos subespaços lineares abrangidos por amostras $X$ e $Y$ respectivamente são quase certamente iguais e se assumirmos que esses subespaços são iguais, então neste subespaço para algum vetor $A$ , escalar $b$ e matriz ortonormal . ${\ displaystyle Y = A + b \, \ mathbf {C} X}$ ${\ displaystyle \ mathbf {C}}$

Covariância de distância

${\ displaystyle \ operatorname {dCov} (X, Y) \ geq 0}$ e ; ${\ displaystyle \ operatorname {dCov} _ {n} (X, Y) \ geq 0}$
${\ displaystyle \ operatorname {dCov} ^ {2} (a_ {1} + b_ {1} \, \ mathbf {C} _ {1} \, X, a_ {2} + b_ {2} \, \ mathbf {C} _ {2} \, Y) = | b_ {1} \, b_ {2} | \ operatorname {dCov} ^ {2} (X, Y)}$ para todos os vetores constantes , escalares e matrizes ortonormais . ${\ displaystyle a_ {1}, a_ {2}}$ ${\ displaystyle b_ {1}, b_ {2}}$ ${\ displaystyle \ mathbf {C} _ {1}, \ mathbf {C} _ {2}}$
Se os vetores aleatórios e são independentes, então ${\ displaystyle (X_ {1}, Y_ {1})}$ ${\ displaystyle (X_ {2}, Y_ {2})}$
${\ displaystyle \ operatorname {dCov} (X_ {1} + X_ {2}, Y_ {1} + Y_ {2}) \ leq \ operatorname {dCov} (X_ {1}, Y_ {1}) + \ operatorname {dCov} (X_ {2}, Y_ {2}).}$
A igualdade é mantida se e somente se e forem constantes, ou e forem ambas constantes, ou forem mutuamente independentes. ${\ displaystyle X_ {1}}$ ${\ displaystyle Y_ {1}}$ ${\ displaystyle X_ {2}}$ ${\ displaystyle Y_ {2}}$ ${\ displaystyle X_ {1}, X_ {2}, Y_ {1}, Y_ {2}}$
${\ displaystyle \ operatorname {dCov} (X, Y) = 0}$ se e somente se $X$ e $Y$ são independentes.

Esta última propriedade é o efeito mais importante de se trabalhar com distâncias centralizadas.

A estatística é um estimador tendencioso de . Sob independência de X e Y ${\ displaystyle \ operatorname {dCov} _ {n} ^ {2} (X, Y)}$ ${\ displaystyle \ operatorname {dCov} ^ {2} (X, Y)}$

{\ displaystyle {\ begin {alinhado} \ operatorname {E} [\ operatorname {dCov} _ {n} ^ {2} (X, Y)] & = {\ frac {n-1} {n ^ {2} }} \ left \ {(n-2) \ operatorname {dCov} ^ {2} (X, Y) + \ operatorname {E} [\ | X-X '\ |] \, \ operatorname {E} [\ | Y-Y '\ |] \ right \} \\ [6pt] & = {\ frac {n-1} {n ^ {2}}} \ operatorname {E} [\ | X-X' \ |] \, \ operatorname {E} [\ | Y-Y '\ |]. \ end {alinhado}}}

Um estimador imparcial de é fornecido por Székely e Rizzo. ${\ displaystyle \ operatorname {dCov} ^ {2} (X, Y)}$

Variância de distância

${\ displaystyle \ operatorname {dVar} (X) = 0}$ se e somente se quase com certeza. ${\ displaystyle X = \ operatorname {E} [X]}$
${\ displaystyle \ operatorname {dVar} _ {n} (X) = 0}$ se e somente se todas as observações de amostra forem idênticas.
${\ displaystyle \ operatorname {dVar} (A + b \, \ mathbf {C} \, X) = | b | \ operatorname {dVar} (X)}$ para todos os vetores constantes $A$ , escalares $b$ e matrizes ortonormais . ${\ displaystyle \ mathbf {C}}$
Se $X$ e $Y$ forem independentes, então . ${\ displaystyle \ operatorname {dVar} (X + Y) \ leq \ operatorname {dVar} (X) + \ operatorname {dVar} (Y)}$

A igualdade é válida em (iv) se e somente se uma das variáveis aleatórias $X$ ou $Y$ for uma constante.

Generalização

A covariância de distância pode ser generalizada para incluir potências de distância euclidiana. Definir

{\ displaystyle {\ begin {alinhado} \ operatorname {dCov} ^ {2} (X, Y; \ alpha): = {} & \ operatorname {E} [\ | X-X '\ | ^ {\ alpha} \, \ | Y-Y '\ | ^ {\ alpha}] + \ operatorname {E} [\ | X-X' \ | ^ {\ alpha}] \, \ operatorname {E} [\ | Y-Y '\ | ^ {\ alpha}] \\ & \ qquad {} -2 \ operatorname {E} [\ | X-X' \ | ^ {\ alpha} \, \ | Y-Y '' \ | ^ { \ alpha}]. \ end {alinhado}}}

Em seguida, para cada , e são independentes se e somente se . É importante notar que esta caracterização não vale para o expoente ; neste caso, para bivariada , é uma função determinística da correlação de Pearson. Se e são potências das distâncias correspondentes , então a covariância da distância da amostra pode ser definida como o número não negativo para o qual ${\ displaystyle 0 <\ alpha <2}$ ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle \ operatorname {dCov} ^ {2} (X, Y; \ alpha) = 0}$ ${\ displaystyle \ alpha = 2}$ ${\ displaystyle (X, Y)}$ ${\ displaystyle \ operatorname {dCor} (X, Y; \ alpha = 2)}$ ${\ displaystyle a_ {k, \ ell}}$ ${\ displaystyle b_ {k, \ ell}}$ ${\ displaystyle \ alpha}$ ${\ displaystyle 0 <\ alpha \ leq 2}$ ${\ displaystyle \ alpha}$

{\ displaystyle \ operatorname {dCov} _ {n} ^ {2} (X, Y; \ alpha): = {\ frac {1} {n ^ {2}}} \ sum _ {k, \ ell} A_ {k, \ ell} \, B_ {k, \ ell}.}

Pode-se estender a métrica do espaço -valued variáveis aleatórias e : Se tem direito em um espaço métrico com a métrica , em seguida, definir , e (desde que é finito, ou seja, tem finito primeiro momento), . Então, se tiver lei (em um espaço métrico possivelmente diferente com primeiro momento finito), defina ${\ displaystyle \ operatorname {dCov}}$ ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle X}$ ${\ displaystyle \ mu}$ ${\ displaystyle d}$ ${\ displaystyle a _ {\ mu} (x): = \ operatorname {E} [d (X, x)]}$ ${\ displaystyle D (\ mu): = \ operatorname {E} [a _ {\ mu} (X)]}$ ${\ displaystyle a _ {\ mu}}$ ${\ displaystyle X}$ ${\ displaystyle d _ {\ mu} (x, x '): = d (x, x') - a _ {\ mu} (x) -a _ {\ mu} (x ') + D (\ mu)}$ ${\ displaystyle Y}$ ${\ displaystyle \ nu}$

{\ displaystyle \ operatorname {dCov} ^ {2} (X, Y): = \ operatorname {E} {\ big [} d _ {\ mu} (X, X ') d _ {\ nu} (Y, Y' ){\grande ]}.}

Isso não é negativo para todos esses iff ambos os espaços métricos têm tipo negativo. Aqui, um espaço métrico tem tipo negativo se for isométrico a um subconjunto de um espaço de Hilbert . Se ambos os espaços métricos tiverem tipo negativo forte, então iff são independentes. ${\ displaystyle X, Y}$ ${\ displaystyle (M, d)}$ ${\ displaystyle (M, d ^ {1/2})}$ ${\ displaystyle \ operatorname {dCov} ^ {2} (X, Y) = 0}$ ${\ displaystyle X, Y}$

Definição alternativa de covariância de distância

A covariância de distância original foi definida como a raiz quadrada de , em vez do próprio coeficiente quadrado. tem a propriedade de ser a distância de energia entre a distribuição conjunta de e o produto de seus marginais. Sob esta definição, no entanto, a variação da distância, em vez do desvio padrão da distância, é medida nas mesmas unidades que as distâncias. ${\ displaystyle \ operatorname {dCov} ^ {2} (X, Y)}$ ${\ displaystyle \ operatorname {dCov} (X, Y)}$ ${\ displaystyle \ operatorname {X}, Y}$ ${\ displaystyle \ operatorname {X}}$

Alternativamente, pode-se definir a covariância de distância como o quadrado da distância de energia: Nesse caso, o desvio padrão de distância de é medido nas mesmas unidades que a distância, e existe um estimador imparcial para a covariância de distância da população. ${\ displaystyle \ operatorname {dCov} ^ {2} (X, Y).}$ ${\ displaystyle X}$ ${\ displaystyle X}$

Sob essas definições alternativas, a correlação de distância também é definida como o quadrado , em vez da raiz quadrada. ${\ displaystyle \ operatorname {dCor} ^ {2} (X, Y)}$

Formulação alternativa: covariância browniana

A covariância browniana é motivada pela generalização da noção de covariância para processos estocásticos. O quadrado da covariância das variáveis aleatórias X e Y pode ser escrito da seguinte forma:

{\ displaystyle \ operatorname {cov} (X, Y) ^ {2} = \ operatorname {E} \ left [{\ big (} X- \ operatorname {E} (X) {\ big)} {\ big ( } X ^ {\ mathrm {'}} - \ operatorname {E} (X ^ {\ mathrm {'}}) {\ big)} {\ big (} Y- \ operatorname {E} (Y) {\ big )} {\ big (} Y ^ {\ mathrm {'}} - \ operatorname {E} (Y ^ {\ mathrm {'}}) {\ big)} \ right]}

onde E denota o valor esperado e o primo denota cópias independentes e distribuídas de forma idêntica. Precisamos da seguinte generalização desta fórmula. Se U (s), V (t) são processos aleatórios arbitrários definidos para todos os reais s e t, então defina a versão centrada em U de X por

{\ displaystyle X_ {U}: = U (X) - \ operatorname {E} _ {X} \ left [U (X) \ mid \ left \ {U (t) \ right \} \ right]}

sempre que o valor esperado condicional subtraído existir e denotar por Y _V a versão centrada em V de Y. A covariância (U, V) de (X, Y) é definida como o número não negativo cujo quadrado é

{\ displaystyle \ operatorname {cov} _ {U, V} ^ {2} (X, Y): = \ operatorname {E} \ left [X_ {U} X_ {U} ^ {\ mathrm {'}} Y_ {V} Y_ {V} ^ {\ mathrm {'}} \ right]}

sempre que o lado direito for não negativo e finito. O exemplo mais importante é quando U e V são movimentos brownianos independentes de dois lados / processos de Wiener com expectativa zero e covariância | s | + | t | - | s - t | = 2 min ( s , t ) (apenas para s não negativo, t). (Isso é duas vezes a covariância do processo de Wiener padrão; aqui o fator 2 simplifica os cálculos.) Neste caso, a covariância ( U , V ) é chamada de covariância browniana e é denotada por

{\ displaystyle \ operatorname {cov} _ {W} (X, Y).}

Há uma coincidência surpreendente: a covariância browniana é a mesma que a covariância de distância:

{\ displaystyle \ operatorname {cov} _ {\ mathrm {W}} (X, Y) = \ operatorname {dCov} (X, Y),}

e, portanto, a correlação browniana é igual à correlação de distância.

Por outro lado, se substituirmos o movimento browniano pela função de identidade determinística id , Cov _id ( X , Y ) é simplesmente o valor absoluto da covariância de Pearson clássica ,

{\ displaystyle \ operatorname {cov} _ {\ mathrm {id}} (X, Y) = \ left \ vert \ operatorname {cov} (X, Y) \ right \ vert.}

Métricas relacionadas

Outras métricas correlacionais, incluindo métricas correlacionais baseadas em kernel (como o Critério de Independência de Hilbert-Schmidt ou HSIC) também podem detectar interações lineares e não lineares. Tanto a correlação de distância quanto as métricas baseadas em kernel podem ser usadas em métodos como análise de correlação canônica e análise de componente independente para produzir maior poder estatístico .

Veja também

Coeficiente RV
Para obter uma estatística de terceira ordem relacionada, consulte Dispersão de distância .

Notas

Referências

Bickel, Peter J .; Xu, Ying (2009). "Discussão sobre: covariância de distância browniana" . The Annals of Applied Statistics . 3 (4): 1266–1269. doi : 10.1214 / 09-AOAS312A .
Gini, C. (1912). Variabilità e Mutabilità . Bolonha: Tipografia di Paolo Cuppini. Bibcode : 1912vamu.book ..... G .
Kosorok, Michael R. (2009). "Discussão sobre: covariância de distância browniana". The Annals of Applied Statistics . 3 (4): 1270–1278. arXiv : 1010.0822 . doi : 10.1214 / 09-AOAS312B . S2CID 88518490 .
Pearson, K. (1895). "Nota sobre regressão e herança no caso de dois pais". Proceedings of the Royal Society . 58 : 240–242. Bibcode : 1895RSPS ... 58..240P .
Pearson, K. (1895). "Notas sobre a história da correlação" . Biometrika . 13 : 25–45. doi : 10.1093 / biomet / 13.1.25 .
Székely, Gábor J .; Rizzo, Maria L. (2009a). "Covariância de distância browniana" . The Annals of Applied Statistics . 3 (4): 1236–1265. doi : 10.1214 / 09-AOAS312 . PMC 2889501 . PMID 20574547 .
Székely, Gábor J .; Rizzo, Maria L. (2009b). "Tréplica: covariância de distância browniana" . The Annals of Applied Statistics . 3 (4): 1303-1308. doi : 10.1214 / 09-AOAS312REJ .
Székely, Gabor J .; Rizzo, Maria L. (2014). "Correlação de distância parcial com métodos para dissimilaridades". The Annals of Statistics . 42 (6): 2382–2412. arXiv : 1310,2926 . Bibcode : 2014arXiv1310.2926S . doi : 10.1214 / 14-AOS1255 . S2CID 55801702 .

links externos

E-estatísticas (estatísticas de energia)

Languages

In other projects

Correlação de distância - Distance correlation

Conteúdo

Fundo

Definições

Covariância de distância

Variância de distância e desvio padrão de distância

Correlação de distância

Propriedades

Correlação de distância

Covariância de distância

Variância de distância

Generalização

Definição alternativa de covariância de distância

Formulação alternativa: covariância browniana

Métricas relacionadas

Veja também

Notas

Referências

links externos