Coeficiente de correlação de classificação de Kendall - Kendall rank correlation coefficient

Em estatística , o coeficiente de correlação de classificação de Kendall , comumente referido como coeficiente τ de Kendall (após a letra grega τ , tau), é uma estatística usada para medir a associação ordinal entre duas grandezas medidas. Um teste τ é um teste de hipótese não paramétrico para dependência estatística com base no coeficiente τ.

É uma medida de correlação de classificação : a similaridade das ordenações dos dados quando classificados por cada uma das quantidades. Recebeu o nome de Maurice Kendall , que o desenvolveu em 1938, embora Gustav Fechner tenha proposto uma medida semelhante no contexto de séries temporais em 1897.

Intuitivamente, a correlação entre duas variáveis Kendall será elevada quando observações têm uma semelhante (ou idêntico para uma correlação de 1) posto (ou seja etiqueta posição relativa das observações dentro da variável: 1a, 2a, 3a, etc.) entre os dois variáveis, e baixo quando as observações têm uma classificação diferente (ou totalmente diferente para uma correlação de -1) entre as duas variáveis.

Tanto o de Kendall quanto o de Spearman podem ser formulados como casos especiais de um coeficiente de correlação mais geral . ${\ displaystyle \ tau}$ ${\ displaystyle \ rho}$

Definição

Todos os pontos na área cinza são concordantes e todos os pontos na área branca são discordantes em relação ao ponto . Com pontos, há um total de pares de pontos possíveis. Neste exemplo, existem 395 pares de pontos concordantes e 40 pares de pontos discordantes, levando a um coeficiente de correlação de classificação Kendall de 0,816.

{\ displaystyle (X_ {1}, Y_ {1})}

{\ displaystyle n = 30}

{\ displaystyle {\ binom {30} {2}} = 435}

Let Ser um conjunto de observações das variáveis aleatórias conjuntas X e Y , tal que todos os valores de ( ) e ( ) são únicos (empates são negligenciados para simplificar). Qualquer par de observações e , onde , são considerados concordantes se a ordem de classificação de e concorda: isto é, se ambos e mantém ou ambos e ; do contrário, seriam discordantes . ${\ displaystyle (x_ {1}, y_ {1}), ..., (x_ {n}, y_ {n})}$ ${\ displaystyle x_ {i}}$ ${\ displaystyle y_ {i}}$ ${\ displaystyle (x_ {i}, y_ {i})}$ ${\ displaystyle (x_ {j}, y_ {j})}$ ${\ displaystyle i <j}$ ${\ displaystyle (x_ {i}, x_ {j})}$ ${\ displaystyle (y_ {i}, y_ {j})}$ ${\ displaystyle x_ {i}> x_ {j}}$ ${\ displaystyle y_ {i}> y_ {j}}$ ${\ displaystyle x_ {i} <x_ {j}}$ ${\ displaystyle y_ {i} <y_ {j}}$

O coeficiente Kendall τ é definido como:

{\ displaystyle \ tau = {\ frac {({\ text {número de pares concordantes}}) - ({\ text {número de pares discordantes}})} {n \ escolha 2}}.}

Onde está o coeficiente binomial para o número de maneiras de escolher dois itens de n itens. ${\ displaystyle {n \ escolha 2} = {n (n-1) \ sobre 2}}$

Propriedades

O denominador é o número total de combinações de pares, então o coeficiente deve estar no intervalo −1 ≤ τ ≤ 1.

Se a concordância entre as duas classificações for perfeita (ou seja, as duas classificações são iguais), o coeficiente tem valor 1.
Se a discordância entre as duas classificações for perfeita (ou seja, uma classificação é o inverso da outra), o coeficiente tem valor -1.
Se X e Y forem independentes , esperaríamos que o coeficiente fosse aproximadamente zero.
Uma expressão explícita para o coeficiente de classificação de Kendall é . ${\ displaystyle \ tau = {\ frac {2} {n (n-1)}} \ sum _ {i <j} \ operatorname {sgn} (x_ {i} -x_ {j}) \ operatorname {sgn} (y_ {i} -y_ {j})}$

Teste de hipótese

O coeficiente de classificação de Kendall é freqüentemente usado como uma estatística de teste em um teste de hipótese estatística para estabelecer se duas variáveis podem ser consideradas como estatisticamente dependentes. Este teste é não paramétrico , uma vez que não se baseia em quaisquer suposições sobre as distribuições de X ou Y ou a distribuição de ( X , Y ).

Sob a hipótese nula de independência de X e Y , a distribuição amostral de τ tem um valor esperado zero. A distribuição precisa não pode ser caracterizada em termos de distribuições comuns, mas pode ser calculada exatamente para pequenas amostras; para amostras maiores, é comum usar uma aproximação da distribuição normal , com média zero e variância

{\ displaystyle {\ frac {2 (2n + 5)} {9n (n-1)}}}

.

Contabilizando empates

Diz-se que um par está empatado se ou ; um par empatado não é concordante nem discordante. Quando pares empatados surgem nos dados, o coeficiente pode ser modificado de várias maneiras para mantê-lo no intervalo [-1, 1]: ${\ displaystyle \ {(x_ {i}, x_ {j}), (y_ {i}, y_ {j}) \}}$ ${\ displaystyle x_ {i} = x_ {j}}$ ${\ displaystyle y_ {i} = y_ {j}}$

Tau-a

A estatística Tau-a testa a força de associação das tabulações cruzadas . Ambas as variáveis devem ser ordinais . Tau-a não fará nenhum ajuste para gravatas. É definido como:

{\ displaystyle \ tau _ {A} = {\ frac {n_ {c} -n_ {d}} {n_ {0}}}}

onde n _c , n _d e n ₀ são definidos como na próxima seção.

Tau-b

A estatística Tau-b, ao contrário de Tau-a, faz ajustes para empates. Os valores de Tau-b variam de -1 (associação 100% negativa ou inversão perfeita) a +1 (associação 100% positiva ou concordância perfeita). Um valor zero indica a ausência de associação.

O coeficiente Kendall Tau-b é definido como:

{\ displaystyle \ tau _ {B} = {\ frac {n_ {c} -n_ {d}} {\ sqrt {(n_ {0} -n_ {1}) (n_ {0} -n_ {2}) }}}}

Onde

{\ displaystyle {\ begin {alinhados} n_ {0} & = n (n-1) / 2 \\ n_ {1} & = \ sum _ {i} t_ {i} (t_ {i} -1) / 2 \\ n_ {2} & = \ sum _ {j} u_ {j} (u_ {j} -1) / 2 \\ n_ {c} & = {\ text {Número de pares concordantes}} \\ n_ {d} & = {\ text {Número de pares discordantes}} \\ t_ {i} & = {\ text {Número de valores empatados no}} i ^ {\ text {th}} {\ text {grupo de empates para a primeira quantidade}} \\ u_ {j} & = {\ text {Número de valores empatados no}} j ^ {\ text {th}} {\ text {grupo de empates para a segunda quantidade}} \ fim {alinhado}}}

Um algoritmo simples desenvolvido em BASIC calcula o coeficiente Tau-b usando uma fórmula alternativa.

Esteja ciente de que alguns pacotes estatísticos, por exemplo, SPSS, usam fórmulas alternativas para eficiência computacional, com o dobro do número 'usual' de pares concordantes e discordantes.

Tau-c

Tau-c (também chamado de Stuart-Kendall Tau-c) é mais adequado do que Tau-b para a análise de dados com base em tabelas de contingência não quadradas (isto é, retangulares) . Portanto, use Tau-b se a escala subjacente de ambas as variáveis tiver o mesmo número de valores possíveis (antes da classificação) e Tau-c se eles forem diferentes. Por exemplo, uma variável pode ser pontuada em uma escala de 5 pontos (muito boa, boa, média, ruim, muito ruim), enquanto a outra pode ser baseada em uma escala mais precisa de 10 pontos.

O coeficiente Kendall Tau-c é definido como:

{\ displaystyle \ tau _ {C} = {\ frac {2 (n_ {c} -n_ {d})} {n ^ {2} {\ frac {(m-1)} {m}}}}}

Onde

{\ displaystyle {\ begin {alinhados} n_ {c} & = {\ text {Número de pares concordantes}} \\ n_ {d} & = {\ text {Número de pares discordantes}} \\ r & = {\ text {Número de linhas}} \\ c & = {\ text {Número de colunas}} \\ m & = \ min (r, c) \ end {alinhado}}}

Testes de significância

Quando duas quantidades são estatisticamente independentes, a distribuição de não é facilmente caracterizável em termos de distribuições conhecidas. No entanto, para a seguinte estatística, é aproximadamente distribuído como um padrão normal quando as variáveis são estatisticamente independentes: ${\ displaystyle \ tau}$ ${\ displaystyle \ tau _ {A}}$ ${\ displaystyle z_ {A}}$

{\ displaystyle z_ {A} = {3 (n_ {c} -n_ {d}) \ over {\ sqrt {n (n-1) (2n + 5) / 2}}}}

Assim, para testar se duas variáveis são estatisticamente dependentes, calcula-se e encontra a probabilidade cumulativa de uma distribuição normal padrão em . Para um teste bicaudal, multiplique esse número por dois para obter o valor p . Se o valor p estiver abaixo de um determinado nível de significância, rejeita-se a hipótese nula (naquele nível de significância) de que as quantidades são estatisticamente independentes. ${\ displaystyle z_ {A}}$ ${\ displaystyle - | z_ {A} |}$

Vários ajustes devem ser adicionados ao contabilizar os empates. A seguinte estatística,, tem a mesma distribuição que a distribuição e é novamente aproximadamente igual a uma distribuição normal padrão quando as quantidades são estatisticamente independentes: ${\ displaystyle z_ {A}}$ ${\ displaystyle z_ {B}}$ ${\ displaystyle \ tau _ {B}}$

{\ displaystyle z_ {B} = {n_ {c} -n_ {d} \ over {\ sqrt {v}}}}

Onde

{\ displaystyle {\ begin {array} {ccl} v & = & (v_ {0} -v_ {t} -v_ {u}) / 18 + v_ {1} + v_ {2} \\ v_ {0} & = & n (n-1) (2n + 5) \\ v_ {t} & = & \ sum _ {i} t_ {i} (t_ {i} -1) (2t_ {i} +5) \\ v_ {u} & = & \ sum _ {j} u_ {j} (u_ {j} -1) (2u_ {j} +5) \\ v_ {1} & = & \ sum _ {i} t_ {i } (t_ {i} -1) \ sum _ {j} u_ {j} (u_ {j} -1) / (2n (n-1)) \\ v_ {2} & = & \ sum _ {i } t_ {i} (t_ {i} -1) (t_ {i} -2) \ sum _ {j} u_ {j} (u_ {j} -1) (u_ {j} -2) / (9n (n-1) (n-2)) \ end {array}}}

Isso às vezes é chamado de teste de Mann-Kendall.

Algoritmos

O cálculo direto do numerador envolve duas iterações aninhadas, conforme caracterizado pelo seguinte pseudocódigo: ${\ displaystyle n_ {c} -n_ {d}}$

numer := 0
for i := 2..N do
    for j := 1..(i − 1) do
        numer := numer + sign(x[i] − x[j]) × sign(y[i] − y[j])
return numer

Embora rápido de implementar, esse algoritmo é complexo e se torna muito lento em grandes amostras. Um algoritmo mais sofisticado baseado no algoritmo Merge Sort pode ser usado para calcular o numerador no tempo. ${\ displaystyle O (n ^ {2})}$ ${\ displaystyle O (n \ cdot \ log {n})}$

Comece ordenando seus pontos de dados, ordenando pela primeira quantidade ,, e secundariamente (entre os empates em ) pela segunda quantidade ,. Com essa ordem inicial, não é classificado, e o núcleo do algoritmo consiste em calcular quantas etapas uma Classificação por bolha levaria para classificar esse inicial . Um algoritmo de classificação de mesclagem aprimorado , com complexidade, pode ser aplicado para calcular o número de trocas , que seria exigido por um Bubble Sort para classificar . Então, o numerador de é calculado como: ${\ displaystyle x}$ ${\ displaystyle x}$ ${\ displaystyle y}$ ${\ displaystyle y}$ ${\ displaystyle y}$ ${\ displaystyle O (n \ log n)}$ ${\ displaystyle S (y)}$ ${\ displaystyle y_ {i}}$ ${\ displaystyle \ tau}$

{\ displaystyle n_ {c} -n_ {d} = n_ {0} -n_ {1} -n_ {2} + n_ {3} -2S (y),}

onde é calculado como e , mas com respeito aos laços de junta em e . ${\ displaystyle n_ {3}}$ ${\ displaystyle n_ {1}}$ ${\ displaystyle n_ {2}}$ ${\ displaystyle x}$ ${\ displaystyle y}$

Uma classificação de mesclagem divide os dados a serem classificados em duas metades quase iguais e , a seguir, classifica cada metade recursiva e, em seguida, mescla as duas metades classificadas em um vetor totalmente classificado. O número de trocas de Bubble Sort é igual a: ${\ displaystyle y}$ ${\ displaystyle y _ {\ mathrm {left}}}$ ${\ displaystyle y _ {\ mathrm {right}}}$

{\ displaystyle S (y) = S (y _ {\ mathrm {left}}) + S (y _ {\ mathrm {right}}) + M (Y _ {\ mathrm {left}}, Y _ {\ mathrm {right} })}

onde e são as versões classificadas de e , e caracteriza o equivalente de troca do Bubble Sort para uma operação de mesclagem. é calculado conforme descrito no seguinte pseudocódigo: ${\ displaystyle Y _ {\ mathrm {left}}}$ ${\ displaystyle Y _ {\ mathrm {right}}}$ ${\ displaystyle y _ {\ mathrm {left}}}$ ${\ displaystyle y _ {\ mathrm {right}}}$ ${\ displaystyle M (\ cdot, \ cdot)}$ ${\ displaystyle M (\ cdot, \ cdot)}$

function M(L[1..n], R[1..m]) is
    i := 1
    j := 1
    nSwaps := 0
    while i ≤ n and j ≤ m do
        if R[j] < L[i] then
            nSwaps := nSwaps + n − i + 1
            j := j + 1
        else
            i := i + 1
    return nSwaps

Um efeito colateral das etapas acima é que você acaba com uma versão classificada de e uma versão classificada de . Com eles, os fatores e usados para calcular são facilmente obtidos em uma única passagem de tempo linear pelas matrizes classificadas. ${\ displaystyle x}$ ${\ displaystyle y}$ ${\ displaystyle t_ {i}}$ ${\ displaystyle u_ {j}}$ ${\ displaystyle \ tau _ {B}}$

Implementações de software

O pacote base de estatísticas de R implementa o teste cor.test(x, y, method = "kendall")em seu pacote "estatísticas" (também cor(x, y, method = "kendall")funcionará, mas sem retornar o valor p).
Para Python , a biblioteca SciPy implementa o cálculo de em ${\ displaystyle \ tau}$ scipy.stats.kendalltau

Veja também

Correlação
Distância de Kendall tau
W de Kendall
Coeficiente de correlação de classificação de Spearman
Gama de Goodman e Kruskal
Estimador de Theil-Sen
Teste U de Mann-Whitney - é equivalente ao coeficiente de correlação tau de Kendall se uma das variáveis for binária.

Referências

Leitura adicional

Abdi, H. (2007). "Correlação de classificação de Kendall" (PDF) . Em Salkind, NJ (ed.). Enciclopédia de medidas e estatísticas . Thousand Oaks (CA): Sage.
Daniel, Wayne W. (1990). "Tau de Kendall" . Estatística Não Paramétrica Aplicada (2ª ed.). Boston: PWS-Kent. pp. 365–377. ISBN 978-0-534-91976-4.
Kendall, Maurice; Gibbons, Jean Dickinson (1990) [Publicado pela primeira vez em 1948]. Métodos de correlação de classificação . Charles Griffin Book Series (5ª ed.). Oxford: Oxford University Press. ISBN 978-0195208375.
Bonett, Douglas G .; Wright, Thomas A. (2000). "Requisitos de tamanho de amostra para estimar correlações de Pearson, Kendall e Spearman". Psychometrika . 65 (1): 23–28. doi : 10.1007 / BF02294183 .

Languages

In other projects

Coeficiente de correlação de classificação de Kendall - Kendall rank correlation coefficient

Conteúdo

Definição

Propriedades

Teste de hipótese

Contabilizando empates

Tau-a

Tau-b

Tau-c

Testes de significância

Algoritmos

Implementações de software

Veja também

Referências

Leitura adicional

links externos