Coeficiente de correlação de classificação de Kendall - Kendall rank correlation coefficient
Em estatística , o coeficiente de correlação de classificação de Kendall , comumente referido como coeficiente τ de Kendall (após a letra grega τ , tau), é uma estatística usada para medir a associação ordinal entre duas grandezas medidas. Um teste τ é um teste de hipótese não paramétrico para dependência estatística com base no coeficiente τ.
É uma medida de correlação de classificação : a similaridade das ordenações dos dados quando classificados por cada uma das quantidades. Recebeu o nome de Maurice Kendall , que o desenvolveu em 1938, embora Gustav Fechner tenha proposto uma medida semelhante no contexto de séries temporais em 1897.
Intuitivamente, a correlação entre duas variáveis Kendall será elevada quando observações têm uma semelhante (ou idêntico para uma correlação de 1) posto (ou seja etiqueta posição relativa das observações dentro da variável: 1a, 2a, 3a, etc.) entre os dois variáveis, e baixo quando as observações têm uma classificação diferente (ou totalmente diferente para uma correlação de -1) entre as duas variáveis.
Tanto o de Kendall quanto o de Spearman podem ser formulados como casos especiais de um coeficiente de correlação mais geral .
Definição
Let Ser um conjunto de observações das variáveis aleatórias conjuntas X e Y , tal que todos os valores de ( ) e ( ) são únicos (empates são negligenciados para simplificar). Qualquer par de observações e , onde , são considerados concordantes se a ordem de classificação de e concorda: isto é, se ambos e mantém ou ambos e ; do contrário, seriam discordantes .
O coeficiente Kendall τ é definido como:
Onde está o coeficiente binomial para o número de maneiras de escolher dois itens de n itens.
Propriedades
O denominador é o número total de combinações de pares, então o coeficiente deve estar no intervalo −1 ≤ τ ≤ 1.
- Se a concordância entre as duas classificações for perfeita (ou seja, as duas classificações são iguais), o coeficiente tem valor 1.
- Se a discordância entre as duas classificações for perfeita (ou seja, uma classificação é o inverso da outra), o coeficiente tem valor -1.
- Se X e Y forem independentes , esperaríamos que o coeficiente fosse aproximadamente zero.
- Uma expressão explícita para o coeficiente de classificação de Kendall é .
Teste de hipótese
O coeficiente de classificação de Kendall é freqüentemente usado como uma estatística de teste em um teste de hipótese estatística para estabelecer se duas variáveis podem ser consideradas como estatisticamente dependentes. Este teste é não paramétrico , uma vez que não se baseia em quaisquer suposições sobre as distribuições de X ou Y ou a distribuição de ( X , Y ).
Sob a hipótese nula de independência de X e Y , a distribuição amostral de τ tem um valor esperado zero. A distribuição precisa não pode ser caracterizada em termos de distribuições comuns, mas pode ser calculada exatamente para pequenas amostras; para amostras maiores, é comum usar uma aproximação da distribuição normal , com média zero e variância
- .
Contabilizando empates
Diz-se que um par está empatado se ou ; um par empatado não é concordante nem discordante. Quando pares empatados surgem nos dados, o coeficiente pode ser modificado de várias maneiras para mantê-lo no intervalo [-1, 1]:
Tau-a
A estatística Tau-a testa a força de associação das tabulações cruzadas . Ambas as variáveis devem ser ordinais . Tau-a não fará nenhum ajuste para gravatas. É definido como:
onde n c , n d e n 0 são definidos como na próxima seção.
Tau-b
A estatística Tau-b, ao contrário de Tau-a, faz ajustes para empates. Os valores de Tau-b variam de -1 (associação 100% negativa ou inversão perfeita) a +1 (associação 100% positiva ou concordância perfeita). Um valor zero indica a ausência de associação.
O coeficiente Kendall Tau-b é definido como:
Onde
Um algoritmo simples desenvolvido em BASIC calcula o coeficiente Tau-b usando uma fórmula alternativa.
Esteja ciente de que alguns pacotes estatísticos, por exemplo, SPSS, usam fórmulas alternativas para eficiência computacional, com o dobro do número 'usual' de pares concordantes e discordantes.
Tau-c
Tau-c (também chamado de Stuart-Kendall Tau-c) é mais adequado do que Tau-b para a análise de dados com base em tabelas de contingência não quadradas (isto é, retangulares) . Portanto, use Tau-b se a escala subjacente de ambas as variáveis tiver o mesmo número de valores possíveis (antes da classificação) e Tau-c se eles forem diferentes. Por exemplo, uma variável pode ser pontuada em uma escala de 5 pontos (muito boa, boa, média, ruim, muito ruim), enquanto a outra pode ser baseada em uma escala mais precisa de 10 pontos.
O coeficiente Kendall Tau-c é definido como:
Onde
Testes de significância
Quando duas quantidades são estatisticamente independentes, a distribuição de não é facilmente caracterizável em termos de distribuições conhecidas. No entanto, para a seguinte estatística, é aproximadamente distribuído como um padrão normal quando as variáveis são estatisticamente independentes:
Assim, para testar se duas variáveis são estatisticamente dependentes, calcula-se e encontra a probabilidade cumulativa de uma distribuição normal padrão em . Para um teste bicaudal, multiplique esse número por dois para obter o valor p . Se o valor p estiver abaixo de um determinado nível de significância, rejeita-se a hipótese nula (naquele nível de significância) de que as quantidades são estatisticamente independentes.
Vários ajustes devem ser adicionados ao contabilizar os empates. A seguinte estatística,, tem a mesma distribuição que a distribuição e é novamente aproximadamente igual a uma distribuição normal padrão quando as quantidades são estatisticamente independentes:
Onde
Isso às vezes é chamado de teste de Mann-Kendall.
Algoritmos
O cálculo direto do numerador envolve duas iterações aninhadas, conforme caracterizado pelo seguinte pseudocódigo:
numer := 0 for i := 2..N do for j := 1..(i − 1) do numer := numer + sign(x[i] − x[j]) × sign(y[i] − y[j]) return numer
Embora rápido de implementar, esse algoritmo é complexo e se torna muito lento em grandes amostras. Um algoritmo mais sofisticado baseado no algoritmo Merge Sort pode ser usado para calcular o numerador no tempo.
Comece ordenando seus pontos de dados, ordenando pela primeira quantidade ,, e secundariamente (entre os empates em ) pela segunda quantidade ,. Com essa ordem inicial, não é classificado, e o núcleo do algoritmo consiste em calcular quantas etapas uma Classificação por bolha levaria para classificar esse inicial . Um algoritmo de classificação de mesclagem aprimorado , com complexidade, pode ser aplicado para calcular o número de trocas , que seria exigido por um Bubble Sort para classificar . Então, o numerador de é calculado como:
onde é calculado como e , mas com respeito aos laços de junta em e .
Uma classificação de mesclagem divide os dados a serem classificados em duas metades quase iguais e , a seguir, classifica cada metade recursiva e, em seguida, mescla as duas metades classificadas em um vetor totalmente classificado. O número de trocas de Bubble Sort é igual a:
onde e são as versões classificadas de e , e caracteriza o equivalente de troca do Bubble Sort para uma operação de mesclagem. é calculado conforme descrito no seguinte pseudocódigo:
function M(L[1..n], R[1..m]) is i := 1 j := 1 nSwaps := 0 while i ≤ n and j ≤ m do if R[j] < L[i] then nSwaps := nSwaps + n − i + 1 j := j + 1 else i := i + 1 return nSwaps
Um efeito colateral das etapas acima é que você acaba com uma versão classificada de e uma versão classificada de . Com eles, os fatores e usados para calcular são facilmente obtidos em uma única passagem de tempo linear pelas matrizes classificadas.
Implementações de software
-
O pacote base de estatísticas de R implementa o teste
cor.test(x, y, method = "kendall")
em seu pacote "estatísticas" (tambémcor(x, y, method = "kendall")
funcionará, mas sem retornar o valor p). - Para Python , a biblioteca SciPy implementa o cálculo de em
scipy.stats.kendalltau
Veja também
- Correlação
- Distância de Kendall tau
- W de Kendall
- Coeficiente de correlação de classificação de Spearman
- Gama de Goodman e Kruskal
- Estimador de Theil-Sen
- Teste U de Mann-Whitney - é equivalente ao coeficiente de correlação tau de Kendall se uma das variáveis for binária.
Referências
Leitura adicional
- Abdi, H. (2007). "Correlação de classificação de Kendall" (PDF) . Em Salkind, NJ (ed.). Enciclopédia de medidas e estatísticas . Thousand Oaks (CA): Sage.
- Daniel, Wayne W. (1990). "Tau de Kendall" . Estatística Não Paramétrica Aplicada (2ª ed.). Boston: PWS-Kent. pp. 365–377. ISBN 978-0-534-91976-4.
- Kendall, Maurice; Gibbons, Jean Dickinson (1990) [Publicado pela primeira vez em 1948]. Métodos de correlação de classificação . Charles Griffin Book Series (5ª ed.). Oxford: Oxford University Press. ISBN 978-0195208375.
- Bonett, Douglas G .; Wright, Thomas A. (2000). "Requisitos de tamanho de amostra para estimar correlações de Pearson, Kendall e Spearman". Psychometrika . 65 (1): 23–28. doi : 10.1007 / BF02294183 .