Coeficiente de correlação de classificação de Spearman - Spearman's rank correlation coefficient
Em estatística , o coeficiente de correlação de classificação de Spearman ou ρ de Spearman , nomeado após Charles Spearman e frequentemente denotado pela letra grega (rho) ou como , é uma medida não paramétrica de correlação de classificação ( dependência estatística entre as classificações de duas variáveis ). Ele avalia o quão bem a relação entre duas variáveis pode ser descrita usando uma função monotônica .
A correlação de Spearman entre duas variáveis é igual à correlação de Pearson entre os valores de classificação dessas duas variáveis; enquanto a correlação de Pearson avalia as relações lineares, a correlação de Spearman avalia as relações monotônicas (lineares ou não). Se não houver valores de dados repetidos, uma correlação perfeita de Spearman de +1 ou -1 ocorre quando cada uma das variáveis é uma função monótona perfeita da outra.
Intuitivamente, a correlação de Spearman entre duas variáveis será elevada quando observações têm uma semelhante (ou idêntico para uma correlação de 1) posto (ou seja etiqueta posição relativa das observações dentro da variável: 1a, 2a, 3a, etc.) entre os dois variáveis, e baixo quando as observações têm uma classificação diferente (ou totalmente oposta para uma correlação de -1) entre as duas variáveis.
O coeficiente de Spearman é apropriado para variáveis ordinais contínuas e discretas . Tanto o de Spearman quanto o de Kendall podem ser formulados como casos especiais de um coeficiente de correlação mais geral .
Definição e cálculo
O coeficiente de correlação de Spearman é definido como o coeficiente de correlação de Pearson entre as variáveis de classificação .
Para uma amostra de tamanho n , as n pontuações brutas são convertidas em classificações e são calculadas como
Onde
- denota o coeficiente de correlação usual de Pearson , mas aplicado às variáveis de classificação,
- é a covariância das variáveis de classificação,
- e são os desvios padrão das variáveis de classificação.
Somente se todas as n classificações forem inteiros distintos , ele pode ser calculado usando a fórmula popular
Onde
- é a diferença entre as duas classificações de cada observação,
- n é o número de observações.
Considere uma amostra bivariada com classificações correspondentes . Então, o coeficiente de correlação de Spearman de é
Onde
Agora vamos mostrar que só pode ser expresso por , no caso em que não há empates dentro de cada amostra.
Primeiro, lembre-se das seguintes fórmulas para o número triangular e o número piramidal quadrado :
Segue que
Assim,
e
Então, até este ponto, temos isso:
Agora vamos , portanto
Agora podemos expressar usando e obter
Substituir esse resultado de volta na última expressão de nos dá
Valores idênticos são geralmente atribuídos a classificações fracionais iguais à média de suas posições na ordem crescente dos valores, o que é equivalente à média de todas as permutações possíveis.
Se empates estão presentes no conjunto de dados, a fórmula simplificada acima produz resultados incorretos: somente se em ambas as variáveis todas as classificações forem distintas, então (calculado de acordo com a variância enviesada). A primeira equação - normalizando pelo desvio padrão - pode ser usada mesmo quando as classificações são normalizadas para [0, 1] ("classificações relativas") porque é insensível à translação e ao escalonamento linear.
O método simplificado também não deve ser usado nos casos em que o conjunto de dados é truncado; isto é, quando o coeficiente de correlação de Spearman é desejado para os primeiros X registros (seja por classificação pré-mudança ou classificação pós-mudança, ou ambos), o usuário deve usar a fórmula do coeficiente de correlação de Pearson fornecida acima.
Quantidades relacionadas
Existem várias outras medidas numéricas que quantificam a extensão da dependência estatística entre pares de observações. O mais comum deles é o coeficiente de correlação momento-produto de Pearson , que é um método de correlação semelhante à classificação de Spearman, que mede as relações “lineares” entre os números brutos, em vez de entre suas classificações.
Um nome alternativo para a correlação de posto de Spearman é “correlação de grau”; neste, a “classificação” de uma observação é substituída pela “classificação”. Em distribuições contínuas, o grau de uma observação é, por convenção, sempre metade menor do que o posto e, portanto, o grau e as correlações de posto são iguais neste caso. De maneira mais geral, a “nota” de uma observação é proporcional a uma estimativa da fração de uma população menor que um determinado valor, com o ajuste de meia observação nos valores observados. Portanto, isso corresponde a um possível tratamento de fileiras empatadas. Embora incomum, o termo “correlação de notas” ainda está em uso.
Interpretação
O sinal da correlação de Spearman indica a direção da associação entre X (a variável independente) e Y (a variável dependente). Se Y tende a aumentar quando X aumenta, o coeficiente de correlação de Spearman é positivo. Se Y tende a diminuir quando X aumenta, o coeficiente de correlação de Spearman é negativo. Uma correlação de Spearman de zero indica que não há tendência para Y aumentar ou diminuir quando X aumenta. A correlação de Spearman aumenta em magnitude à medida que X e Y se tornam mais próximos de serem funções perfeitamente monótonas um do outro. Quando X e Y estão perfeitamente monotonicamente relacionados, o coeficiente de correlação de Spearman torna-se 1. Uma relação crescente perfeitamente monótona implica que para quaisquer dois pares de valores de dados X i , Y i e X j , Y j , que X i - X j e Y i - Y j têm sempre o mesmo sinal. Uma relação decrescente perfeitamente monótona implica que essas diferenças sempre têm sinais opostos.
O coeficiente de correlação de Spearman é freqüentemente descrito como sendo "não paramétrico". Isso pode ter dois significados. Primeiro, uma correlação de Spearman perfeita resulta quando X e Y estão relacionados por qualquer função monotônica . Compare isso com a correlação de Pearson, que só dá um valor perfeito quando X e Y estão relacionados por uma função linear . O outro sentido em que a correlação de Spearman é não paramétrico é que a sua distribuição de amostragem exacto pode ser obtido sem a necessidade de conhecimento (isto é, sabendo os parâmetros) da distribuição de probabilidade conjunta de X e Y .
Exemplo
Neste exemplo, os dados brutos na tabela abaixo são usados para calcular a correlação entre o QI de uma pessoa com o número de horas gastas em frente à TV por semana.
QI , | Horas de TV por semana, |
---|---|
106 | 7 |
100 | 27 |
86 | 2 |
101 | 50 |
99 | 28 |
103 | 29 |
97 | 20 |
113 | 12 |
112 | 6 |
110 | 17 |
Em primeiro lugar, avalie . Para fazer isso, use as seguintes etapas, refletidas na tabela abaixo.
- Classifique os dados pela primeira coluna ( ). Crie uma nova coluna e atribua a ela os valores classificados 1, 2, 3, ..., n .
- Em seguida, classifique os dados pela segunda coluna ( ). Crie uma quarta coluna e atribua a ela os valores classificados 1, 2, 3, ..., n .
- Crie uma quinta coluna para conter as diferenças entre as duas colunas de classificação ( e ).
- Crie uma coluna final para manter o valor da coluna ao quadrado.
QI , | Horas de TV por semana, | classificação | classificação | ||
---|---|---|---|---|---|
86 | 2 | 1 | 1 | 0 | 0 |
97 | 20 | 2 | 6 | -4 | 16 |
99 | 28 | 3 | 8 | -5 | 25 |
100 | 27 | 4 | 7 | -3 | 9 |
101 | 50 | 5 | 10 | -5 | 25 |
103 | 29 | 6 | 9 | -3 | 9 |
106 | 7 | 7 | 3 | 4 | 16 |
110 | 17 | 8 | 5 | 3 | 9 |
112 | 6 | 9 | 2 | 7 | 49 |
113 | 12 | 10 | 4 | 6 | 36 |
Com encontrado, adicione-os para encontrar . O valor de n é 10. Esses valores agora podem ser substituídos de volta na equação
dar
que avalia para ρ = −29/165 = −0,175757575 ... com um valor p = 0,627188 (usando a distribuição t ).
O fato de o valor estar próximo de zero mostra que a correlação entre o QI e as horas gastas assistindo TV é muito baixa, embora o valor negativo sugira que quanto mais tempo assistindo televisão, menor o QI. No caso de empate nos valores originais, esta fórmula não deve ser utilizada; em vez disso, o coeficiente de correlação de Pearson deve ser calculado nas classificações (onde os empates recebem classificações, conforme descrito acima).
Determinando significância
Uma abordagem para testar se um valor observado de ρ é significativamente diferente de zero ( r sempre manterá −1 ≤ r ≤ 1 ) é calcular a probabilidade de que seria maior ou igual ao r observado , dada a hipótese nula , usando um teste de permutação . Uma vantagem dessa abordagem é que ela leva em consideração automaticamente o número de valores de dados vinculados na amostra e a maneira como eles são tratados no cálculo da correlação de classificação.
Outra abordagem é paralela ao uso da transformação de Fisher no caso do coeficiente de correlação momento-produto de Pearson. Ou seja, intervalos de confiança e testes de hipótese relacionados ao valor da população ρ podem ser realizados usando a transformação de Fisher:
Se F ( r ) é a transformação de Fisher de r , o coeficiente de correlação de classificação de Spearman da amostra e n é o tamanho da amostra, então
é uma pontuação z para r , que segue aproximadamente uma distribuição normal padrão sob a hipótese nula de independência estatística ( ρ = 0 ).
Também se pode testar a significância usando
que é distribuído aproximadamente como de Student t -Distribuição com n - 2 graus de liberdade sob a hipótese nula . Uma justificativa para esse resultado se baseia em um argumento de permutação.
Uma generalização do coeficiente de Spearman é útil na situação em que há três ou mais condições, vários sujeitos são todos observados em cada um deles e é previsto que as observações tenham uma ordem particular. Por exemplo, vários indivíduos podem receber três tentativas na mesma tarefa, e prevê-se que o desempenho irá melhorar de tentativa para tentativa. Um teste de significância da tendência entre as condições nesta situação foi desenvolvido por EB Page e é normalmente referido como teste de tendência de Page para alternativas ordenadas.
Análise de correspondência baseada em ρ de Spearman
A análise de correspondência clássica é um método estatístico que atribui uma pontuação a cada valor de duas variáveis nominais. Desta forma, o coeficiente de correlação de Pearson entre eles é maximizado.
Existe um equivalente desse método, denominado análise de correspondência de notas , que maximiza o ρ de Spearman ou o τ de Kendall .
Aproximando o ρ de Spearman de um riacho
Existem duas abordagens para aproximar o coeficiente de correlação de classificação de Spearman a partir de dados de streaming. A primeira abordagem envolve engrossar a distribuição conjunta de . Para valores contínuos : pontos de corte são selecionados para e , respectivamente, discretizando essas variáveis aleatórias. Pontos de corte padrão são adicionados em e . Uma matriz de contagem de tamanho , denotada , é então construída onde armazena o número de observações que caem na célula bidimensional indexada por . Para dados de streaming, quando uma nova observação chega, o elemento apropriado é incrementado. A correlação de posto de Spearman pode então ser calculada, com base na matriz de contagem , usando operações de álgebra linear (Algoritmo 2). Observe que, para variáveis aleatórias discretas, nenhum procedimento de discretização é necessário. Este método é aplicável a dados de streaming estacionários, bem como a grandes conjuntos de dados. Para dados de streaming não estacionários, onde o coeficiente de correlação de classificação de Spearman pode mudar ao longo do tempo, o mesmo procedimento pode ser aplicado, mas para uma janela móvel de observações. Ao usar uma janela móvel, os requisitos de memória aumentam linearmente com o tamanho de janela escolhido.
A segunda abordagem para aproximar o coeficiente de correlação de classificação de Spearman a partir de dados de streaming envolve o uso de estimadores baseados em séries de Hermite. Esses estimadores, baseados em polinômios de Hermite , permitem a estimativa sequencial da função densidade de probabilidade e função de distribuição cumulativa em casos univariados e bivariados. Estimadores de densidade da série Hermite bivariada e estimadores de função de distribuição cumulativa baseada em série Hermite univariada são inseridos em uma versão de amostra grande do estimador de coeficiente de correlação de posto de Spearman, para dar um estimador de correlação de Spearman sequencial. Este estimador é formulado em termos de operações de álgebra linear para eficiência computacional (equação (8) e algoritmo 1 e 2). Esses algoritmos são aplicáveis apenas a dados de variáveis aleatórias contínuas, mas têm certas vantagens sobre a abordagem da matriz de contagem nesta configuração. A primeira vantagem é a precisão aprimorada quando aplicada a um grande número de observações. A segunda vantagem é que o coeficiente de correlação de classificação de Spearman pode ser calculado em fluxos não estacionários sem depender de uma janela móvel. Em vez disso, o estimador baseado na série Hermite usa um esquema de ponderação exponencial para rastrear a correlação de classificação de Spearman com variação no tempo de dados de streaming, que tem requisitos de memória constantes com respeito ao tamanho de janela móvel "efetivo".
Implementações de software
-
O pacote base de estatísticas de R implementa o teste
cor.test(x, y, method = "spearman")
em seu pacote "estatísticas" (tambémcor(x, y, method = "spearman")
funcionará. -
Implementação de Stata : calcula todos os coeficientes de correlação de pares para todas as variáveis em varlist .
spearman varlist
-
Implementação do MATLAB :
[r,p] = corr(x,y,'Type','Spearman')
onder
é o coeficiente de correlação de posto de Spearman,p
é o valor p, ex
ey
são vetores. - Python . Pode ser calculado com a função spearmanr do módulo scipy.stats.
Veja também
- Coeficiente de correlação de classificação Kendall tau
- Desigualdade soma de chebyshev , desigualdade rearranjo (Estes dois artigos podem lançar luz sobre as propriedades matemáticas de Spearman ρ ).
- Correlação de distância
- Correlação policórica
Referências
Leitura adicional
- Corder, G. W. & Foreman, D. I. (2014). Nonparametric Statistics: A Step-by-Step Approach, Wiley. ISBN 978-1118840313 .
- Daniel, Wayne W. (1990). "Coeficiente de correlação de classificação de Spearman" . Estatística Não Paramétrica Aplicada (2ª ed.). Boston: PWS-Kent. pp. 358–365. ISBN 978-0-534-91976-4.
- Spearman C. (1904). “A prova e medida da associação entre duas coisas” . American Journal of Psychology . 15 (1): 72–101. doi : 10.2307 / 1412159 . JSTOR 1412159 .
- Bonett DG, Wright, TA (2000). "Requisitos de tamanho de amostra para correlações de Pearson, Kendall e Spearman". Psychometrika . 65 : 23–28. doi : 10.1007 / bf02294183 .CS1 maint: vários nomes: lista de autores ( link )
- Kendall MG (1970). Métodos de correlação de classificação (4ª ed.). Londres: Griffin. ISBN 978-0-852-6419-96. OCLC 136868 .
- Hollander M., Wolfe DA (1973). Métodos estatísticos não paramétricos . Nova York: Wiley. ISBN 978-0-471-40635-8. OCLC 520735 .
- Caruso JC, Cliff N. (1997). "Tamanho empírico, cobertura e poder dos intervalos de confiança para Rho de Spearman". Medição educacional e psicológica . 57 (4): 637–654. doi : 10.1177 / 0013164497057004009 .
links externos
- Tabela de valores críticos de ρ para significância com pequenas amostras
- Spearman's Rank Correlation Coefficient - Excel Guide : dados de amostra e fórmulas para Excel, desenvolvidos pela Royal Geographical Society .