Coeficiente de correlação de classificação de Spearman - Spearman's rank correlation coefficient

Uma correlação de Spearman de 1 resulta quando as duas variáveis ​​sendo comparadas estão monotonicamente relacionadas, mesmo que sua relação não seja linear. Isso significa que todos os pontos de dados com valores de x maiores do que um determinado ponto de dados também terão valores de y maiores . Em contraste, isso não fornece uma correlação de Pearson perfeita.
Quando os dados são distribuídos de forma aproximadamente elíptica e não há outliers proeminentes, a correlação de Spearman e a correlação de Pearson fornecem valores semelhantes.
A correlação de Spearman é menos sensível do que a correlação de Pearson para outliers fortes que estão nas caudas de ambas as amostras. Isso ocorre porque o ρ de Spearman limita o outlier ao valor de sua classificação.

Em estatística , o coeficiente de correlação de classificação de Spearman ou ρ de Spearman , nomeado após Charles Spearman e frequentemente denotado pela letra grega (rho) ou como , é uma medida não paramétrica de correlação de classificação ( dependência estatística entre as classificações de duas variáveis ). Ele avalia o quão bem a relação entre duas variáveis ​​pode ser descrita usando uma função monotônica .

A correlação de Spearman entre duas variáveis ​​é igual à correlação de Pearson entre os valores de classificação dessas duas variáveis; enquanto a correlação de Pearson avalia as relações lineares, a correlação de Spearman avalia as relações monotônicas (lineares ou não). Se não houver valores de dados repetidos, uma correlação perfeita de Spearman de +1 ou -1 ocorre quando cada uma das variáveis ​​é uma função monótona perfeita da outra.

Intuitivamente, a correlação de Spearman entre duas variáveis será elevada quando observações têm uma semelhante (ou idêntico para uma correlação de 1) posto (ou seja etiqueta posição relativa das observações dentro da variável: 1a, 2a, 3a, etc.) entre os dois variáveis, e baixo quando as observações têm uma classificação diferente (ou totalmente oposta para uma correlação de -1) entre as duas variáveis.

O coeficiente de Spearman é apropriado para variáveis ​​ordinais contínuas e discretas . Tanto o de Spearman quanto o de Kendall podem ser formulados como casos especiais de um coeficiente de correlação mais geral .

Definição e cálculo

O coeficiente de correlação de Spearman é definido como o coeficiente de correlação de Pearson entre as variáveis ​​de classificação .

Para uma amostra de tamanho n , as n pontuações brutas são convertidas em classificações e são calculadas como

Onde

denota o coeficiente de correlação usual de Pearson , mas aplicado às variáveis ​​de classificação,
é a covariância das variáveis ​​de classificação,
e são os desvios padrão das variáveis ​​de classificação.

Somente se todas as n classificações forem inteiros distintos , ele pode ser calculado usando a fórmula popular

Onde

é a diferença entre as duas classificações de cada observação,
n é o número de observações.
[Prova]


Considere uma amostra bivariada com classificações correspondentes . Então, o coeficiente de correlação de Spearman de é

Onde

Agora vamos mostrar que só pode ser expresso por , no caso em que não há empates dentro de cada amostra.

Primeiro, lembre-se das seguintes fórmulas para o número triangular e o número piramidal quadrado :

Segue que

Assim,

e

Então, até este ponto, temos isso:

Agora vamos , portanto

Agora podemos expressar usando e obter

Substituir esse resultado de volta na última expressão de nos dá



Valores idênticos são geralmente atribuídos a classificações fracionais iguais à média de suas posições na ordem crescente dos valores, o que é equivalente à média de todas as permutações possíveis.

Se empates estão presentes no conjunto de dados, a fórmula simplificada acima produz resultados incorretos: somente se em ambas as variáveis ​​todas as classificações forem distintas, então (calculado de acordo com a variância enviesada). A primeira equação - normalizando pelo desvio padrão - pode ser usada mesmo quando as classificações são normalizadas para [0, 1] ("classificações relativas") porque é insensível à translação e ao escalonamento linear.

O método simplificado também não deve ser usado nos casos em que o conjunto de dados é truncado; isto é, quando o coeficiente de correlação de Spearman é desejado para os primeiros X registros (seja por classificação pré-mudança ou classificação pós-mudança, ou ambos), o usuário deve usar a fórmula do coeficiente de correlação de Pearson fornecida acima.

Quantidades relacionadas

Existem várias outras medidas numéricas que quantificam a extensão da dependência estatística entre pares de observações. O mais comum deles é o coeficiente de correlação momento-produto de Pearson , que é um método de correlação semelhante à classificação de Spearman, que mede as relações “lineares” entre os números brutos, em vez de entre suas classificações.

Um nome alternativo para a correlação de posto de Spearman é “correlação de grau”; neste, a “classificação” de uma observação é substituída pela “classificação”. Em distribuições contínuas, o grau de uma observação é, por convenção, sempre metade menor do que o posto e, portanto, o grau e as correlações de posto são iguais neste caso. De maneira mais geral, a “nota” de uma observação é proporcional a uma estimativa da fração de uma população menor que um determinado valor, com o ajuste de meia observação nos valores observados. Portanto, isso corresponde a um possível tratamento de fileiras empatadas. Embora incomum, o termo “correlação de notas” ainda está em uso.

Interpretação

Correlações de classificação de Spearman positivas e negativas
Um positivo Spearman corresponde coeficiente de correlação para um aumento da tendência monótona entre X e Y .
A negativo Spearman corresponde coeficiente de correlação para uma tendência monótona decrescente entre X e Y .

O sinal da correlação de Spearman indica a direção da associação entre X (a variável independente) e Y (a variável dependente). Se Y tende a aumentar quando X aumenta, o coeficiente de correlação de Spearman é positivo. Se Y tende a diminuir quando X aumenta, o coeficiente de correlação de Spearman é negativo. Uma correlação de Spearman de zero indica que não há tendência para Y aumentar ou diminuir quando X aumenta. A correlação de Spearman aumenta em magnitude à medida que X e Y se tornam mais próximos de serem funções perfeitamente monótonas um do outro. Quando X e Y estão perfeitamente monotonicamente relacionados, o coeficiente de correlação de Spearman torna-se 1. Uma relação crescente perfeitamente monótona implica que para quaisquer dois pares de valores de dados X i , Y i e X j , Y j , que X i - X j e Y i - Y j têm sempre o mesmo sinal. Uma relação decrescente perfeitamente monótona implica que essas diferenças sempre têm sinais opostos.

O coeficiente de correlação de Spearman é freqüentemente descrito como sendo "não paramétrico". Isso pode ter dois significados. Primeiro, uma correlação de Spearman perfeita resulta quando X e Y estão relacionados por qualquer função monotônica . Compare isso com a correlação de Pearson, que só dá um valor perfeito quando X e Y estão relacionados por uma função linear . O outro sentido em que a correlação de Spearman é não paramétrico é que a sua distribuição de amostragem exacto pode ser obtido sem a necessidade de conhecimento (isto é, sabendo os parâmetros) da distribuição de probabilidade conjunta de X e Y .

Exemplo

Neste exemplo, os dados brutos na tabela abaixo são usados ​​para calcular a correlação entre o QI de uma pessoa com o número de horas gastas em frente à TV por semana.

QI , Horas de TV por semana,
106 7
100 27
86 2
101 50
99 28
103 29
97 20
113 12
112 6
110 17

Em primeiro lugar, avalie . Para fazer isso, use as seguintes etapas, refletidas na tabela abaixo.

  1. Classifique os dados pela primeira coluna ( ). Crie uma nova coluna e atribua a ela os valores classificados 1, 2, 3, ..., n .
  2. Em seguida, classifique os dados pela segunda coluna ( ). Crie uma quarta coluna e atribua a ela os valores classificados 1, 2, 3, ..., n .
  3. Crie uma quinta coluna para conter as diferenças entre as duas colunas de classificação ( e ).
  4. Crie uma coluna final para manter o valor da coluna ao quadrado.
QI , Horas de TV por semana, classificação classificação
86 2 1 1 0 0
97 20 2 6 -4 16
99 28 3 8 -5 25
100 27 4 7 -3 9
101 50 5 10 -5 25
103 29 6 9 -3 9
106 7 7 3 4 16
110 17 8 5 3 9
112 6 9 2 7 49
113 12 10 4 6 36

Com encontrado, adicione-os para encontrar . O valor de n é 10. Esses valores agora podem ser substituídos de volta na equação

dar

que avalia para ρ = −29/165 = −0,175757575 ... com um valor p = 0,627188 (usando a distribuição t ).

Gráfico dos dados apresentados. Percebe-se que pode haver uma correlação negativa, mas que a relação não parece definitiva.

O fato de o valor estar próximo de zero mostra que a correlação entre o QI e as horas gastas assistindo TV é muito baixa, embora o valor negativo sugira que quanto mais tempo assistindo televisão, menor o QI. No caso de empate nos valores originais, esta fórmula não deve ser utilizada; em vez disso, o coeficiente de correlação de Pearson deve ser calculado nas classificações (onde os empates recebem classificações, conforme descrito acima).

Determinando significância

Uma abordagem para testar se um valor observado de ρ é significativamente diferente de zero ( r sempre manterá −1 ≤ r ≤ 1 ) é calcular a probabilidade de que seria maior ou igual ao r observado , dada a hipótese nula , usando um teste de permutação . Uma vantagem dessa abordagem é que ela leva em consideração automaticamente o número de valores de dados vinculados na amostra e a maneira como eles são tratados no cálculo da correlação de classificação.

Outra abordagem é paralela ao uso da transformação de Fisher no caso do coeficiente de correlação momento-produto de Pearson. Ou seja, intervalos de confiança e testes de hipótese relacionados ao valor da população ρ podem ser realizados usando a transformação de Fisher:

Se F ( r ) é a transformação de Fisher de r , o coeficiente de correlação de classificação de Spearman da amostra e n é o tamanho da amostra, então

é uma pontuação z para r , que segue aproximadamente uma distribuição normal padrão sob a hipótese nula de independência estatística ( ρ = 0 ).

Também se pode testar a significância usando

que é distribuído aproximadamente como de Student t -Distribuição com n - 2 graus de liberdade sob a hipótese nula . Uma justificativa para esse resultado se baseia em um argumento de permutação.

Uma generalização do coeficiente de Spearman é útil na situação em que há três ou mais condições, vários sujeitos são todos observados em cada um deles e é previsto que as observações tenham uma ordem particular. Por exemplo, vários indivíduos podem receber três tentativas na mesma tarefa, e prevê-se que o desempenho irá melhorar de tentativa para tentativa. Um teste de significância da tendência entre as condições nesta situação foi desenvolvido por EB Page e é normalmente referido como teste de tendência de Page para alternativas ordenadas.

Análise de correspondência baseada em ρ de Spearman

A análise de correspondência clássica é um método estatístico que atribui uma pontuação a cada valor de duas variáveis ​​nominais. Desta forma, o coeficiente de correlação de Pearson entre eles é maximizado.

Existe um equivalente desse método, denominado análise de correspondência de notas , que maximiza o ρ de Spearman ou o τ de Kendall .

Aproximando o ρ de Spearman de um riacho

Existem duas abordagens para aproximar o coeficiente de correlação de classificação de Spearman a partir de dados de streaming. A primeira abordagem envolve engrossar a distribuição conjunta de . Para valores contínuos : pontos de corte são selecionados para e , respectivamente, discretizando essas variáveis ​​aleatórias. Pontos de corte padrão são adicionados em e . Uma matriz de contagem de tamanho , denotada , é então construída onde armazena o número de observações que caem na célula bidimensional indexada por . Para dados de streaming, quando uma nova observação chega, o elemento apropriado é incrementado. A correlação de posto de Spearman pode então ser calculada, com base na matriz de contagem , usando operações de álgebra linear (Algoritmo 2). Observe que, para variáveis ​​aleatórias discretas, nenhum procedimento de discretização é necessário. Este método é aplicável a dados de streaming estacionários, bem como a grandes conjuntos de dados. Para dados de streaming não estacionários, onde o coeficiente de correlação de classificação de Spearman pode mudar ao longo do tempo, o mesmo procedimento pode ser aplicado, mas para uma janela móvel de observações. Ao usar uma janela móvel, os requisitos de memória aumentam linearmente com o tamanho de janela escolhido.

A segunda abordagem para aproximar o coeficiente de correlação de classificação de Spearman a partir de dados de streaming envolve o uso de estimadores baseados em séries de Hermite. Esses estimadores, baseados em polinômios de Hermite , permitem a estimativa sequencial da função densidade de probabilidade e função de distribuição cumulativa em casos univariados e bivariados. Estimadores de densidade da série Hermite bivariada e estimadores de função de distribuição cumulativa baseada em série Hermite univariada são inseridos em uma versão de amostra grande do estimador de coeficiente de correlação de posto de Spearman, para dar um estimador de correlação de Spearman sequencial. Este estimador é formulado em termos de operações de álgebra linear para eficiência computacional (equação (8) e algoritmo 1 e 2). Esses algoritmos são aplicáveis ​​apenas a dados de variáveis ​​aleatórias contínuas, mas têm certas vantagens sobre a abordagem da matriz de contagem nesta configuração. A primeira vantagem é a precisão aprimorada quando aplicada a um grande número de observações. A segunda vantagem é que o coeficiente de correlação de classificação de Spearman pode ser calculado em fluxos não estacionários sem depender de uma janela móvel. Em vez disso, o estimador baseado na série Hermite usa um esquema de ponderação exponencial para rastrear a correlação de classificação de Spearman com variação no tempo de dados de streaming, que tem requisitos de memória constantes com respeito ao tamanho de janela móvel "efetivo".

Implementações de software

  • O pacote base de estatísticas de R implementa o teste cor.test(x, y, method = "spearman")em seu pacote "estatísticas" (também cor(x, y, method = "spearman")funcionará.
  • Implementação de Stata : calcula todos os coeficientes de correlação de pares para todas as variáveis ​​em varlist . spearman varlist
  • Implementação do MATLAB : [r,p] = corr(x,y,'Type','Spearman')onde ré o coeficiente de correlação de posto de Spearman, pé o valor p, e xe ysão vetores.
  • Python . Pode ser calculado com a função spearmanr do módulo scipy.stats.

Veja também

Referências

Leitura adicional

links externos