Razão de correlação - Correlation ratio

Em estatística , a razão de correlação é uma medida da relação curvilínea entre a dispersão estatística dentro das categorias individuais e a dispersão em toda a população ou amostra. A medida é definida como a razão de dois desvios padrão que representam esses tipos de variação. O contexto aqui é o mesmo do coeficiente de correlação intraclasse , cujo valor é o quadrado da razão de correlação.

Definição

Suponha que cada observação seja y xi, onde x indica a categoria em que a observação está ei é o rótulo da observação específica. Seja n x o número de observações na categoria x e

e

onde é a média da categoria x e é a média de toda a população. A razão de correlação η ( eta ) é definida para satisfazer

que pode ser escrito como

ou seja, a variância ponderada das médias da categoria dividida pela variância de todas as amostras.

Se a relação entre os valores de e os valores de for linear (o que certamente é verdade quando existem apenas duas possibilidades para x ), isso dará o mesmo resultado que o quadrado do coeficiente de correlação de Pearson ; caso contrário, a razão de correlação será maior em magnitude. Portanto, pode ser usado para julgar relacionamentos não lineares.

Faixa

A razão de correlação assume valores entre 0 e 1. O limite representa o caso especial de não dispersão entre as médias das diferentes categorias, enquanto se refere à não dispersão dentro das respectivas categorias. é indefinido quando todos os pontos de dados da população completa assumem o mesmo valor.

Exemplo

Suponha que haja uma distribuição de pontuações de teste em três tópicos (categorias):

  • Álgebra: 45, 70, 29, 15 e 21 (5 pontuações)
  • Geometria: 40, 20, 30 e 42 (4 pontuações)
  • Estatísticas: 65, 95, 80, 70, 85 e 73 (6 pontuações).

Então, as médias dos sujeitos são 36, 33 e 78, com uma média geral de 52.

As somas dos quadrados das diferenças das médias dos sujeitos são 1952 para Álgebra, 308 para Geometria e 600 para Estatística, somando 2860. A soma geral dos quadrados das diferenças da média geral é 9640. A diferença de 6780 entre eles é também a soma ponderada dos quadrados das diferenças entre as médias dos sujeitos e a média geral:

Isto dá

sugerindo que a maior parte da dispersão geral é resultado de diferenças entre os tópicos, e não dentro dos tópicos. Tirar a raiz quadrada dá

Para a dispersão geral da amostra é puramente devido à dispersão entre as categorias e de forma alguma devido à dispersão dentro das categorias individuais. Para uma compreensão rápida, simplesmente imagine todas as pontuações de Álgebra, Geometria e Estatística sendo as mesmas, respectivamente, por exemplo, 5 vezes 36, 4 vezes 33, 6 vezes 78.

O limite refere-se ao caso sem dispersão entre as categorias que contribuem para a dispersão geral. O requisito trivial para esse extremo é que todas as médias das categorias sejam iguais.

Pearson v. Fisher

A razão de correlação foi introduzida por Karl Pearson como parte da análise de variância . Ronald Fisher comentou:

Como estatística descritiva, a utilidade da razão de correlação é extremamente limitada. Será notado que o número de graus de liberdade no numerador de depende do número de matrizes

ao que Egon Pearson (filho de Karl) respondeu dizendo

Novamente, um método estabelecido há muito tempo, como o uso da razão de correlação [§45 A "Razão de Correlação" η] é ignorado em poucas palavras sem uma descrição adequada, o que talvez seja dificilmente justo para o aluno que não tem a oportunidade de julgando seu alcance por si mesmo.

Referências

  1. ^ Ronald Fisher (1926) Métodos estatísticos para trabalhadores de pesquisa , ISBN  0-05-002170-2 (trecho)
  2. ^ Pearson ES (1926) "Revisão de métodos estatísticos para trabalhadores da pesquisa (RA Fisher)", Science Progress , 20, 733-734. (excerto)