Quarteto de Anscombe - Anscombe's quartet

Todos os quatro conjuntos são idênticos quando examinados usando estatísticas de resumo simples, mas variam consideravelmente quando representados graficamente

O quarteto de Anscombe compreende quatro conjuntos de dados que têm estatísticas descritivas simples quase idênticas , mas têm distribuições muito diferentes e parecem muito diferentes quando representados graficamente . Cada conjunto de dados consiste em onze ( x , y ) pontos . Eles foram construídos em 1973 pelo estatístico Francis Anscombe para demonstrar a importância dos dados gráficos antes de analisá-los, e o efeito de outliers e outras observações influentes nas propriedades estatísticas. Ele descreveu o artigo como tendo a intenção de contrariar a impressão entre os estatísticos de que "os cálculos numéricos são exatos, mas os gráficos são aproximados". Foi renderizado como um quarteto musical real .

Dados

Para todos os quatro conjuntos de dados:

Propriedade Valor Precisão
Média de x 9 exato
Variância da amostra de x  : s2
x
11 exato
Média de y 7,50 até 2 casas decimais
Variância da amostra de y  : s2
anos
4.125 ± 0,003
Correlação entre x e y 0,816 até 3 casas decimais
Linha de regressão linear y  = 3,00 + 0,500 x com 2 e 3 casas decimais, respectivamente
Coeficiente de determinação da regressão linear: 0,67 até 2 casas decimais
  • O primeiro gráfico de dispersão (canto superior esquerdo) parece ser uma relação linear simples , correspondendo a duas variáveis correlacionadas onde y pode ser modelado como gaussiano com a média linearmente dependente de  x .
  • O segundo gráfico (canto superior direito) não é distribuído normalmente; embora uma relação entre as duas variáveis ​​seja óbvia, não é linear e o coeficiente de correlação de Pearson não é relevante. Uma regressão mais geral e o coeficiente de determinação correspondente seriam mais apropriados.
  • No terceiro gráfico (canto inferior esquerdo), a distribuição é linear, mas deve ter uma linha de regressão diferente (uma regressão robusta teria sido necessária). A regressão calculada é compensada por um outlier que exerce influência suficiente para diminuir o coeficiente de correlação de 1 para 0,816.
  • Finalmente, o quarto gráfico (inferior direito) mostra um exemplo em que um ponto de alta alavancagem é suficiente para produzir um alto coeficiente de correlação, embora os outros pontos de dados não indiquem qualquer relação entre as variáveis.

O quarteto ainda é frequentemente usado para ilustrar a importância de olhar um conjunto de dados graficamente antes de começar a analisar de acordo com um tipo particular de relacionamento e a inadequação das propriedades estatísticas básicas para descrever conjuntos de dados realistas.

Os conjuntos de dados são os seguintes. Os valores de x são iguais para os três primeiros conjuntos de dados.

Quarteto de Anscombe
eu II III 4
x y x y x y x y
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58
8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25
4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50
12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56
7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91
5.0 5,68 5.0 4,74 5.0 5,73 8,0 6,89

Não se sabe como Anscombe criou seus conjuntos de dados. Desde sua publicação, vários métodos para gerar conjuntos de dados semelhantes com estatísticas idênticas e gráficos diferentes foram desenvolvidos. Um deles, o Datasaurus Dozen , consiste em pontos traçando o contorno de um dinossauro, mais doze outros conjuntos de dados que possuem as mesmas estatísticas resumidas.

Veja também

Referências

links externos