Quarteto de Anscombe - Anscombe's quartet
O quarteto de Anscombe compreende quatro conjuntos de dados que têm estatísticas descritivas simples quase idênticas , mas têm distribuições muito diferentes e parecem muito diferentes quando representados graficamente . Cada conjunto de dados consiste em onze ( x , y ) pontos . Eles foram construídos em 1973 pelo estatístico Francis Anscombe para demonstrar a importância dos dados gráficos antes de analisá-los, e o efeito de outliers e outras observações influentes nas propriedades estatísticas. Ele descreveu o artigo como tendo a intenção de contrariar a impressão entre os estatísticos de que "os cálculos numéricos são exatos, mas os gráficos são aproximados". Foi renderizado como um quarteto musical real .
Dados
Para todos os quatro conjuntos de dados:
Propriedade | Valor | Precisão |
---|---|---|
Média de x | 9 | exato |
Variância da amostra de x : s2 x |
11 | exato |
Média de y | 7,50 | até 2 casas decimais |
Variância da amostra de y : s2 anos |
4.125 | ± 0,003 |
Correlação entre x e y | 0,816 | até 3 casas decimais |
Linha de regressão linear | y = 3,00 + 0,500 x | com 2 e 3 casas decimais, respectivamente |
Coeficiente de determinação da regressão linear: | 0,67 | até 2 casas decimais |
- O primeiro gráfico de dispersão (canto superior esquerdo) parece ser uma relação linear simples , correspondendo a duas variáveis correlacionadas onde y pode ser modelado como gaussiano com a média linearmente dependente de x .
- O segundo gráfico (canto superior direito) não é distribuído normalmente; embora uma relação entre as duas variáveis seja óbvia, não é linear e o coeficiente de correlação de Pearson não é relevante. Uma regressão mais geral e o coeficiente de determinação correspondente seriam mais apropriados.
- No terceiro gráfico (canto inferior esquerdo), a distribuição é linear, mas deve ter uma linha de regressão diferente (uma regressão robusta teria sido necessária). A regressão calculada é compensada por um outlier que exerce influência suficiente para diminuir o coeficiente de correlação de 1 para 0,816.
- Finalmente, o quarto gráfico (inferior direito) mostra um exemplo em que um ponto de alta alavancagem é suficiente para produzir um alto coeficiente de correlação, embora os outros pontos de dados não indiquem qualquer relação entre as variáveis.
O quarteto ainda é frequentemente usado para ilustrar a importância de olhar um conjunto de dados graficamente antes de começar a analisar de acordo com um tipo particular de relacionamento e a inadequação das propriedades estatísticas básicas para descrever conjuntos de dados realistas.
Os conjuntos de dados são os seguintes. Os valores de x são iguais para os três primeiros conjuntos de dados.
eu | II | III | 4 | ||||
---|---|---|---|---|---|---|---|
x | y | x | y | x | y | x | y |
10,0 | 8,04 | 10,0 | 9,14 | 10,0 | 7,46 | 8,0 | 6,58 |
8,0 | 6,95 | 8,0 | 8,14 | 8,0 | 6,77 | 8,0 | 5,76 |
13,0 | 7,58 | 13,0 | 8,74 | 13,0 | 12,74 | 8,0 | 7,71 |
9,0 | 8,81 | 9,0 | 8,77 | 9,0 | 7,11 | 8,0 | 8,84 |
11,0 | 8,33 | 11,0 | 9,26 | 11,0 | 7,81 | 8,0 | 8,47 |
14,0 | 9,96 | 14,0 | 8,10 | 14,0 | 8,84 | 8,0 | 7,04 |
6,0 | 7,24 | 6,0 | 6,13 | 6,0 | 6,08 | 8,0 | 5,25 |
4,0 | 4,26 | 4,0 | 3,10 | 4,0 | 5,39 | 19,0 | 12,50 |
12,0 | 10,84 | 12,0 | 9,13 | 12,0 | 8,15 | 8,0 | 5,56 |
7,0 | 4,82 | 7,0 | 7,26 | 7,0 | 6,42 | 8,0 | 7,91 |
5.0 | 5,68 | 5.0 | 4,74 | 5.0 | 5,73 | 8,0 | 6,89 |
Não se sabe como Anscombe criou seus conjuntos de dados. Desde sua publicação, vários métodos para gerar conjuntos de dados semelhantes com estatísticas idênticas e gráficos diferentes foram desenvolvidos. Um deles, o Datasaurus Dozen , consiste em pontos traçando o contorno de um dinossauro, mais doze outros conjuntos de dados que possuem as mesmas estatísticas resumidas.
Veja também
- Análise exploratória de dados
- Qualidade de ajuste
- Validação de regressão
- Paradoxo de Simpson
- Validação de modelo estatístico
Referências
links externos
- Departamento de Física da Universidade de Toronto
- Applet dinâmico feito no GeoGebra mostrando os dados e estatísticas e também permitindo que os pontos sejam arrastados (Conjunto 5).
- Exemplos animados da Autodesk chamados de "Datasaurus Dozen".
- Documentação para os conjuntos de dados em R .