Regra 68–95–99,7 - 68–95–99.7 rule

Para um conjunto de dados aproximadamente normal , os valores dentro de um desvio padrão da média representam cerca de 68% do conjunto; enquanto dentro de dois desvios padrão representam cerca de 95%; e dentro de três desvios padrão representam cerca de 99,7%. As porcentagens mostradas são probabilidades teóricas arredondadas destinadas apenas a aproximar os dados empíricos derivados de uma população normal.
Intervalo de previsão (no eixo y ) dado a partir da pontuação padrão (no eixo x ). O eixo y é escalado logaritmicamente (mas os valores nele não são modificados).

Nas estatísticas , a regra 68-95-99,7 , também conhecida como regra empírica , é uma abreviatura usada para lembrar a porcentagem de valores que estão dentro de uma estimativa de intervalo em uma distribuição normal : 68%, 95% e 99,7% do os valores estão dentro de um, dois e três desvios-padrão da média , respectivamente.

Em notação matemática, esses fatos podem ser expressos da seguinte forma, onde Χ é uma observação de uma variável aleatória normalmente distribuída , μ é a média da distribuição e σ é seu desvio padrão:

Nas ciências empíricas, a chamada regra empírica dos três sigma expressa uma heurística convencional de que quase todos os valores são considerados como estando dentro de três desvios-padrão da média e, portanto, é empiricamente útil tratar 99,7% de probabilidade como quase certeza. A utilidade dessa heurística depende especialmente da questão em consideração. Nas ciências sociais , um resultado pode ser considerado " significativo " se seu nível de confiança for da ordem de um efeito de dois sigma (95%), enquanto na física de partículas , há uma convenção de um efeito de cinco sigma (99,99994% confiança) sendo necessário para se qualificar como uma descoberta .

Uma regra de três sigma mais fraca pode ser derivada da desigualdade de Chebyshev , afirmando que mesmo para variáveis ​​não normalmente distribuídas, pelo menos 88,8% dos casos devem cair dentro de intervalos de três sigma calculados corretamente. Para distribuições unimodais , a probabilidade de estar dentro do intervalo é de pelo menos 95% pela desigualdade Vysochanskij-Petunin . Pode haver certas suposições para uma distribuição que forçam essa probabilidade a ser de pelo menos 98%.

Função de distribuição cumulativa

Diagrama mostrando a função de distribuição cumulativa para a distribuição normal com média ( μ ) 0 e variância ( σ 2 ) 1

Esses valores numéricos "68%, 95%, 99,7%" vêm da função de distribuição cumulativa da distribuição normal .

O intervalo de predição para qualquer pontuação padrão z corresponde numericamente a (1− (1− Φ μ , σ 2 (z)) · 2).

Por exemplo, Φ (2) ≈ 0,9772 , ou Pr ( X μ + 2 σ ) ≈ 0,9772 , correspondendo a um intervalo de predição de (1 - (1 - 0,97725) · 2) = 0,9545 = 95,45%. Este não é um intervalo simétrico - é apenas a probabilidade de que uma observação seja menor que μ + 2 σ . Para calcular a probabilidade de que uma observação esteja dentro de dois desvios padrão da média (pequenas diferenças devido ao arredondamento):

Isso está relacionado ao intervalo de confiança usado nas estatísticas: é aproximadamente um intervalo de confiança de 95% quando é a média de uma amostra de tamanho .

Testes de normalidade

A "regra 68-95-99,7" é frequentemente usada para obter rapidamente uma estimativa de probabilidade aproximada de algo, dado seu desvio padrão, se a população for considerada normal. Também é usado como um teste simples para outliers se a população for considerada normal e como um teste de normalidade se a população for potencialmente não normal.

Para passar de uma amostra a uma série de desvios-padrão, primeiro calcula-se o desvio , seja o erro ou residual, dependendo se se conhece a média da população ou apenas a estima. O próximo passo é padronizar (dividir pelo desvio padrão da população), se os parâmetros da população forem conhecidos, ou estudentizar (dividir por uma estimativa do desvio padrão), se os parâmetros forem desconhecidos e apenas estimados.

Para usar como um teste para outliers ou um teste de normalidade, calcula-se o tamanho dos desvios em termos de desvios padrão e compara-o à frequência esperada. Dado um conjunto de amostra, pode-se calcular os resíduos estudentizados e compará-los com a frequência esperada: os pontos que caem mais de 3 desvios-padrão da norma são provavelmente outliers (a menos que o tamanho da amostra seja significativamente grande, ponto em que se espera uma amostra extremo), e se houver muitos pontos a mais de 3 desvios-padrão da norma, é provável que haja motivos para questionar a normalidade assumida da distribuição. Isso é cada vez mais forte para movimentos de 4 ou mais desvios-padrão.

Pode-se calcular com mais precisão, aproximando o número de movimentos extremos de uma determinada magnitude ou maior por uma distribuição de Poisson , mas simplesmente, se houver vários movimentos de 4 desvios padrão em uma amostra de tamanho 1.000, terá um forte motivo para considerar esses valores discrepantes ou questionar a suposta normalidade da distribuição.

Por exemplo, um evento 6 σ corresponde a uma chance de cerca de duas partes por bilhão . Para ilustração, se os eventos ocorrerem diariamente, isso corresponderia a um evento esperado a cada 1,4 milhão de anos. Isso dá um teste de normalidade simples : se alguém testemunha um 6 σ nos dados diários e significativamente menos de 1 milhão de anos se passaram, então uma distribuição normal provavelmente não fornece um bom modelo para a magnitude ou frequência de grandes desvios a esse respeito.

Em The Black Swan , Nassim Nicholas Taleb dá o exemplo de modelos de risco segundo os quais o crash da Black Monday corresponderia a um evento 36- σ : a ocorrência de tal evento deveria instantaneamente sugerir que o modelo é falho, ou seja, que o processo sob consideração não é satisfatoriamente modelada por uma distribuição normal. Modelos refinados devem então ser considerados, por exemplo, pela introdução de volatilidade estocástica . Em tais discussões, é importante estar ciente do problema da falácia do jogador , que afirma que uma única observação de um evento raro não contradiz que o evento seja de fato raro. É a observação de uma pluralidade de eventos supostamente raros que cada vez mais abala a hipótese de que eles são raros, ou seja, a validade do modelo assumido. Uma modelagem adequada desse processo de perda gradual de confiança em uma hipótese envolveria a designação de probabilidade anterior não apenas para a própria hipótese, mas para todas as hipóteses alternativas possíveis. Por essa razão, o teste de hipótese estatística funciona não tanto ao confirmar uma hipótese considerada provável, mas ao refutar hipóteses consideradas improváveis .

Tabela de valores numéricos

Por causa das caudas exponenciais da distribuição normal, as chances de desvios maiores diminuem muito rapidamente. A partir das regras para dados normalmente distribuídos para um evento diário:

Alcance Fração esperada da população dentro do intervalo Frequência aproximada esperada fora da faixa Frequência aproximada para evento diário
μ ± 0,5σ 0,382 924 922 548 026 3 dentro  5 Quatro ou cinco vezes por semana
μ ± σ 0,682 689 492 137 086 1 in  3 Duas vezes por semana
μ ± 1,5σ 0,866 385 597 462 284 1 in  7 Semanalmente
μ ± 2σ 0,954 499 736 103 642 1 in  22 A cada três semanas
μ ± 2,5σ 0,987 580 669 348 448 1 in  81 Trimestral
μ ± 3σ 0,997 300 203 936 740 1 in  370 Anual
μ ± 3,5σ 0,999 534 741 841 929 1 in  2149 A cada 6 anos
μ ± 4σ 0,999 936 657 516 334 1 in  15 787 A cada 43 anos (duas vezes na vida)
μ ± 4,5σ 0,999 993 204 653 751 1 in  147 160 A cada 403 anos (uma vez na era moderna)
μ ± 5σ 0,999 999 426 696 856 1 in  1 744 278 Cada 4776  anos (uma vez na história registrada)
μ ± 5,5σ 0,999 999 962 020 875 1 in  26 330 254 Cada 72 090  anos (três vezes na história da humanidade moderna )
μ ± 6σ 0,999 999 998 026 825 1 in  506 797 346 A cada 1,38 milhão de anos (duas vezes na história da humanidade )
μ ± 6,5σ 0,999 999 999 919 680 1 in  12 450 197 393 A cada 34 milhões de anos (duas vezes desde a extinção dos dinossauros )
μ ± 7σ 0,999 999 999 997 440 1 in  390 682 215 445 A cada 1,07 bilhão de anos (quatro ocorrências na história da Terra )
μ ± x σ 1 in  Todos os dias

Veja também

Referências

links externos