Regra 68–95–99,7 - 68–95–99.7 rule

Para um conjunto de dados aproximadamente normal , os valores dentro de um desvio padrão da média representam cerca de 68% do conjunto; enquanto dentro de dois desvios padrão representam cerca de 95%; e dentro de três desvios padrão representam cerca de 99,7%. As porcentagens mostradas são probabilidades teóricas arredondadas destinadas apenas a aproximar os dados empíricos derivados de uma população normal.

Intervalo de previsão (no eixo y ) dado a partir da pontuação padrão (no eixo x ). O eixo y é escalado logaritmicamente (mas os valores nele não são modificados).

Nas estatísticas , a regra 68-95-99,7 , também conhecida como regra empírica , é uma abreviatura usada para lembrar a porcentagem de valores que estão dentro de uma estimativa de intervalo em uma distribuição normal : 68%, 95% e 99,7% do os valores estão dentro de um, dois e três desvios-padrão da média , respectivamente.

Em notação matemática, esses fatos podem ser expressos da seguinte forma, onde $Χ$ é uma observação de uma variável aleatória normalmente distribuída , $μ$ é a média da distribuição e $σ$ é seu desvio padrão:

{\ displaystyle {\ begin {alinhado} \ Pr (\ mu -1 \ sigma \ leq X \ leq \ mu +1 \ sigma) & \ approx 68,27 \% \\\ Pr (\ mu -2 \ sigma \ leq X \ leq \ mu +2 \ sigma) & \ approx 95,45 \% \\\ Pr (\ mu -3 \ sigma \ leq X \ leq \ mu +3 \ sigma) & \ approx 99,73 \% \ end {alinhado}} }

Nas ciências empíricas, a chamada regra empírica dos três sigma expressa uma heurística convencional de que quase todos os valores são considerados como estando dentro de três desvios-padrão da média e, portanto, é empiricamente útil tratar 99,7% de probabilidade como quase certeza. A utilidade dessa heurística depende especialmente da questão em consideração. Nas ciências sociais , um resultado pode ser considerado " significativo " se seu nível de confiança for da ordem de um efeito de dois sigma (95%), enquanto na física de partículas , há uma convenção de um efeito de cinco sigma (99,99994% confiança) sendo necessário para se qualificar como uma descoberta .

Uma regra de três sigma mais fraca pode ser derivada da desigualdade de Chebyshev , afirmando que mesmo para variáveis não normalmente distribuídas, pelo menos 88,8% dos casos devem cair dentro de intervalos de três sigma calculados corretamente. Para distribuições unimodais , a probabilidade de estar dentro do intervalo é de pelo menos 95% pela desigualdade Vysochanskij-Petunin . Pode haver certas suposições para uma distribuição que forçam essa probabilidade a ser de pelo menos 98%.

Função de distribuição cumulativa

Diagrama mostrando a função de distribuição cumulativa para a distribuição normal com média ( μ ) 0 e variância ( σ ² ) 1

Esses valores numéricos "68%, 95%, 99,7%" vêm da função de distribuição cumulativa da distribuição normal .

O intervalo de predição para qualquer pontuação padrão z corresponde numericamente a (1− (1− Φ _{μ , σ ²} (z)) · 2).

Por exemplo, $Φ (2) \approx 0,9772$ , ou $Pr (X \leq μ + 2 σ) \approx 0,9772$ , correspondendo a um intervalo de predição de (1 - (1 - 0,97725) · 2) = 0,9545 = 95,45%. Este não é um intervalo simétrico - é apenas a probabilidade de que uma observação seja menor que $μ + 2 σ$ . Para calcular a probabilidade de que uma observação esteja dentro de dois desvios padrão da média (pequenas diferenças devido ao arredondamento):

{\ displaystyle \ Pr (\ mu -2 \ sigma \ leq X \ leq \ mu +2 \ sigma) = \ Phi (2) - \ Phi (-2) \ aproximadamente 0,9772- (1-0,9772) \ aprox 0,9545}

Isso está relacionado ao intervalo de confiança usado nas estatísticas: é aproximadamente um intervalo de confiança de 95% quando é a média de uma amostra de tamanho . ${\ displaystyle {\ bar {X}} \ pm 2 {\ frac {\ sigma} {\ sqrt {n}}}}$ ${\ displaystyle {\ bar {X}}}$ ${\ displaystyle n}$

Testes de normalidade

A "regra 68-95-99,7" é frequentemente usada para obter rapidamente uma estimativa de probabilidade aproximada de algo, dado seu desvio padrão, se a população for considerada normal. Também é usado como um teste simples para outliers se a população for considerada normal e como um teste de normalidade se a população for potencialmente não normal.

Para passar de uma amostra a uma série de desvios-padrão, primeiro calcula-se o desvio , seja o erro ou residual, dependendo se se conhece a média da população ou apenas a estima. O próximo passo é padronizar (dividir pelo desvio padrão da população), se os parâmetros da população forem conhecidos, ou estudentizar (dividir por uma estimativa do desvio padrão), se os parâmetros forem desconhecidos e apenas estimados.

Para usar como um teste para outliers ou um teste de normalidade, calcula-se o tamanho dos desvios em termos de desvios padrão e compara-o à frequência esperada. Dado um conjunto de amostra, pode-se calcular os resíduos estudentizados e compará-los com a frequência esperada: os pontos que caem mais de 3 desvios-padrão da norma são provavelmente outliers (a menos que o tamanho da amostra seja significativamente grande, ponto em que se espera uma amostra extremo), e se houver muitos pontos a mais de 3 desvios-padrão da norma, é provável que haja motivos para questionar a normalidade assumida da distribuição. Isso é cada vez mais forte para movimentos de 4 ou mais desvios-padrão.

Pode-se calcular com mais precisão, aproximando o número de movimentos extremos de uma determinada magnitude ou maior por uma distribuição de Poisson , mas simplesmente, se houver vários movimentos de 4 desvios padrão em uma amostra de tamanho 1.000, terá um forte motivo para considerar esses valores discrepantes ou questionar a suposta normalidade da distribuição.

Por exemplo, um evento 6 σ corresponde a uma chance de cerca de duas partes por bilhão . Para ilustração, se os eventos ocorrerem diariamente, isso corresponderia a um evento esperado a cada 1,4 milhão de anos. Isso dá um teste de normalidade simples : se alguém testemunha um 6 σ nos dados diários e significativamente menos de 1 milhão de anos se passaram, então uma distribuição normal provavelmente não fornece um bom modelo para a magnitude ou frequência de grandes desvios a esse respeito.

Em The Black Swan , Nassim Nicholas Taleb dá o exemplo de modelos de risco segundo os quais o crash da Black Monday corresponderia a um evento 36- σ : a ocorrência de tal evento deveria instantaneamente sugerir que o modelo é falho, ou seja, que o processo sob consideração não é satisfatoriamente modelada por uma distribuição normal. Modelos refinados devem então ser considerados, por exemplo, pela introdução de volatilidade estocástica . Em tais discussões, é importante estar ciente do problema da falácia do jogador , que afirma que uma única observação de um evento raro não contradiz que o evento seja de fato raro. É a observação de uma pluralidade de eventos supostamente raros que cada vez mais abala a hipótese de que eles são raros, ou seja, a validade do modelo assumido. Uma modelagem adequada desse processo de perda gradual de confiança em uma hipótese envolveria a designação de probabilidade anterior não apenas para a própria hipótese, mas para todas as hipóteses alternativas possíveis. Por essa razão, o teste de hipótese estatística funciona não tanto ao confirmar uma hipótese considerada provável, mas ao refutar hipóteses consideradas improváveis .

Tabela de valores numéricos

Por causa das caudas exponenciais da distribuição normal, as chances de desvios maiores diminuem muito rapidamente. A partir das regras para dados normalmente distribuídos para um evento diário:

Alcance	Fração esperada da população dentro do intervalo			Frequência aproximada para evento diário
μ ± 0,5σ	0,382 924 922 548 026	3 dentro	5	Quatro ou cinco vezes por semana
μ ± σ	0,682 689 492 137 086	1 in	3	Duas vezes por semana
μ ± 1,5σ	0,866 385 597 462 284	1 in	7	Semanalmente
μ ± 2σ	0,954 499 736 103 642	1 in	22	A cada três semanas
μ ± 2,5σ	0,987 580 669 348 448	1 in	81	Trimestral
μ ± 3σ	0,997 300 203 936 740	1 in	370	Anual
μ ± 3,5σ	0,999 534 741 841 929	1 in	2149	A cada 6 anos
μ ± 4σ	0,999 936 657 516 334	1 in	15 787	A cada 43 anos (duas vezes na vida)
μ ± 4,5σ	0,999 993 204 653 751	1 in	147 160	A cada 403 anos (uma vez na era moderna)
μ ± 5σ	0,999 999 426 696 856	1 in	1 744 278	Cada 4776 anos (uma vez na história registrada)
μ ± 5,5σ	0,999 999 962 020 875	1 in	26 330 254	Cada 72 090 anos (três vezes na história da humanidade moderna )
μ ± 6σ	0,999 999 998 026 825	1 in	506 797 346	A cada 1,38 milhão de anos (duas vezes na história da humanidade )
μ ± 6,5σ	0,999 999 999 919 680	1 in	12 450 197 393	A cada 34 milhões de anos (duas vezes desde a extinção dos dinossauros )
μ ± 7σ	0,999 999 999 997 440	1 in	390 682 215 445	A cada 1,07 bilhão de anos (quatro ocorrências na história da Terra )
μ ± $x$ σ	${\ displaystyle \ operatorname {erf} \ left ({\ frac {x} {\ sqrt {2}}} \ right)}$	1 in	${\ displaystyle {\ tfrac {1} {1- \ operatorname {erf} \ left ({\ frac {x} {\ sqrt {2}}} \ right)}}}$	Todos os dias ${\ displaystyle {\ tfrac {1} {1- \ operatorname {erf} \ left ({\ frac {x} {\ sqrt {2}}} \ right)}}}$

Veja também

Referências

links externos

" The Normal Distribution " por Balasubramanian Narasimhan
" Calcular a proporção percentual dentro de x sigmas em WolframAlpha

Languages

In other projects