Erro padrão - Standard error

Para um valor que é amostrado com um erro imparcial normalmente distribuído , o acima representa a proporção de amostras que cairiam entre 0, 1, 2 e 3 desvios padrão acima e abaixo do valor real.

O erro padrão ( SE ) de uma estatística (geralmente uma estimativa de um parâmetro ) é o desvio padrão de sua distribuição amostral ou uma estimativa desse desvio padrão. Se a estatística for a média da amostra, ela é chamada de erro padrão da média ( SEM ).

A distribuição amostral de uma média é gerada por amostragem repetida da mesma população e registro das médias amostrais obtidas. Isso forma uma distribuição de diferentes médias, e essa distribuição tem sua própria média e variância . Matematicamente, a variância da distribuição amostral obtida é igual à variância da população dividida pelo tamanho da amostra. Isso ocorre porque, à medida que o tamanho da amostra aumenta, a amostra significa agrupamento mais próximo da média da população.

Portanto, a relação entre o erro padrão da média e o desvio padrão é tal que, para um dado tamanho de amostra, o erro padrão da média é igual ao desvio padrão dividido pela raiz quadrada do tamanho da amostra. Em outras palavras, o erro padrão da média é uma medida da dispersão das médias da amostra em torno da média da população.

Na análise de regressão , o termo "erro padrão" se refere à raiz quadrada da estatística qui-quadrada reduzida ou ao erro padrão de um coeficiente de regressão específico (conforme usado, digamos, em intervalos de confiança ).

Erro padrão da média

Valor exato

Se uma amostra estatisticamente independente de observações for retirada de uma população estatística com um desvio padrão de , então o valor médio calculado a partir da amostra terá um erro padrão associado na média dado por:

.

Praticamente isso nos diz que, ao se tentar estimar o valor de uma média populacional, devido ao fator , reduzir o erro na estimativa por um fator de dois exige a aquisição de quatro vezes mais observações na amostra; reduzi-lo por um fator de dez requer cem vezes mais observações.

Estimativa

O desvio padrão da população amostrada raramente é conhecido. Portanto, o erro padrão da média é geralmente estimado pela substituição pelo desvio padrão da amostra :

.

Como este é apenas um estimador para o verdadeiro "erro padrão", é comum ver outras notações aqui, como:

ou alternadamente .

Uma fonte comum de confusão ocorre quando não consegue distinguir claramente entre o desvio padrão da população ( ), o desvio padrão da amostra ( ), o desvio padrão da própria média ( , que é o erro padrão) e o estimador de o desvio padrão da média ( que é a quantidade calculada com mais frequência e também costuma ser chamada coloquialmente de erro padrão ).

Precisão do estimador

Quando o tamanho da amostra é pequeno, usar o desvio padrão da amostra em vez do verdadeiro desvio padrão da população tenderá a subestimar sistematicamente o desvio padrão da população e, portanto, também o erro padrão. Com n = 2, a subestimativa é de cerca de 25%, mas para n = 6, a subestimação é de apenas 5%. Gurland e Tripathi (1971) fornecem uma correção e uma equação para esse efeito. Sokal e Rohlf (1981) fornecem uma equação do fator de correção para pequenas amostras de n <20. Veja a estimativa não enviesada do desvio padrão para uma discussão mais aprofundada.

Derivação

O erro padrão da média pode ser derivado da variância de uma soma de variáveis ​​aleatórias independentes, dada a definição de variância e algumas propriedades simples dela. Se forem observações independentes de uma população com média e desvio padrão , podemos definir o total

que devido à fórmula de Bienaymé , terá variância

A média dessas medições é simplesmente dada por

.

A variância da média é então

O erro padrão é, por definição, o desvio padrão do qual é simplesmente a raiz quadrada da variância:

.

Para variáveis ​​aleatórias correlacionadas, a variância da amostra precisa ser calculada de acordo com o teorema do limite central da cadeia de Markov .

Variáveis ​​aleatórias independentes e distribuídas de forma idêntica com tamanho de amostra aleatório

Há casos em que uma amostra é feita sem saber, de antemão, quantas observações serão aceitáveis ​​de acordo com algum critério. Nesses casos, o tamanho da amostra é uma variável aleatória, cuja variação se soma à variação de tal que,

Se tiver distribuição de Poisson , então com estimador . Portanto, o estimador de torna-se , levando a seguinte fórmula para o erro padrão:

(uma vez que o desvio padrão é a raiz quadrada da variância)

Aproximação do aluno quando o valor σ é desconhecido

Em muitas aplicações práticas, o verdadeiro valor de σ é desconhecido. Como resultado, precisamos usar uma distribuição que leve em consideração a propagação de possíveis σ ' s. Quando a verdadeira distribuição subjacente é conhecida como Gaussiana, embora com σ desconhecido, a distribuição estimada resultante segue a distribuição t de Student. O erro padrão é o desvio padrão da distribuição t de Student. As distribuições T são ligeiramente diferentes da Gaussiana e variam dependendo do tamanho da amostra. Amostras pequenas têm maior probabilidade de subestimar o desvio padrão da população e ter uma média que difere da média real da população, e a distribuição t de Student é responsável pela probabilidade desses eventos com caudas um pouco mais pesadas em comparação com uma gaussiana. Para estimar o erro padrão de uma distribuição t de Student, é suficiente usar o desvio padrão da amostra "s" em vez de σ , e poderíamos usar esse valor para calcular os intervalos de confiança.

Nota: A distribuição de probabilidade de Student é bem aproximada pela distribuição Gaussiana quando o tamanho da amostra é superior a 100. Para tais amostras, pode-se usar a última distribuição, que é muito mais simples.

Suposições e uso

Um exemplo de como é usado é fazer intervalos de confiança da média da população desconhecida. Se a distribuição de amostragem for normalmente distribuída , a média da amostra, o erro padrão e os quantis da distribuição normal podem ser usados ​​para calcular os intervalos de confiança para a verdadeira média da população. As seguintes expressões podem ser usadas para calcular os limites de confiança de 95% superior e inferior, onde é igual à média da amostra, é igual ao erro padrão para a média da amostra e 1,96 é o valor aproximado do ponto percentual de 97,5 do normal distribuição :

Limite superior de 95% e
Limite inferior de 95%

Em particular, o erro padrão de uma estatística de amostra (como a média da amostra ) é o desvio padrão real ou estimado da média da amostra no processo pelo qual foi gerada. Em outras palavras, é o desvio padrão real ou estimado da distribuição amostral da estatística amostral. A notação para erro padrão pode ser qualquer um de SE, SEM (erro padrão para de medição ou significativo ), ou S E .

Os erros padrão fornecem medidas simples de incerteza em um valor e são frequentemente usados ​​porque:

Erro padrão da média versus desvio padrão

Na literatura científica e técnica, os dados experimentais são frequentemente resumidos usando a média e o desvio padrão dos dados da amostra ou a média com o erro padrão. Isso geralmente leva à confusão sobre sua intercambialidade. No entanto, a média e o desvio padrão são estatísticas descritivas , enquanto o erro padrão da média é descritivo do processo de amostragem aleatória. O desvio padrão dos dados da amostra é uma descrição da variação nas medidas, enquanto o erro padrão da média é uma afirmação probabilística sobre como o tamanho da amostra fornecerá um limite melhor nas estimativas da média da população, à luz do limite central teorema.

Simplificando, o erro padrão da média da amostra é uma estimativa de quão longe a média da amostra provavelmente estará da média da população, enquanto o desvio padrão da amostra é o grau em que os indivíduos dentro da amostra diferem da média da amostra. Se o desvio padrão da população for finito, o erro padrão da média da amostra tenderá a zero com o aumento do tamanho da amostra, porque a estimativa da média da população irá melhorar, enquanto o desvio padrão da amostra tenderá a se aproximar do padrão da população desvio à medida que o tamanho da amostra aumenta.

Extensões

Correção de população finita (FPC)

A fórmula fornecida acima para o erro padrão assume que o tamanho da amostra é muito menor do que o tamanho da população, de modo que a população pode ser considerada efetivamente infinita em tamanho. Esse geralmente é o caso mesmo com populações finitas, porque na maioria das vezes, as pessoas estão principalmente interessadas em gerenciar os processos que criaram a população finita existente; isso é chamado de estudo analítico , de acordo com W. Edwards Deming . Se as pessoas estão interessadas em gerenciar uma população finita existente que não mudará com o tempo, é necessário ajustar o tamanho da população; isso é chamado de estudo enumerativo .

Quando a fração de amostragem (frequentemente denominada f ) é grande (aproximadamente 5% ou mais) em um estudo enumerativo , a estimativa do erro padrão deve ser corrigida multiplicando por uma '' correção de população finita '' (também conhecida como: fpc ):

que, para N grande :

para dar conta da precisão adicional obtida pela amostragem próxima a uma porcentagem maior da população. O efeito do CPE é que o erro torna-se zero quando o tamanho da amostra n é igual ao tamanho da população N .

Isso acontece na metodologia de pesquisa ao amostrar sem reposição . Se for amostrar com substituição, o FPC não entra em jogo.

Correção para correlação na amostra

Erro esperado na média de A para uma amostra de n pontos de dados com coeficiente de viés de amostra  ρ . O erro padrão imparcial é  plotado como a linha diagonal ρ = 0 com inclinação log-log −½.

Se os valores da quantidade medida A não são estatisticamente independentes, mas foram obtidos a partir de locais conhecidos no espaço de parâmetros  x , uma estimativa imparcial do verdadeiro erro padrão da média (na verdade, uma correção na parte do desvio padrão) pode ser obtida multiplicando o erro padrão calculado da amostra pelo fator  f :

onde o coeficiente de polarização da amostra ρ é a estimativa de Prais-Winsten amplamente usada do coeficiente de autocorrelação (uma quantidade entre -1 e +1) para todos os pares de pontos da amostra. Esta fórmula aproximada é para tamanhos de amostra moderados a grandes; a referência fornece as fórmulas exatas para qualquer tamanho de amostra e pode ser aplicada a séries temporais altamente autocorrelacionadas, como cotações de ações de Wall Street. Além disso, essa fórmula funciona para ρ positivo e negativo da mesma forma. Veja também estimativa imparcial de desvio padrão para mais discussão.

Veja também

Referências