Distribuição de amostras - Sampling distribution

Em estatística , uma distribuição de amostragem ou distribuição de amostra finita é a distribuição de probabilidade de uma dada estatística baseada em amostra aleatória . Se um número arbitrariamente grande de amostras, cada uma envolvendo várias observações (pontos de dados), fosse usado separadamente para calcular um valor de uma estatística (como, por exemplo, a média da amostra ou a variância da amostra ) para cada amostra, então a amostragem distribuição é a distribuição de probabilidade dos valores assumidos pela estatística. Em muitos contextos, apenas uma amostra é observada, mas a distribuição da amostra pode ser encontrada teoricamente.

As distribuições de amostragem são importantes em estatísticas porque fornecem uma grande simplificação no caminho para a inferência estatística . Mais especificamente, eles permitem que as considerações analíticas sejam baseadas na distribuição de probabilidade de uma estatística, ao invés da distribuição de probabilidade conjunta de todos os valores de amostra individuais.

Introdução

A distribuição amostral de uma estatística é a distribuição dessa estatística, considerada uma variável aleatória , quando derivada de uma amostra aleatória de tamanho . Pode ser considerada como a distribuição da estatística para todas as amostras possíveis da mesma população de um determinado tamanho de amostra. A distribuição da amostra depende da distribuição subjacente da população, da estatística considerada, do procedimento de amostragem empregado e do tamanho da amostra utilizado. Muitas vezes, há um interesse considerável em saber se a distribuição amostral pode ser aproximada por uma distribuição assintótica , que corresponde ao caso limite, seja como o número de amostras aleatórias de tamanho finito, tomadas de uma população infinita e usadas para produzir a distribuição, tende ao infinito , ou quando apenas uma "amostra" de tamanho igualmente infinito é obtida da mesma população.

Por exemplo, considere uma população normal com média e variância . Suponha que pegamos repetidamente amostras de um determinado tamanho dessa população e calculamos a média aritmética para cada amostra - essa estatística é chamada de média da amostra . A distribuição dessas médias, ou médias, é chamada de "distribuição amostral da média amostral". Esta distribuição é normal (n é o tamanho da amostra), uma vez que a população subjacente é normal, embora as distribuições de amostragem também possam frequentemente estar próximas do normal, mesmo quando a distribuição da população não o é (consulte o teorema do limite central ). Uma alternativa para a média da amostra é a mediana da amostra . Quando calculado a partir da mesma população, tem uma distribuição amostral diferente da média e geralmente não é normal (mas pode ser próximo para tamanhos grandes de amostra).

A média de uma amostra de uma população com distribuição normal é um exemplo de estatística simples obtida de uma das populações estatísticas mais simples . Para outras estatísticas e outras populações, as fórmulas são mais complicadas e frequentemente não existem na forma fechada . Em tais casos, as distribuições de amostragem podem ser aproximadas por meio de simulações de Monte-Carlo [pág. 2] , métodos de bootstrap ou teoria de distribuição assintótica .

Erro padrão

O desvio padrão da distribuição amostral de uma estatística é conhecido como o erro padrão dessa quantidade. Para o caso em que a estatística é a média da amostra e as amostras não estão correlacionadas, o erro padrão é:

onde é o desvio padrão da distribuição da população daquela quantidade e é o tamanho da amostra (número de itens na amostra).

Uma implicação importante desta fórmula é que o tamanho da amostra deve ser quadruplicado (multiplicado por 4) para atingir a metade (1/2) do erro de medição. Ao projetar estudos estatísticos onde o custo é um fator, isso pode ter um papel na compreensão das compensações de custo-benefício.

Para o caso em que a estatística é o total da amostra e as amostras não estão correlacionadas, o erro padrão é:

onde, novamente, é o desvio padrão da distribuição da população daquela quantidade e é o tamanho da amostra (número de itens na amostra).

Exemplos

População Estatística Distribuição de amostras
Normal : Média da amostra de amostras de tamanho n .

Se o desvio padrão não for conhecido, pode-se considerar , que segue a distribuição t de Student com graus de liberdade. Aqui está a variância da amostra, e é uma quantidade fundamental , cuja distribuição não depende .

Bernoulli : Proporção da amostra de "tentativas bem-sucedidas"
Duas populações normais independentes:

 e 

Diferença entre as médias da amostra,
Qualquer distribuição F absolutamente contínua com densidade ƒ Mediana de uma amostra de tamanho n = 2 k - 1, onde a amostra é ordenada para
Qualquer distribuição com função de distribuição F Máximo de uma amostra aleatória de tamanho n

Referências

links externos