Estatística auxiliar - Ancillary statistic
Uma estatística auxiliar é uma medida de uma amostra cuja distribuição (ou cujo pmf ou pdf ) não depende dos parâmetros do modelo. Uma estatística auxiliar é uma quantidade fundamental que também é uma estatística. Estatísticas auxiliares podem ser usadas para construir intervalos de predição .
Este conceito foi introduzido por Ronald Fisher na década de 1920.
Exemplos
Suponha que X 1 , ..., X n sejam independentes e distribuídos de forma idêntica , e são normalmente distribuídos com valor esperado desconhecido μ e variância 1 conhecida .
As seguintes medidas estatísticas de dispersão da amostra
- Intervalo : max ( X 1 , ..., X n ) - min ( X 1 , ..., X n )
- Faixa interquartil : Q 3 - Q 1
- Variância da amostra :
são todas estatísticas auxiliares , porque suas distribuições de amostragem não mudam à medida que μ muda. Computacionalmente, isso ocorre porque nas fórmulas, os termos μ cancelam - adicionar um número constante a uma distribuição (e a todas as amostras) altera seu máximo e mínimo de amostra na mesma quantidade, portanto, não altera sua diferença, e da mesma forma para outros: essas medidas de dispersão não dependem da localização.
Por outro lado, dadas as variáveis normais iid com média conhecida 1 e variância desconhecida σ 2 , a média da amostra não é uma estatística auxiliar da variância, pois a distribuição da amostra da média da amostra é N (1, σ 2 / n ), que depende em σ 2 - esta medida de localização (especificamente, seu erro padrão ) depende da dispersão.
Em famílias em escala de localização
Em uma família local de distribuições , é uma estatística auxiliar.
Em uma escala de família de distribuições , é uma estatística auxiliar.
Numa família localização escala de distribuições , , onde é a variância da amostra, é uma estatística acessória.
Em recuperação de informação
Acontece que, se for uma estatística insuficiente e secundária, pode-se às vezes recuperar todas as informações sobre o parâmetro desconhecido contido em todos os dados relatando enquanto condiciona o valor observado de . Isso é conhecido como inferência condicional .
Por exemplo, suponha que siga a distribuição onde é desconhecido. Observe que, embora não seja suficiente para (uma vez que sua informação de Fisher é 1, enquanto a informação de Fisher da estatística completa é 2), ao relatar adicionalmente a estatística auxiliar , obtém-se uma distribuição de junção com a informação de Fisher 2.
Complemento auxiliar
Dada uma estatística T que não é suficiente , um complemento auxiliar é uma estatística U que é auxiliar e tal que ( T , U ) é suficiente. Intuitivamente, um complemento auxiliar "adiciona as informações que faltam" (sem duplicar nenhuma).
A estatística é particularmente útil se tomarmos T como um estimador de máxima verossimilhança , o que em geral não será suficiente; então pode-se pedir um complemento auxiliar. Nesse caso, Fisher argumenta que deve-se condicionar a um complemento auxiliar para determinar o conteúdo da informação: deve-se considerar que o conteúdo da informação de Fisher de T não é o marginal de T , mas a distribuição condicional de T , dado U : quanta informação faz T adicionar ? Em geral, isso não é possível, pois não há necessidade de complemento auxiliar e, se houver, não precisa ser único, nem existe complemento auxiliar máximo.
Exemplo
No beisebol , suponha que um olheiro observe um rebatedor em N rebatidas . Suponha (irrealisticamente) que o número N seja escolhido por algum processo aleatório que é independente da habilidade do batedor - digamos que uma moeda seja lançada após cada rebatida e o resultado determine se o batedor vai ficar para assistir ao próximo rebatista do batedor. Os dados eventuais são o número N de rebatidas e o número X de rebatidas: os dados ( X , N ) são uma estatística suficiente. A média de rebatidas observada X / N falha em transmitir todas as informações disponíveis nos dados porque não informa o número N de rebatidas (por exemplo, uma média de rebatidas de 0,400, que é muito alta , com base em apenas cinco em morcegos não inspira nem perto de tanta confiança na habilidade do jogador do que uma média de 0,400 baseada em 100 rebatidas). O número N de rebatidas é uma estatística auxiliar porque
- É uma parte dos dados observáveis (é uma estatística ) e
- Sua distribuição de probabilidade não depende da habilidade do batedor, uma vez que foi escolhido por um processo aleatório independente da habilidade do batedor.
Esta estatística auxiliar é um complemento auxiliar à média de rebatidas observada X / N , ou seja, a média de rebatidas X / N não é uma estatística suficiente , na medida em que transmite menos do que todas as informações relevantes nos dados, mas em conjunto com N , torna-se suficiente.