Estatística auxiliar - Ancillary statistic

Uma estatística auxiliar é uma medida de uma amostra cuja distribuição (ou cujo pmf ou pdf ) não depende dos parâmetros do modelo. Uma estatística auxiliar é uma quantidade fundamental que também é uma estatística. Estatísticas auxiliares podem ser usadas para construir intervalos de predição .

Este conceito foi introduzido por Ronald Fisher na década de 1920.

Exemplos

Suponha que X 1 , ..., X n sejam independentes e distribuídos de forma idêntica , e são normalmente distribuídos com valor esperado desconhecido μ e variância 1 conhecida .

ser a média da amostra .

As seguintes medidas estatísticas de dispersão da amostra

são todas estatísticas auxiliares , porque suas distribuições de amostragem não mudam à medida que μ muda. Computacionalmente, isso ocorre porque nas fórmulas, os termos μ cancelam - adicionar um número constante a uma distribuição (e a todas as amostras) altera seu máximo e mínimo de amostra na mesma quantidade, portanto, não altera sua diferença, e da mesma forma para outros: essas medidas de dispersão não dependem da localização.

Por outro lado, dadas as variáveis ​​normais iid com média conhecida 1 e variância desconhecida σ 2 , a média da amostra não é uma estatística auxiliar da variância, pois a distribuição da amostra da média da amostra é N (1,  σ 2 / n ), que depende em σ 2 - esta medida de localização (especificamente, seu erro padrão ) depende da dispersão.

Em famílias em escala de localização

Em uma família local de distribuições , é uma estatística auxiliar.

Em uma escala de família de distribuições , é uma estatística auxiliar.

Numa família localização escala de distribuições , , onde é a variância da amostra, é uma estatística acessória.

Em recuperação de informação

Acontece que, se for uma estatística insuficiente e secundária, pode-se às vezes recuperar todas as informações sobre o parâmetro desconhecido contido em todos os dados relatando enquanto condiciona o valor observado de . Isso é conhecido como inferência condicional .

Por exemplo, suponha que siga a distribuição onde é desconhecido. Observe que, embora não seja suficiente para (uma vez que sua informação de Fisher é 1, enquanto a informação de Fisher da estatística completa é 2), ao relatar adicionalmente a estatística auxiliar , obtém-se uma distribuição de junção com a informação de Fisher 2.

Complemento auxiliar

Dada uma estatística T que não é suficiente , um complemento auxiliar é uma estatística U que é auxiliar e tal que ( TU ) é suficiente. Intuitivamente, um complemento auxiliar "adiciona as informações que faltam" (sem duplicar nenhuma).

A estatística é particularmente útil se tomarmos T como um estimador de máxima verossimilhança , o que em geral não será suficiente; então pode-se pedir um complemento auxiliar. Nesse caso, Fisher argumenta que deve-se condicionar a um complemento auxiliar para determinar o conteúdo da informação: deve-se considerar que o conteúdo da informação de Fisher de T não é o marginal de T , mas a distribuição condicional de T , dado U : quanta informação faz T adicionar ? Em geral, isso não é possível, pois não há necessidade de complemento auxiliar e, se houver, não precisa ser único, nem existe complemento auxiliar máximo.

Exemplo

No beisebol , suponha que um olheiro observe um rebatedor em N rebatidas . Suponha (irrealisticamente) que o número N seja escolhido por algum processo aleatório que é independente da habilidade do batedor - digamos que uma moeda seja lançada após cada rebatida e o resultado determine se o batedor vai ficar para assistir ao próximo rebatista do batedor. Os dados eventuais são o número N de rebatidas e o número X de rebatidas: os dados ( XN ) são uma estatística suficiente. A média de rebatidas observada X / N falha em transmitir todas as informações disponíveis nos dados porque não informa o número N de rebatidas (por exemplo, uma média de rebatidas de 0,400, que é muito alta , com base em apenas cinco em morcegos não inspira nem perto de tanta confiança na habilidade do jogador do que uma média de 0,400 baseada em 100 rebatidas). O número N de rebatidas é uma estatística auxiliar porque

  • É uma parte dos dados observáveis ​​(é uma estatística ) e
  • Sua distribuição de probabilidade não depende da habilidade do batedor, uma vez que foi escolhido por um processo aleatório independente da habilidade do batedor.

Esta estatística auxiliar é um complemento auxiliar à média de rebatidas observada X / N , ou seja, a média de rebatidas X / N não é uma estatística suficiente , na medida em que transmite menos do que todas as informações relevantes nos dados, mas em conjunto com N , torna-se suficiente.

Veja também

Notas