Estatística suficiente - Sufficient statistic

Em estatística , uma estatística é suficiente com respeito a um modelo estatístico e seu parâmetro desconhecido associado se "nenhuma outra estatística que pode ser calculada a partir da mesma amostra fornecer qualquer informação adicional quanto ao valor do parâmetro". Em particular, uma estatística é suficiente para uma família de distribuições de probabilidade se a amostra da qual ela é calculada não fornecer nenhuma informação adicional além da estatística, sobre qual dessas distribuições de probabilidade é a distribuição de amostragem .

Um conceito relacionado é o de suficiência linear , que é mais fraco do que a suficiência, mas pode ser aplicado em alguns casos onde não há estatísticas suficientes, embora seja restrito a estimadores lineares. A função de estrutura de Kolmogorov lida com dados finitos individuais; a noção relacionada de que é a estatística suficiente algorítmica.

O conceito é devido a Sir Ronald Fisher em 1920. Stephen Stigler observou em 1973 que o conceito de suficiência caiu em desuso nas estatísticas descritivas devido à forte dependência de uma suposição da forma distributiva (ver teorema de Pitman-Koopman-Darmois abaixo ), mas manteve-se muito importante no trabalho teórico.

Fundo

Grosso modo, dado um conjunto de dados independentes distribuídos de forma idêntica, condicionados a um parâmetro desconhecido , uma estatística suficiente é uma função cujo valor contém todas as informações necessárias para calcular qualquer estimativa do parâmetro (por exemplo, uma estimativa de máxima verossimilhança ). Devido ao teorema de fatoração ( veja abaixo ), para uma estatística suficiente , a densidade de probabilidade pode ser escrita como . A partir dessa fatoração, pode-se facilmente ver que a estimativa de máxima verossimilhança de irá interagir apenas com . Normalmente, a estatística suficiente é uma função simples dos dados, por exemplo, a soma de todos os pontos de dados.

Mais geralmente, o "parâmetro desconhecido" pode representar um vetor de quantidades desconhecidas ou pode representar tudo sobre o modelo que é desconhecido ou não totalmente especificado. Nesse caso, a estatística suficiente pode ser um conjunto de funções, chamado de estatística suficiente conjuntamente . Normalmente, existem tantas funções quanto parâmetros. Por exemplo, para uma distribuição Gaussiana com média e variância desconhecidas , a estatística conjuntamente suficiente, a partir da qual as estimativas de máxima verossimilhança de ambos os parâmetros podem ser estimadas, consiste em duas funções, a soma de todos os pontos de dados e a soma de todos os pontos de dados ao quadrado ( ou equivalentemente, a média da amostra e a variância da amostra ).

O conceito equivale à afirmação de que, condicional ao valor de uma estatística suficiente para um parâmetro, a distribuição de probabilidade conjunta dos dados não depende desse parâmetro. Tanto a estatística quanto o parâmetro subjacente podem ser vetores.

Definição matemática

Uma estatística t  =  T ( X ) é suficiente para o parâmetro subjacente θ precisamente se a distribuição de probabilidade condicional dos dados X , dada a estatística t  =  T ( X ), não depende do parâmetro θ .

Alternativamente, pode-se dizer que a estatística  T ( X ) é suficiente para θ se sua informação mútua com θ for igual à informação mútua entre X e θ . Em outras palavras, a desigualdade no processamento de dados torna-se uma igualdade:

Exemplo

Por exemplo, a média da amostra é suficiente para a média ( μ ) de uma distribuição normal com variância conhecida. Uma vez que a média da amostra é conhecida, nenhuma informação adicional sobre μ pode ser obtida da própria amostra. Por outro lado, para uma distribuição arbitrária, a mediana não é suficiente para a média: mesmo que a mediana da amostra seja conhecida, conhecer a própria amostra forneceria mais informações sobre a média da população. Por exemplo, se as observações que são menores que a mediana são apenas ligeiramente menores, mas as observações que excedem a mediana a excedem em uma grande quantidade, então isso teria uma influência na inferência de alguém sobre a média da população.

Teorema de fatoração de Fisher-Neyman

O teorema de fatoração de Fisher ou critério de fatoração fornece uma caracterização convenientede uma estatística suficiente. Se a função densidade de probabilidade é ƒ θ ( x ), então T é suficiente para θ se e somente se as funções não negativos g e h pode ser encontrada de tal modo que

isto é, a densidade ƒ pode ser fatorada em um produto de forma que um fator, h , não dependa de θ e o outro fator, que depende de θ , dependa de x apenas por meio de T ( x ).

É fácil ver que se F ( t ) é uma função um-para-um e T é uma estatística suficiente, então F ( T ) é uma estatística suficiente. Em particular, podemos multiplicar uma estatística suficiente por uma constante diferente de zero e obter outra estatística suficiente.

Interpretação do princípio de probabilidade

Uma implicação do teorema é que, ao usar a inferência baseada na probabilidade, dois conjuntos de dados produzindo o mesmo valor para a estatística suficiente T ( X ) sempre produzirão as mesmas inferências sobre θ . Pelo critério de fatoração, a dependência da probabilidade de θ é apenas em conjunção com T ( X ). Como isso é o mesmo em ambos os casos, a dependência de θ também será a mesma, levando a inferências idênticas.

Prova

Devido a Hogg e Craig. Vamos denotar uma amostra aleatória de uma distribuição tendo a fdp f ( xθ ) para ι  <  θ  <  δ . Seja Y 1  =  u 1 ( X 1X 2 , ...,  X n ) uma estatística cuja pdf é g 1 ( y 1θ ). O que queremos provar é que Y 1  =  u 1 ( X 1 , X 2 , ...,  X n ) é uma estatística suficiente para θ se e somente se, para alguma função H ,

Primeiro, suponha que

Faremos a transformação y i  =  u i ( x 1x 2 , ...,  x n ), para i  = 1, ...,  n , tendo funções inversas x i  =  w i ( y 1y 2 , ...,  y n ), para i  = 1, ...,  n e Jacobiano . Desse modo,

O membro do lado esquerdo é a fdp conjunta g ( y 1 , y 2 , ..., y n ; θ) de Y 1 = u 1 ( X 1 , ..., X n ), ..., Y n = u n ( X 1 , ..., X n ). No membro da direita, está a fdp de , então esse é o quociente de e ; ou seja, é a pdf condicional de determinado .

Mas , e assim , foi dado para não depender . Uma vez que não foi introduzido na transformação e, portanto, não no Jacobiano , segue-se que não depende de e que é uma estatística suficiente para .

O inverso é provado tomando:

onde não depende de porque dependem apenas de , que são independentes quando condicionados por , uma estatística suficiente por hipótese. Agora divida ambos os membros pelo valor absoluto do Jacobiano não desaparecido e substitua pelas funções em . Isso produz

onde está o Jacobiano com substituído por seu valor em termos . O membro esquerdo é necessariamente a fdp conjunta de . Uma vez que , e assim , não depende , então

é uma função da qual não depende .

Outra prova

Uma prova mais simples e mais ilustrativa é a seguinte, embora se aplique apenas no caso discreto.

Usamos a notação abreviada para denotar a densidade de probabilidade conjunta de por . Uma vez que é uma função de , temos , enquanto e zero caso contrário. Portanto:

com a última igualdade sendo verdadeira pela definição de estatísticas suficientes. Assim com e .

Por outro lado, se , temos

Com a primeira igualdade pela definição de pdf para variáveis ​​múltiplas , a segunda pela observação acima, a terceira por hipótese e a quarta porque a soma não acabou .

Deixe denotar a densidade de probabilidade condicional de dado . Então, podemos derivar uma expressão explícita para isso:

Com a primeira igualdade por definição de densidade de probabilidade condicional, a segunda pela observação acima, a terceira pela igualdade provada acima e a quarta por simplificação. Esta expressão não depende e, portanto, é uma estatística suficiente.

Suficiência mínima

Uma estatística suficiente é mínima suficiente se puder ser representada como uma função de qualquer outra estatística suficiente. Em outras palavras, S ( X ) é mínimo suficiente se e somente se

  1. S ( X ) é suficiente, e
  2. se T ( X ) é suficiente, então existe uma função f tal que S ( X ) = f ( T ( X )).

Intuitivamente, uma estatística mínima suficiente captura de forma mais eficiente todas as informações possíveis sobre o parâmetro θ .

Uma caracterização útil de suficiência mínima é que quando a densidade f θ existe, S ( X ) é mínimo suficiente se e somente se

é independente de θ  : S ( x ) = S ( y )

Isso segue como uma consequência do teorema de fatoração de Fisher declarado acima.

Um caso em que não há estatística mínima suficiente foi mostrado por Bahadur, 1954. No entanto, em condições moderadas, uma estatística mínima suficiente sempre existe. Em particular, no espaço euclidiano, essas condições sempre são válidas se as variáveis ​​aleatórias (associadas a ) forem todas discretas ou contínuas.

Se existe uma estatística mínima suficiente, e este é geralmente o caso, então toda estatística suficiente completa é necessariamente mínima suficiente (observe que esta declaração não exclui a opção de um caso patológico em que existe um suficiente completo enquanto não há um suficiente mínimo estatística). Embora seja difícil encontrar casos em que não exista uma estatística mínima suficiente, não é tão difícil encontrar casos em que não haja uma estatística completa.

A coleção de razões de verossimilhança para , é uma estatística mínima suficiente se o espaço de parâmetro for discreto .

Exemplos

Distribuição Bernoulli

Se X 1 , ....,  X n são variáveis ​​aleatórias independentes distribuídas por Bernoulli com valor esperado p , então a soma T ( X ) =  X 1  + ... +  X n é uma estatística suficiente para p (aqui 'sucesso 'corresponde a X i  = 1 e' falha 'a X i  = 0; então, T é o número total de sucessos)

Isso é visto considerando a distribuição de probabilidade conjunta:

Como as observações são independentes, isso pode ser escrito como

e, coletando poderes de pe 1 -  p , dá

que satisfaz o critério de fatoração, com h ( x ) = 1 sendo apenas uma constante.

Observe a característica crucial: o parâmetro desconhecido p interage com os dados x apenas por meio da estatística T ( x ) = Σ  x i .

Como uma aplicação concreta, isso fornece um procedimento para distinguir uma moeda justa de uma moeda tendenciosa .

Distribuição uniforme

Se X 1 , ...., X n são independentes e uniformemente distribuídos no intervalo [0, θ ], então T ( X ) = max ( X 1 , ..., X n ) é suficiente para θ - a amostra máximo é uma estatística suficiente para o máximo da população.

Para ver isso, considere a função densidade de probabilidade conjunta de X   ( X 1 , ..., X n ). Como as observações são independentes, o pdf pode ser escrito como um produto de densidades individuais

onde 1 { ... } é a função do indicador . Assim, a densidade assume a forma exigida pelo teorema de fatoração de Fisher-Neyman, onde h ( x ) =  1 {min { x i } ≥0} , e o resto da expressão é uma função de apenas θ e T ( x ) = max { x i }.

Na verdade, o estimador imparcial de variação mínima (MVUE) para θ é

Este é o máximo da amostra, escalado para corrigir o viés e é MVUE pelo teorema de Lehmann-Scheffé . O máximo T ( X ) da amostra não escalonada é o estimador de máxima verossimilhança para θ .

Distribuição uniforme (com dois parâmetros)

Se forem independentes e uniformemente distribuídos no intervalo (onde e são parâmetros desconhecidos), então é uma estatística bidimensional suficiente para .

Para ver isso, considere a função de densidade de probabilidade conjunta de . Como as observações são independentes, o pdf pode ser escrito como um produto de densidades individuais, ou seja,

A densidade conjunta da amostra assume a forma exigida pelo teorema de fatoração de Fisher-Neyman, permitindo

Uma vez que não depende do parâmetro e depende apenas através da função

o teorema da fatoração de Fisher-Neyman implica que é uma estatística suficiente para .

Distribuição de veneno

Se X 1 , ....,  X n são independentes e têm uma distribuição de Poisson com parâmetro λ , então a soma T ( X ) =  X 1  + ... +  X n é uma estatística suficiente para  λ .

Para ver isso, considere a distribuição de probabilidade conjunta:

Como as observações são independentes, isso pode ser escrito como

que pode ser escrito como

o que mostra que o critério de fatoração é satisfeito, onde h ( x ) é o recíproco do produto dos fatoriais. Observe que o parâmetro λ interage com os dados apenas por meio de sua soma T ( X ).

Distribuição normal

Se forem independentes e normalmente distribuídos com valor esperado (um parâmetro) e variância finita conhecida, então

é uma estatística suficiente para

Para ver isso, considere a função de densidade de probabilidade conjunta de . Como as observações são independentes, o pdf pode ser escrito como um produto de densidades individuais, ou seja,

A densidade conjunta da amostra assume a forma exigida pelo teorema de fatoração de Fisher-Neyman, permitindo

Uma vez que não depende do parâmetro e depende apenas da função

o teorema da fatoração de Fisher-Neyman implica que é uma estatística suficiente para .

Se for desconhecido e desde então , a probabilidade acima pode ser reescrita como

O teorema da fatoração de Fisher-Neyman ainda é válido e implica que é uma estatística conjunta suficiente para .

Distribuição exponencial

Se forem independentes e exponencialmente distribuídos com valor esperado θ (um parâmetro positivo de valor real desconhecido), então é uma estatística suficiente para θ.

Para ver isso, considere a função de densidade de probabilidade conjunta de . Como as observações são independentes, o pdf pode ser escrito como um produto de densidades individuais, ou seja,

A densidade conjunta da amostra assume a forma exigida pelo teorema de fatoração de Fisher-Neyman, permitindo

Uma vez que não depende do parâmetro e depende apenas através da função

o teorema da fatoração de Fisher-Neyman implica que é uma estatística suficiente para .

Distribuição gama

Se forem independentes e distribuídos como um , onde e forem parâmetros desconhecidos de uma distribuição Gama , então é uma estatística bidimensional suficiente para .

Para ver isso, considere a função de densidade de probabilidade conjunta de . Como as observações são independentes, o pdf pode ser escrito como um produto de densidades individuais, ou seja,

A densidade conjunta da amostra assume a forma exigida pelo teorema de fatoração de Fisher-Neyman, permitindo

Uma vez que não depende do parâmetro e depende apenas através da função

o teorema de fatoração de Fisher-Neyman implica que é uma estatística suficiente para

Teorema de Rao-Blackwell

Suficiência encontra uma aplicação útil no teorema de Rao-Blackwell , que afirma que se g ( X ) é qualquer tipo de estimador de θ , então, normalmente, a expectativa condicional de g ( X ) dada estatística suficiente T ( X ) é um estimador melhor de θ , e nunca é pior. Às vezes, pode-se facilmente construir um estimador g ( X ) muito bruto e, em seguida, avaliar esse valor esperado condicional para obter um estimador que seja ótimo em vários sentidos.

Família exponencial

De acordo com o teorema de Pitman – Koopman – Darmois, entre famílias de distribuições de probabilidade cujo domínio não varia com o parâmetro sendo estimado, apenas em famílias exponenciais há uma estatística suficiente cuja dimensão permanece limitada à medida que o tamanho da amostra aumenta.

De forma menos sucinta, suponha que existam variáveis ​​aleatórias independentes distribuídas de forma idêntica, cuja distribuição é conhecida por estar em alguma família de distribuições de probabilidade com suporte fixo. Somente se essa família for uma família exponencial, haverá uma estatística suficiente (possivelmente com valor vetorial) cujo número de componentes escalares não aumenta à medida que o tamanho da amostra n aumenta.

Este teorema mostra que a suficiência (ou melhor, a existência de uma estatística suficiente com valor escalar ou vetorial de dimensão limitada) restringe drasticamente as formas possíveis da distribuição.

Outros tipos de suficiência

Suficiência bayesiana

Uma formulação alternativa da condição de que uma estatística seja suficiente, definida em um contexto Bayesiano, envolve as distribuições posteriores obtidas usando o conjunto de dados completo e usando apenas uma estatística. Assim, o requisito é que, para quase todo x ,

Mais geralmente, sem assumir um modelo paramétrico, podemos dizer que a estatística T é preditiva suficiente se

Acontece que esta "suficiência bayesiana" é uma consequência da formulação acima, porém eles não são diretamente equivalentes no caso de dimensão infinita. Uma gama de resultados teóricos para suficiência em um contexto Bayesiano está disponível.

Suficiência Linear

Um conceito denominado "suficiência linear" pode ser formulado em um contexto bayesiano e de forma mais geral. Primeiro defina o melhor preditor linear de um vetor Y com base em X as . Então, uma estatística linear T ( x ) é linear suficiente se

Veja também

Notas

Referências