Teoria da estimativa - Estimation theory

A teoria da estimativa é um ramo da estatística que trata da estimativa dos valores dos parâmetros com base em dados empíricos medidos que possuem um componente aleatório. Os parâmetros descrevem uma configuração física subjacente de tal forma que seu valor afeta a distribuição dos dados medidos. Um estimador tenta aproximar os parâmetros desconhecidos usando as medições. Leia em teoria de estimativa, duas abordagens são geralmente consideradas.

A abordagem probabilística (descrita neste artigo) assume que os dados medidos são aleatórios com distribuição de probabilidade dependente dos parâmetros de interesse
A abordagem de associação de conjunto assume que o vetor de dados medido pertence a um conjunto que depende do vetor de parâmetro.

Exemplos

Por exemplo, deseja-se estimar a proporção de uma população de eleitores que votará em um determinado candidato. Essa proporção é o parâmetro procurado; a estimativa é baseada em uma pequena amostra aleatória de eleitores. Como alternativa, deseja-se estimar a probabilidade de um eleitor votar em um determinado candidato, com base em algumas características demográficas, como a idade.

Ou, por exemplo, no radar o objetivo é encontrar a gama de objetos (aviões, barcos, etc.), analisando o tempo de trânsito bidirecional de ecos recebidos de pulsos transmitidos. Como os pulsos refletidos são inevitavelmente incorporados ao ruído elétrico, seus valores medidos são distribuídos aleatoriamente, de modo que o tempo de trânsito deve ser estimado.

Como outro exemplo, na teoria da comunicação elétrica, as medições que contêm informações sobre os parâmetros de interesse são frequentemente associadas a um sinal ruidoso .

Fundamentos

Para um determinado modelo, vários "ingredientes" estatísticos são necessários para que o estimador possa ser implementado. O primeiro é uma amostra estatística - um conjunto de pontos de dados tomados a partir de um vector aleatório (RV) de tamanho N . Colocado em um vetor ,

{\ displaystyle \ mathbf {x} = {\ begin {bmatrix} x [0] \\ x [1] \\\ vdots \\ x [N-1] \ end {bmatrix}}.}

Em segundo lugar, existem parâmetros M

{\ displaystyle \ mathbf {\ theta} = {\ begin {bmatrix} \ theta _ {1} \\\ theta _ {2} \\\ vdots \\\ theta _ {M} \ end {bmatrix}},}

cujos valores devem ser estimados. Terceiro, a função de densidade de probabilidade contínua (pdf) ou sua contraparte discreta, a função de massa de probabilidade (pmf), da distribuição subjacente que gerou os dados deve ser declarada condicional aos valores dos parâmetros:

{\ displaystyle p (\ mathbf {x} | \ mathbf {\ theta}). \,}

Também é possível que os próprios parâmetros tenham uma distribuição de probabilidade (por exemplo, estatísticas Bayesianas ). É então necessário definir a probabilidade bayesiana

{\ displaystyle \ pi (\ mathbf {\ theta}). \,}

Após a formação do modelo, o objetivo é estimar os parâmetros, com as estimativas comumente denotadas , onde o "chapéu" indica a estimativa. ${\ displaystyle {\ hat {\ mathbf {\ theta}}}}$

Um estimador comum é o estimador de erro quadrático médio mínimo (MMSE), que utiliza o erro entre os parâmetros estimados e o valor real dos parâmetros

{\ displaystyle \ mathbf {e} = {\ hat {\ mathbf {\ theta}}} - \ mathbf {\ theta}}

como base para a otimização. Esse termo de erro é então elevado ao quadrado e o valor esperado desse valor ao quadrado é minimizado para o estimador MMSE.

Estimadores

Estimadores comumente usados (métodos de estimativa) e tópicos relacionados a eles incluem:

Estimadores de máxima verossimilhança
Estimadores bayes
Estimadores do método dos momentos
Com destino a Cramér – Rao
Mínimos quadrados
Erro quadrático médio mínimo (MMSE), também conhecido como erro quadrático mínimo de Bayes (BLSE)
Máximo a posteriori (MAP)
Estimador imparcial de variância mínima (MVUE)
Identificação de sistema não linear
Melhor estimador linear imparcial (AZUL)
Estimadores não tendenciosos - veja o viés do estimador .
Filtro de partícula
Cadeia de Markov Monte Carlo (MCMC)
Filtro de Kalman e seus vários derivados
Filtro Wiener

Exemplos

Constante desconhecida no ruído gaussiano branco aditivo

Considere um recebeu sinal discreto , , de independentes amostras que consiste de uma constante desconhecida com ruído aditivo gaussiano branco (AWGN) com de zero significativo e conhecido variância ( ou seja , ). Como a variação é conhecida, o único parâmetro desconhecido é . ${\ displaystyle x [n]}$ ${\ displaystyle N}$ ${\ displaystyle A}$ ${\ displaystyle w [n]}$ ${\ displaystyle \ sigma ^ {2}}$ ${\ displaystyle {\ mathcal {N}} (0, \ sigma ^ {2})}$ ${\ displaystyle A}$

O modelo para o sinal é então

{\ displaystyle x [n] = A + w [n] \ quad n = 0,1, \ pontos, N-1}

Dois estimadores possíveis (de muitos) para o parâmetro são: ${\ displaystyle A}$

${\ displaystyle {\ hat {A}} _ {1} = x [0]}$
${\ displaystyle {\ hat {A}} _ {2} = {\ frac {1} {N}} \ sum _ {n = 0} ^ {N-1} x [n]}$ qual é a média da amostra

Ambos os estimadores têm uma média de , que pode ser mostrada tomando o valor esperado de cada estimador ${\ displaystyle A}$

{\ displaystyle \ mathrm {E} \ left [{\ hat {A}} _ {1} \ right] = \ mathrm {E} \ left [x [0] \ right] = A}

e

{\ displaystyle \ mathrm {E} \ left [{\ hat {A}} _ {2} \ right] = \ mathrm {E} \ left [{\ frac {1} {N}} \ sum _ {n = 0} ^ {N-1} x [n] \ right] = {\ frac {1} {N}} \ left [\ sum _ {n = 0} ^ {N-1} \ mathrm {E} \ left [x [n] \ direita] \ direita] = {\ frac {1} {N}} \ esquerda [NA \ direita] = A}

Nesse ponto, esses dois estimadores parecem ter o mesmo desempenho. No entanto, a diferença entre eles torna-se aparente ao comparar as variâncias.

{\ displaystyle \ mathrm {var} \ left ({\ hat {A}} _ {1} \ right) = \ mathrm {var} \ left (x [0] \ right) = \ sigma ^ {2}}

e

{\ displaystyle \ mathrm {var} \ left ({\ hat {A}} _ {2} \ right) = \ mathrm {var} \ left ({\ frac {1} {N}} \ sum _ {n = 0} ^ {N-1} x [n] \ right) {\ overset {\ text {independência}} {=}} {\ frac {1} {N ^ {2}}} \ left [\ sum _ { n = 0} ^ {N-1} \ mathrm {var} (x [n]) \ right] = {\ frac {1} {N ^ {2}}} \ left [N \ sigma ^ {2} \ direita] = {\ frac {\ sigma ^ {2}} {N}}}

Parece que a média da amostra é um estimador melhor, pois sua variância é menor para cada N > 1.

Máxima probabilidade

Continuando o exemplo usando o estimador de máxima verossimilhança , a função de densidade de probabilidade (pdf) do ruído para uma amostra é ${\ displaystyle w [n]}$

{\ displaystyle p (w [n]) = {\ frac {1} {\ sigma {\ sqrt {2 \ pi}}}} \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2 }}} w [n] ^ {2} \ right)}

e a probabilidade de se tornar ( pode-se pensar em a ) ${\ displaystyle x [n]}$ ${\ displaystyle x [n]}$ ${\ displaystyle {\ mathcal {N}} (A, \ sigma ^ {2})}$

{\ displaystyle p (x [n]; A) = {\ frac {1} {\ sigma {\ sqrt {2 \ pi}}}} \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} (x [n] -A) ^ {2} \ direita)}

Por independência , a probabilidade de se tornar ${\ displaystyle \ mathbf {x}}$

{\ displaystyle p (\ mathbf {x}; A) = \ prod _ {n = 0} ^ {N-1} p (x [n]; A) = {\ frac {1} {\ left (\ sigma {\ sqrt {2 \ pi}} \ right) ^ {N}}} \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} \ sum _ {n = 0} ^ { N-1} (x [n] -A) ^ {2} \ direita)}

Pegando o logaritmo natural do pdf

{\ displaystyle \ ln p (\ mathbf {x}; A) = - N \ ln \ left (\ sigma {\ sqrt {2 \ pi}} \ right) - {\ frac {1} {2 \ sigma ^ { 2}}} \ sum _ {n = 0} ^ {N-1} (x [n] -A) ^ {2}}

e o estimador de máxima verossimilhança é

{\ displaystyle {\ hat {A}} = \ arg \ max \ ln p (\ mathbf {x}; A)}

Pegando a primeira derivada da função de log-verossimilhança

{\ displaystyle {\ frac {\ partial} {\ partial A}} \ ln p (\ mathbf {x}; A) = {\ frac {1} {\ sigma ^ {2}}} \ left [\ sum _ {n = 0} ^ {N-1} (x [n] -A) \ right] = {\ frac {1} {\ sigma ^ {2}}} \ left [\ sum _ {n = 0} ^ {N-1} x [n] -NA \ direita]}

e definindo-o para zero

{\ displaystyle 0 = {\ frac {1} {\ sigma ^ {2}}} \ left [\ sum _ {n = 0} ^ {N-1} x [n] -NA \ right] = \ sum _ {n = 0} ^ {N-1} x [n] -NA}

Isso resulta no estimador de máxima verossimilhança

{\ displaystyle {\ hat {A}} = {\ frac {1} {N}} \ sum _ {n = 0} ^ {N-1} x [n]}

que é simplesmente a média da amostra. A partir deste exemplo, descobriu-se que a média da amostra é o estimador de máxima verossimilhança para amostras de um parâmetro fixo desconhecido corrompido por AWGN. ${\ displaystyle N}$

Limite inferior de Cramér – Rao

Para encontrar o limite inferior de Cramér-Rao (CRLB) do estimador médio da amostra, é primeiro necessário encontrar o número de informação de Fisher

{\ displaystyle {\ mathcal {I}} (A) = \ mathrm {E} \ left (\ left [{\ frac {\ partial} {\ partial A}} \ ln p (\ mathbf {x}; A) \ right] ^ {2} \ right) = - \ mathrm {E} \ left [{\ frac {\ partial ^ {2}} {\ partial A ^ {2}}} \ ln p (\ mathbf {x} ;Corretamente]}

e copiando de cima

{\ displaystyle {\ frac {\ partial} {\ partial A}} \ ln p (\ mathbf {x}; A) = {\ frac {1} {\ sigma ^ {2}}} \ left [\ sum _ {n = 0} ^ {N-1} x [n] -NA \ direita]}

Pegando a segunda derivada

{\ displaystyle {\ frac {\ partial ^ {2}} {\ partial A ^ {2}}} \ ln p (\ mathbf {x}; A) = {\ frac {1} {\ sigma ^ {2} }} (- N) = {\ frac {-N} {\ sigma ^ {2}}}}

e encontrar o valor esperado negativo é trivial, pois agora é uma constante determinística ${\ displaystyle - \ mathrm {E} \ left [{\ frac {\ partial ^ {2}} {\ partial A ^ {2}}} \ ln p (\ mathbf {x}; A) \ right] = { \ frac {N} {\ sigma ^ {2}}}}$

Finalmente, colocar as informações de Fisher em

{\ displaystyle \ mathrm {var} \ left ({\ hat {A}} \ right) \ geq {\ frac {1} {\ mathcal {I}}}}

resulta em

{\ displaystyle \ mathrm {var} \ left ({\ hat {A}} \ right) \ geq {\ frac {\ sigma ^ {2}} {N}}}

A comparação com a variância da média da amostra (determinada anteriormente) mostra que a média da amostra é igual ao limite inferior de Cramér-Rao para todos os valores de e . Em outras palavras, a média da amostra é o estimador eficiente (necessariamente único) e, portanto, também o estimador não enviesado de variância mínima (MVUE), além de ser o estimador de máxima verossimilhança . ${\ displaystyle N}$ ${\ displaystyle A}$

Máximo de uma distribuição uniforme

Um dos exemplos não triviais mais simples de estimativa é a estimativa do máximo de uma distribuição uniforme. É usado como um exercício prático em sala de aula e para ilustrar os princípios básicos da teoria da estimativa. Além disso, no caso de estimativa com base em uma única amostra, demonstra questões filosóficas e possíveis mal-entendidos no uso de estimadores de máxima verossimilhança e funções de verossimilhança .

Dada uma distribuição uniforme discreta com máximo desconhecido, o estimador UMVU para o máximo é dado por ${\ displaystyle 1,2, \ dots, N}$

{\ displaystyle {\ frac {k + 1} {k}} m-1 = m + {\ frac {m} {k}} - 1}

onde m é o máximo da amostra e k é o tamanho da amostra , a amostragem, sem reposição. Este problema é comumente conhecido como o problema dos tanques alemães , devido à aplicação da estimativa máxima às estimativas da produção de tanques alemães durante a Segunda Guerra Mundial .

A fórmula pode ser entendida intuitivamente como;

"O máximo da amostra mais a lacuna média entre as observações na amostra",

a lacuna sendo adicionada para compensar o viés negativo do máximo da amostra como um estimador para o máximo da população.

Isso tem uma variação de

{\ displaystyle {\ frac {1} {k}} {\ frac {(Nk) (N + 1)} {(k + 2)}} \ approx {\ frac {N ^ {2}} {k ^ { 2}}} {\ text {para pequenas amostras}} k \ ll N}

portanto, um desvio padrão de aproximadamente , o tamanho médio (da população) de uma lacuna entre as amostras; compare acima. Isso pode ser visto como um caso muito simples de estimativa de espaçamento máximo . ${\ displaystyle N / k}$ ${\ displaystyle {\ frac {m} {k}}}$

O máximo da amostra é o estimador de máxima verossimilhança para o máximo da população, mas, como discutido acima, é enviesado.

Formulários

Numerosos campos requerem o uso da teoria da estimativa. Alguns desses campos incluem:

Interpretação de experimentos científicos
Processamento de sinal
Testes clínicos
Pesquisas de opinião
Controle de qualidade
Telecomunicações
Gerenciamento de Projetos
Engenharia de software
Teoria de controle (em particular controle adaptativo )
Sistema de detecção de intrusão de rede
Determinação da órbita

É provável que os dados medidos estejam sujeitos a ruído ou incerteza e é por meio da probabilidade estatística que as soluções ideais são buscadas para extrair o máximo possível de informações dos dados.

Veja também

Notas

Referências

Citações

Fontes

Teoria da estimativa de pontos por EL Lehmann e G. Casella. ( ISBN 0387985026 )
Engenharia de Custos de Sistemas por Dale Shermon. ( ISBN 978-0-566-08861-2 )
Estatística Matemática e Análise de Dados por John Rice. ( ISBN 0-534-209343 )
Fundamentos de Processamento Estatístico de Sinais: Teoria de Estimativa de Steven M. Kay ( ISBN 0-13-345711-7 )
Uma introdução à detecção e estimativa de sinais por H. Vincent Poor ( ISBN 0-387-94173-8 )
Teoria de detecção, estimativa e modulação, parte 1 por Harry L. Van Trees ( ISBN 0-471-09517-6 ; website )
Estimativa de estado ótimo: Kalman, H-infinito e abordagens não lineares do site Dan Simon
Ali H. Sayed , Adaptive Filters, Wiley, NJ, 2008, ISBN 978-0-470-25388-5 .
Ali H. Sayed , Fundamentals of Adaptive Filtering, Wiley, NJ, 2003, ISBN 0-471-46126-1 .
Thomas Kailath , Ali H. Sayed e Babak Hassibi , Linear Estimation, Prentice-Hall, NJ, 2000, ISBN 978-0-13-022464-4 .
Babak Hassibi , Ali H. Sayed e Thomas Kailath , Indefinite Quadratic Estimation and Control: A Unified Approach to H ² and H Theories, Society for Industrial & Applied Mathematics (SIAM), PA, 1999, ISBN 978-0-89871-411 -1 .^{${\ displaystyle \ infty}$}
VGVoinov, MSNikulin, "Unbised estimators and their applications. Vol.1: Univariate case", Kluwer Academic Publishers, 1993, ISBN 0-7923-2382-3 .
VGVoinov, MSNikulin, "Unbised estimators and their applications. Vol.2: Multivariate case", Kluwer Academic Publishers, 1996, ISBN 0-7923-3939-8 .

links externos

Mídia relacionada à teoria da estimativa no Wikimedia Commons

Languages

In other projects

Teoria da estimativa - Estimation theory

Conteúdo

Exemplos

Fundamentos

Estimadores

Exemplos

Constante desconhecida no ruído gaussiano branco aditivo

Máxima probabilidade

Limite inferior de Cramér – Rao

Máximo de uma distribuição uniforme

Formulários

Veja também

Notas

Referências

Citações

Fontes

links externos