Modelos de erros em variáveis - Errors-in-variables models
Parte de uma série sobre |
Análise de regressão |
---|
Modelos |
Estimativa |
Fundo |
Em estatística , os modelos de erros nas variáveis ou modelos de erro de medição são modelos de regressão que levam em consideração os erros de medição nas variáveis independentes . Em contraste, os modelos de regressão padrão assumem que esses regressores foram medidos exatamente ou observados sem erro; como tal, esses modelos são responsáveis apenas por erros nas variáveis dependentes , ou respostas.
No caso em que alguns regressores foram medidos com erros, a estimativa com base na suposição padrão leva a estimativas inconsistentes , o que significa que as estimativas dos parâmetros não tendem para os valores verdadeiros, mesmo em amostras muito grandes. Para a regressão linear simples, o efeito é uma subestimação do coeficiente, conhecido como viés de atenuação . Em modelos não lineares, a direção da tendência é provavelmente mais complicada.
Exemplo motivador
Considere um modelo de regressão linear simples do formulário
onde denota o regressor verdadeiro, mas não observado . Em vez disso, observamos esse valor com um erro:
onde o erro de medição é considerado independente do valor verdadeiro .
Se os ′ s são simplesmente regredidos nos ′ s (ver regressão linear simples ), então o estimador para o coeficiente de inclinação é
que converge conforme o tamanho da amostra aumenta sem limites:
As variâncias não são negativas, de modo que no limite a estimativa é menor em magnitude do que o valor verdadeiro de , um efeito que os estatísticos chamam de atenuação ou diluição de regressão . Assim, o estimador de mínimos quadrados 'ingênuo' é inconsistente neste cenário. No entanto, o estimador é um estimador consistente do parâmetro necessário para um melhor preditor linear de dado : em algumas aplicações, isso pode ser o que é necessário, em vez de uma estimativa do coeficiente de regressão "verdadeiro", embora isso suponha que a variância de os erros na observação permanecem corrigidos. Isso segue diretamente do resultado citado imediatamente acima, e do fato de que o coeficiente de regressão relacionando os ′ s aos ′ s realmente observados , em uma regressão linear simples, é dado por
É esse coeficiente, ao invés de , que seria necessário para construir um preditor de com base em um observado que está sujeito a ruído.
Pode-se argumentar que quase todos os conjuntos de dados existentes contêm erros de natureza e magnitude diferentes, de modo que o viés de atenuação é extremamente frequente (embora na regressão multivariada a direção do viés seja ambígua). Jerry Hausman vê isso como uma lei férrea da econometria : "A magnitude da estimativa geralmente é menor do que o esperado."
Especificação
Normalmente, os modelos de erro de medição são descritos usando a abordagem de variáveis latentes . Se for a variável de resposta e forem observados valores dos regressores, então assume-se que existem algumas variáveis latentes e que seguem a relação funcional “verdadeira” do modelo , e tais que as grandezas observadas são suas observações ruidosas:
onde é o parâmetro do modelo e são aqueles regressores que são considerados livres de erros (por exemplo, quando a regressão linear contém uma interceptação, o regressor que corresponde à constante certamente não tem "erros de medição"). Dependendo da especificação, esses regressores livres de erros podem ou não ser tratados separadamente; no último caso, é simplesmente assumido que as entradas correspondentes na matriz de variância de 's são zero.
As variáveis , , são observados , o que significa que o estatístico possui um conjunto de dados de unidades estatísticas que se seguem o processo de geração dos dados descritos acima; as variáveis latentes , , , e não são observadas no entanto.
Esta especificação não abrange todos os modelos existentes de erros em variáveis. Por exemplo, em alguns deles a função pode ser não paramétrica ou semiparamétrica. Outras abordagens modelam a relação entre e como distributiva em vez de funcional, ou seja, assumem que condicionalmente segue uma certa distribuição (geralmente paramétrica).
Terminologia e suposições
- A variável observada pode ser chamada de manifesto , indicador ou variável proxy .
- A variável não observada pode ser chamada de variável latente ou verdadeira . Pode ser considerada uma constante desconhecida (caso em que o modelo é chamado de modelo funcional ), ou uma variável aleatória (correspondentemente um modelo estrutural ).
- A relação entre o erro de medição e a variável latente pode ser modelada de diferentes maneiras:
- Erros clássicos : os erros são independentes da variável latente. Esta é a suposição mais comum, implica que os erros são introduzidos pelo dispositivo de medição e sua magnitude não depende do valor que está sendo medido.
- Independência da média : os erros são de média zero para todos os valores do regressor latente. Esta é uma suposição menos restritiva que a clássica, pois permite a presença de heterocedasticidade ou outros efeitos nos erros de medição.
- Erros de Berkson :os erros são independentes doregressor x observado . Essa suposição tem aplicabilidade muito limitada. Um exemplo são os erros de arredondamento: por exemplo, se a idade * de uma pessoaé uma variável aleatória contínua , enquanto a idade observadaé truncada para o próximo inteiro menor, então o erro de truncamento é aproximadamente independente da idade observada. Outra possibilidade é com o experimento de design fixo: por exemplo, se um cientista decide fazer uma medição em um determinado momento de tempo predeterminado, digamos em, então a medição real pode ocorrer em algum outro valor de(por exemplo, devido ao seu tempo de reação finito ) e esse erro de medição será geralmente independente do valor "observado" do regressor.
- Erros de classificação incorreta : caso especial usado para os regressores fictícios . Se for um indicador de um determinado evento ou condição (como pessoa é homem / mulher, algum tratamento médico dado / não, etc.), então o erro de medição em tal regressor corresponderá à classificação incorreta semelhante ao tipo I e tipo II erros em testes estatísticos. Neste caso, o erro pode assumir apenas 3 valores possíveis, e sua distribuição condicional é modelada com dois parâmetros:, e . A condição necessária para a identificação é que , ou seja, a classificação incorreta não deve acontecer "com muita frequência". (Esta ideia pode ser generalizada para variáveis discretas com mais de dois valores possíveis.)
Modelo linear
Os modelos de erros lineares em variáveis foram estudados primeiro, provavelmente porque os modelos lineares foram amplamente usados e são mais fáceis do que os não lineares. Ao contrário da regressão de mínimos quadrados padrão (OLS), estender os erros na regressão de variáveis (EiV) do caso simples para o caso multivariável não é simples.
Modelo linear simples
O modelo linear simples de erros em variáveis já foi apresentado na seção "motivação":
onde todas as variáveis são escalares . Aqui α e β são os parâmetros de interesse, enquanto σ ε e σ η - desvios padrão dos termos de erro - são os parâmetros incômodos . O regressor "verdadeiro" x * é tratado como uma variável aleatória ( modelo estrutural ), independente do erro de medição η ( suposição clássica ).
Este modelo é identificável em dois casos: (1) ou o regressor latente x * não é normalmente distribuído , (2) ou x * tem distribuição normal, mas nem ε t nem η t são divisíveis por uma distribuição normal. Ou seja, os parâmetros α , β podem ser estimados de forma consistente a partir do conjunto de dados sem qualquer informação adicional, desde que o regressor latente não seja gaussiano.
Antes que esse resultado de identificabilidade fosse estabelecido, os estatísticos tentaram aplicar a técnica de máxima verossimilhança assumindo que todas as variáveis eram normais, e então concluíram que o modelo não foi identificado. O remédio sugerido foi assumir que alguns dos parâmetros do modelo são conhecidos ou podem ser estimados de uma fonte externa. Esses métodos de estimativa incluem
- Regressão de Deming - assume que a razão δ = σ² ε / σ² η é conhecida. Isso pode ser apropriado, por exemplo, quando os erros em y e x são ambos causados por medições e a precisão dos dispositivos ou procedimentos de medição são conhecidos. O caso em que δ = 1 também é conhecido como regressão ortogonal .
- Regressão com razão de confiabilidade conhecida λ = σ² ∗ / ( σ² η + σ² ∗ ), onde σ² ∗ é a variância do regressor latente. Tal abordagem pode ser aplicável, por exemplo, quando medições repetidas da mesma unidade estão disponíveis, ou quando a taxa de confiabilidade é conhecida a partir do estudo independente. Nesse caso, a estimativa consistente da inclinação é igual à estimativa dos mínimos quadrados dividida por λ .
- A regressão com σ² η conhecido pode ocorrer quando a fonte dos erros em x ' s é conhecida e sua variância pode ser calculada. Isso pode incluir erros de arredondamento ou erros introduzidos pelo dispositivo de medição. Quando σ² η é conhecido, podemos calcular a razão de confiabilidade como λ = ( σ² x - σ² η ) / σ² x e reduzir o problema ao caso anterior.
Métodos de estimativa mais recentes que não pressupõem o conhecimento de alguns dos parâmetros do modelo, incluem
- Método dos momentos - o estimador GMM baseado nos cumulantes conjuntos de terceira (ou superior) ordem das variáveis observáveis. O coeficiente de inclinação pode ser estimado a partir de
onde ( n 1 , n 2 ) são tais que K ( n 1 +1, n 2 ) - o cumulante conjunto de ( x , y ) - não é zero. No caso em que o terceiro momento central do regressor latente x * é diferente de zero, a fórmula se reduz a
-
Variáveis instrumentais - uma regressão que requer que certas variáveis de dados adicionais z , chamadas instrumentos , estivessem disponíveis. Essas variáveis não devem ser correlacionadas com os erros na equação da variável dependente (resultado) ( válida ) e também devem ser correlacionadas ( relevantes ) com os verdadeiros regressores x * . Se tais variáveis puderem ser encontradas, o estimador assume a forma
Modelo linear multivariável
O modelo multivariável se parece exatamente com o modelo linear simples, só que desta vez β , η t , x t e x * t são vetores k × 1.
No caso em que ( ε t , η t ) é conjuntamente normal, o parâmetro β não é identificado se e somente se houver uma matriz de bloco k × k não singular [ a A ], onde a é um vetor k × 1 tal que a′x * é distribuído normalmente e independentemente de A′x * . No caso em que ε t , η t1 , ..., η tk são mutuamente independentes, o parâmetro β não é identificado se e somente se, além das condições acima, alguns dos erros podem ser escritos como a soma de duas variáveis independentes um dos quais é normal.
Alguns dos métodos de estimativa para modelos lineares multivariáveis são
- O total de mínimos quadrados é uma extensão da regressão de Deming para a configuração multivariável. Quando todos os componentes k +1 do vetor ( ε , η ) têm variâncias iguais e são independentes, isso é equivalente a executar a regressão ortogonal de y no vetor x - ou seja, a regressão que minimiza a soma das distâncias quadradas entre pontos ( y t , x t ) e o hiperplano k- dimensional de "melhor ajuste".
- O método de estimador de momentos pode ser construído com base nas condições de momento E [ z t · ( y t - α - β'x t )] = 0, onde o vetor (5 k +3) -dimensional dos instrumentos z t é definido como
onde designa o
produto de matrizes de Hadamard , e as variáveis x t , y t foram preliminarmente de-significadas. Os autores do método sugerem o uso do estimador IV modificado de Fuller.
Este método pode ser estendido para usar momentos mais altos do que a terceira ordem, se necessário, e para acomodar variáveis medidas sem erro. - A abordagem de variáveis instrumentais requer encontrar variáveis de dados adicionais z t que serviriam como instrumentos para os regressores mal medidos x t . Este método é o mais simples do ponto de vista de implementação, porém tem a desvantagem de exigir a coleta de dados adicionais, o que pode ser oneroso ou mesmo impossível. Quando os instrumentos podem ser encontrados, o estimador assume a forma padrão
Modelos não lineares
Um modelo genérico de erro de medição não linear toma forma
Aqui, a função g pode ser paramétrica ou não paramétrica. Quando a função g é paramétrica, ela será escrita como g (x *, β) .
Para um regressor de valor vetorial geral x *, as condições para a identificabilidade do modelo não são conhecidas. No entanto, no caso do escalar x * o modelo é identificado a menos que a função g seja da forma "log-exponencial"
e o regressor latente x * tem densidade
onde as constantes A, B, C, D, E, F podem depender de a, b, c, d .
Apesar desse resultado otimista, até o momento não existem métodos para estimar modelos de erros em variáveis não lineares sem qualquer informação estranha. No entanto, existem várias técnicas que fazem uso de alguns dados adicionais: ou as variáveis instrumentais, ou observações repetidas.
Métodos de variáveis instrumentais
-
Método de momentos simulados de Newey para modelos paramétricos - requer que haja um conjunto adicional de variáveis preditoras observadas z t , de modo que o verdadeiro regressor possa ser expresso como
onde π 0 e σ 0 são matrizes constantes (desconhecidas) e ζ t ⊥ z t . O coeficiente π 0 pode ser estimado usando regressão de mínimos quadrados padrão de x em z . A distribuição de ζ t é desconhecida, no entanto, podemos modelá-la como pertencente a uma família paramétrica flexível - a série Edgeworth :
onde ϕ é a distribuição normal padrão .
Momentos simulados podem ser calculados usando o algoritmo de amostragem de importância : primeiro geramos várias variáveis aleatórias { v ts ~ ϕ , s = 1,…, S , t = 1,…, T } a partir da distribuição normal padrão, então calculamos os momentos na t -ésima observação como
onde θ = ( β , σ , γ ), A é apenas alguma função das variáveis instrumentais z , e H é um vetor de momentos de dois componentes
Observações repetidas
Nesta abordagem, duas (ou talvez mais) observações repetidas do regressor x * estão disponíveis. Ambas as observações contêm seus próprios erros de medição, no entanto, esses erros devem ser independentes:
onde x * ⊥ η 1 ⊥ η 2 . As variáveis η 1 , η 2 não precisam ser distribuídas de forma idêntica (embora se forem a eficiência do estimador pode ser ligeiramente melhorada). Com apenas essas duas observações, é possível estimar consistentemente a função densidade de x * usando a técnica de deconvolução de Kotlarski .
-
Método de densidade condicional de Li para modelos paramétricos. A equação de regressão pode ser escrita em termos de variáveis observáveis como
onde seria possível calcular a integral se conhecêssemos a função densidade condicional ƒ x * | x . Se esta função puder ser conhecida ou estimada, então o problema se transforma em regressão não linear padrão, que pode ser estimada, por exemplo, usando o método NLLS .
Assumindo, para simplificar, que η 1 , η 2 são distribuídos de forma idêntica, esta densidade condicional pode ser calculada comoonde, com leve abuso da notação, x j denota o j -ésimo componente de um vetor.
Todas as densidades nesta fórmula podem ser estimadas usando a inversão das funções características empíricas . Em particular,Para inverter esta função característica, deve-se aplicar a transformada de Fourier inversa, com um parâmetro de corte C necessário para garantir a estabilidade numérica. Por exemplo:
-
Estimador de Schennach para um modelo paramétrico linear em parâmetros não linear em variáveis. Este é um modelo do formulário
onde w t representa variáveis medidas sem erros. O regressor x * aqui é escalar (o método pode ser estendido para o caso do vetor x * também).
Se não fosse pelos erros de medição, este teria sido um modelo linear padrão com o estimadorOnde
Acontece que todos os valores esperados nesta fórmula são estimáveis usando o mesmo truque de deconvolução. Em particular, para um observável genérico w t (que poderia ser 1, w 1 t , ..., w ℓ t ou y t ) e alguma função h (que poderia representar qualquer g j ou g i g j ), temos
onde φ h é a transformada de Fourier de h ( x * ), mas usando a mesma convenção que para as funções características ,
- ,
e
-
Estimador de Schennach para um modelo não paramétrico. O estimador Nadaraya-Watson padrão para um modelo não paramétrico toma forma
Referências
Leitura adicional
- Dougherty, Christopher (2011). "Regressores estocásticos e erros de medição" . Introdução à Econometria (Quarta ed.). Imprensa da Universidade de Oxford. pp. 300–330. ISBN 978-0-19-956708-9.
- Kmenta, Jan (1986). "Estimativa com dados deficientes" . Elements of Econometrics (segunda edição). Nova York: Macmillan. pp. 346-391 . ISBN 978-0-02-365070-3.
- Schennach, Susanne . "Erro de medição em modelos não lineares - uma revisão" . Série de papel de trabalho Cemmap . Cemmap . Recuperado em 6 de fevereiro de 2018 .