Modelos de erros em variáveis ​​- Errors-in-variables models

Em estatística , os modelos de erros nas variáveis ou modelos de erro de medição são modelos de regressão que levam em consideração os erros de medição nas variáveis ​​independentes . Em contraste, os modelos de regressão padrão assumem que esses regressores foram medidos exatamente ou observados sem erro; como tal, esses modelos são responsáveis ​​apenas por erros nas variáveis ​​dependentes , ou respostas.

Ilustração de diluição de regressão (ou viés de atenuação) por uma gama de estimativas de regressão em modelos de erros em variáveis. Duas linhas de regressão (vermelhas) limitam o intervalo de possibilidades de regressão linear. A inclinação rasa é obtida quando a variável independente (ou preditor) está na abcissa (eixo x). A inclinação mais acentuada é obtida quando a variável independente está nas ordenadas (eixo y). Por convenção, com a variável independente no eixo x, a inclinação mais rasa é obtida. As linhas de referência verdes são médias dentro de compartimentos arbitrários ao longo de cada eixo. Observe que as estimativas de regressão de verde e vermelho mais íngremes são mais consistentes com erros menores na variável do eixo y.

No caso em que alguns regressores foram medidos com erros, a estimativa com base na suposição padrão leva a estimativas inconsistentes , o que significa que as estimativas dos parâmetros não tendem para os valores verdadeiros, mesmo em amostras muito grandes. Para a regressão linear simples, o efeito é uma subestimação do coeficiente, conhecido como viés de atenuação . Em modelos não lineares, a direção da tendência é provavelmente mais complicada.

Exemplo motivador

Considere um modelo de regressão linear simples do formulário

onde denota o regressor verdadeiro, mas não observado . Em vez disso, observamos esse valor com um erro:

onde o erro de medição é considerado independente do valor verdadeiro .

Se os ′ s são simplesmente regredidos nos ′ s (ver regressão linear simples ), então o estimador para o coeficiente de inclinação é

que converge conforme o tamanho da amostra aumenta sem limites:

As variâncias não são negativas, de modo que no limite a estimativa é menor em magnitude do que o valor verdadeiro de , um efeito que os estatísticos chamam de atenuação ou diluição de regressão . Assim, o estimador de mínimos quadrados 'ingênuo' é inconsistente neste cenário. No entanto, o estimador é um estimador consistente do parâmetro necessário para um melhor preditor linear de dado : em algumas aplicações, isso pode ser o que é necessário, em vez de uma estimativa do coeficiente de regressão "verdadeiro", embora isso suponha que a variância de os erros na observação permanecem corrigidos. Isso segue diretamente do resultado citado imediatamente acima, e do fato de que o coeficiente de regressão relacionando os ′ s aos ′ s realmente observados , em uma regressão linear simples, é dado por

É esse coeficiente, ao invés de , que seria necessário para construir um preditor de com base em um observado que está sujeito a ruído.

Pode-se argumentar que quase todos os conjuntos de dados existentes contêm erros de natureza e magnitude diferentes, de modo que o viés de atenuação é extremamente frequente (embora na regressão multivariada a direção do viés seja ambígua). Jerry Hausman vê isso como uma lei férrea da econometria : "A magnitude da estimativa geralmente é menor do que o esperado."

Especificação

Normalmente, os modelos de erro de medição são descritos usando a abordagem de variáveis ​​latentes . Se for a variável de resposta e forem observados valores dos regressores, então assume-se que existem algumas variáveis ​​latentes e que seguem a relação funcional “verdadeira” do modelo , e tais que as grandezas observadas são suas observações ruidosas:

onde é o parâmetro do modelo e são aqueles regressores que são considerados livres de erros (por exemplo, quando a regressão linear contém uma interceptação, o regressor que corresponde à constante certamente não tem "erros de medição"). Dependendo da especificação, esses regressores livres de erros podem ou não ser tratados separadamente; no último caso, é simplesmente assumido que as entradas correspondentes na matriz de variância de 's são zero.

As variáveis , , são observados , o que significa que o estatístico possui um conjunto de dados de unidades estatísticas que se seguem o processo de geração dos dados descritos acima; as variáveis latentes , , , e não são observadas no entanto.

Esta especificação não abrange todos os modelos existentes de erros em variáveis. Por exemplo, em alguns deles a função pode ser não paramétrica ou semiparamétrica. Outras abordagens modelam a relação entre e como distributiva em vez de funcional, ou seja, assumem que condicionalmente segue uma certa distribuição (geralmente paramétrica).

Terminologia e suposições

  • A variável observada pode ser chamada de manifesto , indicador ou variável proxy .
  • A variável não observada pode ser chamada de variável latente ou verdadeira . Pode ser considerada uma constante desconhecida (caso em que o modelo é chamado de modelo funcional ), ou uma variável aleatória (correspondentemente um modelo estrutural ).
  • A relação entre o erro de medição e a variável latente pode ser modelada de diferentes maneiras:
    • Erros clássicos : os erros são independentes da variável latente. Esta é a suposição mais comum, implica que os erros são introduzidos pelo dispositivo de medição e sua magnitude não depende do valor que está sendo medido.
    • Independência da média : os erros são de média zero para todos os valores do regressor latente. Esta é uma suposição menos restritiva que a clássica, pois permite a presença de heterocedasticidade ou outros efeitos nos erros de medição.
    • Erros de Berkson :os erros são independentes doregressor x observado . Essa suposição tem aplicabilidade muito limitada. Um exemplo são os erros de arredondamento: por exemplo, se a idade * de uma pessoaé uma variável aleatória contínua , enquanto a idade observadaé truncada para o próximo inteiro menor, então o erro de truncamento é aproximadamente independente da idade observada. Outra possibilidade é com o experimento de design fixo: por exemplo, se um cientista decide fazer uma medição em um determinado momento de tempo predeterminado, digamos em, então a medição real pode ocorrer em algum outro valor de(por exemplo, devido ao seu tempo de reação finito ) e esse erro de medição será geralmente independente do valor "observado" do regressor.
    • Erros de classificação incorreta : caso especial usado para os regressores fictícios . Se for um indicador de um determinado evento ou condição (como pessoa é homem / mulher, algum tratamento médico dado / não, etc.), então o erro de medição em tal regressor corresponderá à classificação incorreta semelhante ao tipo I e tipo II erros em testes estatísticos. Neste caso, o erro pode assumir apenas 3 valores possíveis, e sua distribuição condicional é modelada com dois parâmetros:, e . A condição necessária para a identificação é que , ou seja, a classificação incorreta não deve acontecer "com muita frequência". (Esta ideia pode ser generalizada para variáveis ​​discretas com mais de dois valores possíveis.)

Modelo linear

Os modelos de erros lineares em variáveis ​​foram estudados primeiro, provavelmente porque os modelos lineares foram amplamente usados ​​e são mais fáceis do que os não lineares. Ao contrário da regressão de mínimos quadrados padrão (OLS), estender os erros na regressão de variáveis ​​(EiV) do caso simples para o caso multivariável não é simples.

Modelo linear simples

O modelo linear simples de erros em variáveis ​​já foi apresentado na seção "motivação":

onde todas as variáveis ​​são escalares . Aqui α e β são os parâmetros de interesse, enquanto σ ε e σ η - desvios padrão dos termos de erro - são os parâmetros incômodos . O regressor "verdadeiro" x * é tratado como uma variável aleatória ( modelo estrutural ), independente do erro de medição η ( suposição clássica ).

Este modelo é identificável em dois casos: (1) ou o regressor latente x * não é normalmente distribuído , (2) ou x * tem distribuição normal, mas nem ε t nem η t são divisíveis por uma distribuição normal. Ou seja, os parâmetros α , β podem ser estimados de forma consistente a partir do conjunto de dados sem qualquer informação adicional, desde que o regressor latente não seja gaussiano.

Antes que esse resultado de identificabilidade fosse estabelecido, os estatísticos tentaram aplicar a técnica de máxima verossimilhança assumindo que todas as variáveis ​​eram normais, e então concluíram que o modelo não foi identificado. O remédio sugerido foi assumir que alguns dos parâmetros do modelo são conhecidos ou podem ser estimados de uma fonte externa. Esses métodos de estimativa incluem

  • Regressão de Deming - assume que a razão δ = σ² ε / σ² η é conhecida. Isso pode ser apropriado, por exemplo, quando os erros em y e x são ambos causados ​​por medições e a precisão dos dispositivos ou procedimentos de medição são conhecidos. O caso em que δ = 1 também é conhecido como regressão ortogonal .
  • Regressão com razão de confiabilidade conhecida λ = σ² / ( σ² η + σ² ), onde σ² é a variância do regressor latente. Tal abordagem pode ser aplicável, por exemplo, quando medições repetidas da mesma unidade estão disponíveis, ou quando a taxa de confiabilidade é conhecida a partir do estudo independente. Nesse caso, a estimativa consistente da inclinação é igual à estimativa dos mínimos quadrados dividida por λ .
  • A regressão com σ² η conhecido pode ocorrer quando a fonte dos erros em x ' s é conhecida e sua variância pode ser calculada. Isso pode incluir erros de arredondamento ou erros introduzidos pelo dispositivo de medição. Quando σ² η é conhecido, podemos calcular a razão de confiabilidade como λ = ( σ² x - σ² η ) / σ² x e reduzir o problema ao caso anterior.

Métodos de estimativa mais recentes que não pressupõem o conhecimento de alguns dos parâmetros do modelo, incluem

  • Método dos momentos - o estimador GMM baseado nos cumulantes conjuntos de terceira (ou superior) ordem das variáveis ​​observáveis. O coeficiente de inclinação pode ser estimado a partir de

    onde ( n 1 , n 2 ) são tais que K ( n 1 +1, n 2 ) - o cumulante conjunto de ( x , y ) - não é zero. No caso em que o terceiro momento central do regressor latente x * é diferente de zero, a fórmula se reduz a

  • Variáveis ​​instrumentais - uma regressão que requer que certas variáveis ​​de dados adicionais z , chamadas instrumentos , estivessem disponíveis. Essas variáveis ​​não devem ser correlacionadas com os erros na equação da variável dependente (resultado) ( válida ) e também devem ser correlacionadas ( relevantes ) com os verdadeiros regressores x * . Se tais variáveis ​​puderem ser encontradas, o estimador assume a forma

Modelo linear multivariável

O modelo multivariável se parece exatamente com o modelo linear simples, só que desta vez β , η t , x t e x * t são vetores k × 1.

No caso em que ( ε t , η t ) é conjuntamente normal, o parâmetro β não é identificado se e somente se houver uma matriz de bloco k × k não singular  [ a A ], onde a é um vetor k × 1 tal que a′x *  é distribuído normalmente e independentemente de  A′x * . No caso em que ε t , η t1 , ..., η tk são mutuamente independentes, o parâmetro  β  não é identificado se e somente se, além das condições acima, alguns dos erros podem ser escritos como a soma de duas variáveis ​​independentes um dos quais é normal.

Alguns dos métodos de estimativa para modelos lineares multivariáveis ​​são

  • O total de mínimos quadrados é uma extensão da regressão de Deming para a configuração multivariável. Quando todos os componentes k +1 do vetor ( ε , η ) têm variâncias iguais e são independentes, isso é equivalente a executar a regressão ortogonal de y no vetor x - ou seja, a regressão que minimiza a soma das distâncias quadradas entre pontos ( y t , x t ) e o hiperplano k- dimensional de "melhor ajuste".
  • O método de estimador de momentos pode ser construído com base nas condições de momento E [ z t · ( y t - α - β'x t )] = 0, onde o vetor (5 k +3) -dimensional dos instrumentos z t é definido como

    onde designa o

    produto de matrizes de Hadamard , e as variáveis x t , y t foram preliminarmente de-significadas. Os autores do método sugerem o uso do estimador IV modificado de Fuller.
    Este método pode ser estendido para usar momentos mais altos do que a terceira ordem, se necessário, e para acomodar variáveis ​​medidas sem erro.
  • A abordagem de variáveis ​​instrumentais requer encontrar variáveis ​​de dados adicionais z t que serviriam como instrumentos para os regressores mal medidos x t . Este método é o mais simples do ponto de vista de implementação, porém tem a desvantagem de exigir a coleta de dados adicionais, o que pode ser oneroso ou mesmo impossível. Quando os instrumentos podem ser encontrados, o estimador assume a forma padrão

Modelos não lineares

Um modelo genérico de erro de medição não linear toma forma

Aqui, a função g pode ser paramétrica ou não paramétrica. Quando a função g é paramétrica, ela será escrita como g (x *, β) .

Para um regressor de valor vetorial geral x *, as condições para a identificabilidade do modelo não são conhecidas. No entanto, no caso do escalar x * o modelo é identificado a menos que a função g seja da forma "log-exponencial"

e o regressor latente x * tem densidade

onde as constantes A, B, C, D, E, F podem depender de a, b, c, d .

Apesar desse resultado otimista, até o momento não existem métodos para estimar modelos de erros em variáveis ​​não lineares sem qualquer informação estranha. No entanto, existem várias técnicas que fazem uso de alguns dados adicionais: ou as variáveis ​​instrumentais, ou observações repetidas.

Métodos de variáveis ​​instrumentais

  • Método de momentos simulados de Newey para modelos paramétricos - requer que haja um conjunto adicional de variáveis ​​preditoras observadas z t , de modo que o verdadeiro regressor possa ser expresso como

    onde π 0 e σ 0 são matrizes constantes (desconhecidas) e ζ tz t . O coeficiente π 0 pode ser estimado usando regressão de mínimos quadrados padrão de x em z . A distribuição de ζ t é desconhecida, no entanto, podemos modelá-la como pertencente a uma família paramétrica flexível - a série Edgeworth :

    onde ϕ é a distribuição normal padrão .

    Momentos simulados podem ser calculados usando o algoritmo de amostragem de importância : primeiro geramos várias variáveis ​​aleatórias { v ts ~ ϕ , s = 1,…, S , t = 1,…, T } a partir da distribuição normal padrão, então calculamos os momentos na t -ésima observação como

    onde θ = ( β , σ , γ ), A é apenas alguma função das variáveis ​​instrumentais z , e H é um vetor de momentos de dois componentes

    Com funções de momento m t, pode-se aplicar a técnica GMM padrão para estimar o parâmetro desconhecido θ .

Observações repetidas

Nesta abordagem, duas (ou talvez mais) observações repetidas do regressor x * estão disponíveis. Ambas as observações contêm seus próprios erros de medição, no entanto, esses erros devem ser independentes:

onde x *η 1η 2 . As variáveis η 1 , η 2 não precisam ser distribuídas de forma idêntica (embora se forem a eficiência do estimador pode ser ligeiramente melhorada). Com apenas essas duas observações, é possível estimar consistentemente a função densidade de x * usando a técnica de deconvolução de Kotlarski .

  • Método de densidade condicional de Li para modelos paramétricos. A equação de regressão pode ser escrita em termos de variáveis ​​observáveis ​​como

    onde seria possível calcular a integral se conhecêssemos a função densidade condicional ƒ x * | x . Se esta função puder ser conhecida ou estimada, então o problema se transforma em regressão não linear padrão, que pode ser estimada, por exemplo, usando o método NLLS .
    Assumindo, para simplificar, que η 1 , η 2 são distribuídos de forma idêntica, esta densidade condicional pode ser calculada como

    onde, com leve abuso da notação, x j denota o j -ésimo componente de um vetor.
    Todas as densidades nesta fórmula podem ser estimadas usando a inversão das funções características empíricas . Em particular,

    Para inverter esta função característica, deve-se aplicar a transformada de Fourier inversa, com um parâmetro de corte C necessário para garantir a estabilidade numérica. Por exemplo:

  • Estimador de Schennach para um modelo paramétrico linear em parâmetros não linear em variáveis. Este é um modelo do formulário

    onde w t representa variáveis ​​medidas sem erros. O regressor x * aqui é escalar (o método pode ser estendido para o caso do vetor x * também).
    Se não fosse pelos erros de medição, este teria sido um modelo linear padrão com o estimador

    Onde

    Acontece que todos os valores esperados nesta fórmula são estimáveis ​​usando o mesmo truque de deconvolução. Em particular, para um observável genérico w t (que poderia ser 1, w 1 t , ..., w ℓ t ou y t ) e alguma função h (que poderia representar qualquer g j ou g i g j ), temos

    onde φ h é a transformada de Fourier de h ( x * ), mas usando a mesma convenção que para as funções características ,

    ,

    e

    O estimador resultante é consistente e assintoticamente normal.
  • Estimador de Schennach para um modelo não paramétrico. O estimador Nadaraya-Watson padrão para um modelo não paramétrico toma forma
    para uma escolha adequada do kernel K e da largura de banda h . Ambas as expectativas aqui podem ser estimadas usando a mesma técnica do método anterior.

Referências

Leitura adicional

links externos