Correção de Heckman - Heckman correction

A correção de Heckman é uma técnica estatística para corrigir o viés de amostras selecionadas não aleatoriamente ou de outras variáveis dependentes truncadas incidentalmente , um problema generalizado nas ciências sociais quantitativas ao usar dados observacionais . Conceitualmente, isso é obtido modelando explicitamente a probabilidade de amostragem individual de cada observação (a chamada equação de seleção) junto com a expectativa condicional da variável dependente (a chamada equação de resultado). A função de verossimilhança resultante é matematicamente semelhante ao modelo tobit para variáveis dependentes censuradas , uma conexão desenhada pela primeira vez por James Heckman em 1974. Heckman também desenvolveu uma abordagem de função de controle de duas etapas para estimar este modelo, o que evita a carga computacional de ter que estimar ambas as equações em conjunto , embora à custa da ineficiência . Heckman recebeu o Prêmio Nobel Memorial de Ciências Econômicas em 2000 por seu trabalho neste campo.

Método

As análises estatísticas baseadas em amostras selecionadas não aleatoriamente podem levar a conclusões errôneas. A correção de Heckman, uma abordagem estatística de duas etapas, oferece um meio de correção de amostras selecionadas não aleatoriamente.

Heckman discutiu o preconceito do uso de amostras selecionadas não aleatórias para estimar relações comportamentais como um erro de especificação. Ele sugere um método de estimativa de dois estágios para corrigir o viés. A correção usa uma ideia de função de controle e é fácil de implementar. A correção de Heckman envolve uma suposição de normalidade , fornece um teste para o viés de seleção da amostra e uma fórmula para o modelo corrigido do viés.

Suponha que um pesquisador queira estimar os determinantes das ofertas salariais, mas tenha acesso às observações salariais apenas para aqueles que trabalham. Uma vez que as pessoas que trabalham são selecionadas de forma não aleatória da população, estimar os determinantes dos salários da subpopulação que trabalham pode introduzir viés. A correção de Heckman ocorre em duas etapas.

Na primeira etapa, o pesquisador formula um modelo, baseado na teoria econômica , para a probabilidade de trabalho. A especificação canônica para este relacionamento é uma regressão probit da forma

{\ displaystyle \ operatorname {Prob} (D = 1 | Z) = \ Phi (Z \ gamma),}

onde D indica emprego ( D = 1 se o respondente está empregado e D = 0 caso contrário), Z é um vetor de variáveis explicativas, é um vetor de parâmetros desconhecidos e Φ é a função de distribuição cumulativa da distribuição normal padrão . A estimativa do modelo produz resultados que podem ser usados para prever essa probabilidade de emprego para cada indivíduo. ${\ displaystyle \ gamma}$

No segundo estágio, o pesquisador corrige a autosseleção incorporando uma transformação dessas probabilidades individuais previstas como uma variável explicativa adicional. A equação salarial pode ser especificada,

{\ displaystyle w ^ {*} = X \ beta + u}

onde denota uma oferta salarial subjacente, que não é observada se o respondente não trabalhar. A expectativa condicional de salários dado que a pessoa trabalha é então ${\ displaystyle w ^ {*}}$

{\ displaystyle E [w | X, D = 1] = X \ beta + E [u | X, D = 1].}

Partindo do pressuposto de que os termos de erro são normais em conjunto , temos

{\ displaystyle E [w | X, D = 1] = X \ beta + \ rho \ sigma _ {u} \ lambda (Z \ gamma),}

onde ρ é a correlação entre determinantes não observados da propensão para trabalhar e determinantes não observados das ofertas salariais u , σ _u é o desvio padrão de , e é o rácio de Mills inverso avaliado em . Essa equação demonstra o insight de Heckman de que a seleção da amostra pode ser vista como uma forma de viés de variáveis omitidas , como condicional em X e nele é como se a amostra fosse selecionada aleatoriamente. A equação salarial pode ser estimada substituindo-se pelas estimativas Probit do primeiro estágio, construindo o termo e incluindo-o como uma variável explicativa adicional na estimativa de regressão linear da equação salarial. Uma vez que , o coeficiente ativado só pode ser zero se , portanto, testar o nulo em que o coeficiente ativado é zero é equivalente a testar a seletividade da amostra. ${\ displaystyle \ varepsilon}$ ${\ displaystyle u}$ ${\ displaystyle \ lambda}$ ${\ displaystyle Z \ gamma}$ ${\ displaystyle \ lambda}$ ${\ displaystyle \ gamma}$ ${\ displaystyle \ lambda}$ ${\ displaystyle \ sigma _ {u}> 0}$ ${\ displaystyle \ lambda}$ ${\ displaystyle \ rho = 0}$ ${\ displaystyle \ lambda}$

As realizações de Heckman geraram um grande número de aplicações empíricas na economia, bem como em outras ciências sociais. O método original foi posteriormente generalizado, por Heckman e por outros.

Inferência estatística

A correção de Heckman é um estimador M de duas etapas em que a matriz de covariância gerada pela estimativa OLS da segunda etapa é inconsistente. Erros padrão corretos e outras estatísticas podem ser gerados a partir de uma aproximação assintótica ou por reamostragem, como por meio de um bootstrap .

Desvantagens

O estimador de duas etapas discutido acima é um estimador de máxima verossimilhança de informações limitadas (LIML). Na teoria assintótica e em amostras finitas, conforme demonstrado por simulações de Monte Carlo, o estimador de informações completas (FIML) exibe melhores propriedades estatísticas. No entanto, o estimador FIML é mais difícil de implementar computacionalmente.
O modelo canônico assume que os erros são normais em conjunto. Se essa suposição falhar, o estimador é geralmente inconsistente e pode fornecer inferência enganosa em pequenas amostras. Alternativas semiparamétricas e outras alternativas robustas podem ser usadas em tais casos.
O modelo obtém identificação formal a partir do pressuposto de normalidade quando as mesmas covariáveis aparecem na equação de seleção e na equação de interesse, mas a identificação será tênue, a menos que haja muitas observações nas caudas onde há não linearidade substancial na razão de Mills inversa. Geralmente, uma restrição de exclusão é necessária para gerar estimativas confiáveis: deve haver pelo menos uma variável que aparece com um coeficiente diferente de zero na equação de seleção, mas não aparece na equação de interesse, essencialmente um instrumento . Se nenhuma variável estiver disponível, pode ser difícil corrigir a seletividade da amostragem.

Implementações em pacotes de estatísticas

R : Os procedimentos do tipo Heckman estão disponíveis como parte do sampleSelection pacote.
Stata : o comando heckman fornece o modelo de seleção de Heckman.

Veja também

Referências

Leitura adicional

Achen, Christopher H. (1986). "Estimating Treatment Effects in Quasi-Experiments: The Case of Censored Data" . The Statistical Analysis of Quasi-Experiments . Berkeley: University of California Press. pp. 97–137. ISBN 0-520-04723-0 .
Breen, Richard (1996). Modelos de regressão: dados censurados, selecionados de amostra ou truncados . Thousand Oaks: Sage. pp. 33–48. ISBN 0-8039-5710-6 .
Fu, Vincent Kang; Winship, Christopher ; Mare, Robert D. (2004). "Modelos de polarização de seleção de amostra". Em Hardy, Melissa; Bryman, Alan (eds.). Manual de análise de dados . Londres: Sage. pp. 409–430. doi : 10.4135 / 9781848608184.n18 . ISBN 0-7619-6652-8 .
Greene, William H. (2012). "Truncamento incidental e seleção de amostra". Econometric Analysis (Sétima ed.). Boston: Pearson. pp. 912–27. ISBN 978-0-273-75356-8 .
Vella, Francis (1998). "Modelos de estimativa com viés de seleção de amostra: uma pesquisa". Jornal de Recursos Humanos . 33 (1): 127–169. doi : 10.2307 / 146317 . JSTOR 146317 .

links externos

Fatos do Prêmio Nobel de Heckman.

Languages

In other projects