Modelo Probit - Probit model

Em estatística , um modelo probit é um tipo de regressão em que a variável dependente pode assumir apenas dois valores, por exemplo casado ou não casado. A palavra é uma maleta , vindo de prov capacidade + un -lo . O objetivo do modelo é estimar a probabilidade de que uma observação com características particulares caia em uma das categorias específicas; além disso, classificar observações com base em suas probabilidades previstas é um tipo de modelo de classificação binário .

Um modelo probit é uma especificação popular para um modelo de resposta binária . Como tal, trata o mesmo conjunto de problemas que a regressão logística usando técnicas semelhantes. Quando visualizado na estrutura do modelo linear generalizado , o modelo probit emprega uma função de ligação probit . É mais frequentemente estimado usando o procedimento de máxima verossimilhança , tal estimativa sendo chamada de regressão probit .

Estrutura conceitual

Suponha que uma variável de resposta Y seja binária , ou seja, pode ter apenas dois resultados possíveis que denotaremos como 1 e 0. Por exemplo, Y pode representar a presença / ausência de uma determinada condição, sucesso / falha de algum dispositivo, responda sim / não de um levantamento, etc. que também têm um vector de regressores X , os quais são assumidos para influenciar o resultado Y . Especificamente, assumimos que o modelo assume a forma

onde Pr denota probabilidade e Φ é a Função de Distribuição Cumulativa ( CDF ) da distribuição normal padrão . Os parâmetros β são normalmente estimados por máxima verossimilhança .

É possível motivar o modelo probit como um modelo de variável latente . Suponha que exista uma variável aleatória auxiliar

onde ε ~ N (0, 1). Então, Y pode ser visto como um indicador para saber se esta variável latente é positiva:

O uso da distribuição normal padrão não causa perda de generalidade em comparação com o uso de uma distribuição normal com uma média e desvio padrão arbitrários, porque adicionar um valor fixo à média pode ser compensado subtraindo o mesmo valor da interceptação e multiplicando o desvio padrão por um valor fixo pode ser compensado multiplicando os pesos pelo mesmo valor.

Para ver que os dois modelos são equivalentes, observe que

Estimativa de modelo

Estimativa de máxima verossimilhança

Suponha que o conjunto de dados contenha n unidades estatísticas independentes correspondentes ao modelo acima.

Para a observação única, condicionada ao vetor de entradas dessa observação, temos:

onde é um vetor de entradas e é um vetor de coeficientes.

A probabilidade de uma única observação é então

Na verdade, se , então , e se , então .

Uma vez que as observações são independentes e distribuídas de forma idêntica, a probabilidade de toda a amostra, ou a probabilidade conjunta , será igual ao produto das probabilidades das observações únicas:

A função de verossimilhança conjunta é, portanto,

O estimador que maximiza esta função será consistente , assintoticamente normal e eficiente desde que E [ XX ' ] exista e não seja singular. Pode-se mostrar que esta função log-verossimilhança é globalmente côncava em β e, portanto, algoritmos numéricos padrão para otimização convergirão rapidamente para o máximo único.

A distribuição assintótica de é dada por

Onde

e é a Função de Densidade de Probabilidade ( PDF ) de distribuição normal padrão.

Métodos de máxima verossimilhança semiparamétricos e não paramétricos para o tipo probit e outros modelos relacionados também estão disponíveis.

Método do qui-quadrado mínimo de Berkson

Este método pode ser aplicado apenas quando há muitas observações da variável resposta tendo o mesmo valor do vetor de regressores (tal situação pode ser referida como "muitas observações por célula"). Mais especificamente, o modelo pode ser formulado da seguinte forma.

Suponha que entre n observações haja apenas T valores distintos dos regressores, que podem ser denotados como . Let Ser o número de observações com e o número de tais observações com . Assumimos que há de fato "muitas" observações para cada "célula": para cada uma .

Denotar

Então, o estimador de qui-quadrado mínimo de Berkson é um estimador de mínimos quadrados generalizado em uma regressão de on com pesos :

Pode-se mostrar que este estimador é consistente (como n → ∞ e T fixo), assintoticamente normal e eficiente. Sua vantagem é a presença de uma fórmula de forma fechada para o estimador. No entanto, é apenas significativo para realizar esta análise, quando observações individuais não estão disponíveis, apenas suas contagens de agregados , e (por exemplo, na análise do comportamento de voto).

Amostragem de Gibbs

A amostragem de Gibbs de um modelo probit é possível porque os modelos de regressão geralmente usam distribuições anteriores normais sobre os pesos, e essa distribuição é conjugada com a distribuição normal dos erros (e, portanto, das variáveis ​​latentes Y * ). O modelo pode ser descrito como

A partir disso, podemos determinar as densidades condicionais completas necessárias:

O resultado para β é dado no artigo sobre regressão linear bayesiana , embora especificado com notação diferente.

A única dificuldade está nas duas últimas equações. A notação é o colchete de Iverson , às vezes escrito ou semelhante. Isso indica que a distribuição deve ser truncada dentro do intervalo determinado e redimensionada de forma adequada. Nesse caso particular, surge uma distribuição normal truncada . A amostragem dessa distribuição depende de quanto está truncado. Se uma grande fração da massa original permanecer, a amostragem pode ser facilmente feita com a amostragem de rejeição - basta amostrar um número da distribuição não truncada e rejeitá-lo se ficar fora da restrição imposta pelo truncamento. Se a amostragem de apenas uma pequena fração da massa original, no entanto (por exemplo, se a amostragem de uma das caudas da distribuição normal - por exemplo, se for cerca de 3 ou mais, e uma amostra negativa for desejada), então isso será ineficiente e torna-se necessário recorrer a outros algoritmos de amostragem. A amostragem geral do normal truncado pode ser obtida usando aproximações para o CDF normal e a função probit , e R tem uma função para gerar amostras normais truncadas. rtnorm()

Avaliação de modelo

A adequação de um modelo binário estimado pode ser avaliada contando o número de observações verdadeiras igual a 1 e o número igual a zero, para o qual o modelo atribui uma classificação predita correta tratando qualquer probabilidade estimada acima de 1/2 (ou, abaixo de 1 / 2), como uma atribuição de uma previsão de 1 (ou, de 0). Consulte Regressão logística § Adequação do modelo para obter detalhes.

Desempenho sob especificação incorreta

Considere a formulação do modelo de variável latente do modelo probit. Quando a variância de condicional em não é constante, mas dependente de , surge a questão da heterocedasticidade . Por exemplo, suponha e onde é uma variável explicativa positiva contínua. Sob heteroscedasticidade, o estimador probit para é geralmente inconsistente, e a maioria dos testes sobre os coeficientes são inválidos. Mais importante, o estimador de também se torna inconsistente. Para lidar com esse problema, o modelo original precisa ser transformado para ser homocedástico. Por exemplo, no mesmo exemplo, pode ser reescrito como , onde . Portanto, e o probit em execução gera um estimador consistente para a probabilidade condicional

Quando a suposição de que é normalmente distribuída não se sustenta, surge um problema de especificação incorreta da forma funcional : se o modelo ainda for estimado como um modelo probit, os estimadores dos coeficientes são inconsistentes. Por exemplo, se segue uma distribuição logística no modelo verdadeiro, mas o modelo é estimado por probit, as estimativas serão geralmente menores que o valor verdadeiro. No entanto, a inconsistência das estimativas dos coeficientes é praticamente irrelevante, porque as estimativas para os efeitos parciais , , estará perto das estimativas fornecidas pelo modelo logit verdade.

Para evitar a questão da especificação incorreta da distribuição, pode-se adotar uma suposição de distribuição geral para o termo de erro, de modo que muitos tipos diferentes de distribuição possam ser incluídos no modelo. O custo é um cálculo mais pesado e menor precisão para o aumento do número do parâmetro. Na maioria dos casos, na prática, onde a forma de distribuição é mal especificada, os estimadores para os coeficientes são inconsistentes, mas os estimadores para a probabilidade condicional e os efeitos parciais ainda são muito bons.

Pode-se também adotar abordagens semiparamétricas ou não paramétricas, por exemplo, por meio de métodos de verossimilhança local ou não paramétricos, que evitam suposições em uma forma paramétrica para a função de índice e são robustas para a escolha da função de ligação (por exemplo, probit ou logit).

História

O modelo probit é geralmente creditado a Chester Bliss , que cunhou o termo "probit" em 1934, e a John Gaddum (1933), que sistematizou trabalhos anteriores. No entanto, o modelo básico data da lei Weber-Fechner de Gustav Fechner , publicada em Fechner (1860) , e foi repetidamente redescoberto até a década de 1930; ver Finney (1971 , Capítulo 3.6) e Aitchison & Brown (1957 , Capítulo 1.2) .

Um método rápido para calcular estimativas de máxima verossimilhança para o modelo probit foi proposto por Ronald Fisher como um apêndice ao trabalho de Bliss em 1935.

Veja também

Referências

Leitura adicional

links externos