Logit misto - Mixed logit

Logit misto é um modelo estatístico totalmente geral para examinar escolhas discretas . Ele supera três limitações importantes do modelo logit padrão , permitindo a variação aleatória do sabor entre os selecionadores, padrões de substituição irrestritos entre as escolhas e a correlação em fatores não observados ao longo do tempo. O logit misto pode escolher qualquer distribuição para os coeficientes aleatórios, ao contrário do probit, que é limitado à distribuição normal. É chamado de "logit misto" porque a probabilidade de escolha é uma mistura de logits, com a distribuição de mistura. Foi demonstrado que um modelo logit misto pode aproximar com qualquer grau de precisão qualquer modelo de utilidade aleatório verdadeiro de escolha discreta, dada a especificação apropriada de variáveis ​​e a distribuição de coeficiente.

Variação aleatória de sabor

Os coeficientes de "sabor" do modelo logit padrão, ou 's, são fixos, o que significa que os ' s são iguais para todos. Logit misto tem diferentes para cada pessoa (ou seja, cada tomador de decisão).

No modelo logit padrão, a utilidade da pessoa como alternativa é:

com

~ iid valor extremo

Para o modelo logit misto, esta especificação é generalizada permitindo ser aleatória. A utilidade da pessoa como alternativa no modelo logit misto é:

com

~ iid valor extremo

onde θ são os parâmetros da distribuição de 's sobre a população, como a média e a variância de .

Condicional em , a probabilidade de que a pessoa escolha a alternativa é a fórmula logit padrão:

No entanto, como é aleatório e desconhecido, a probabilidade de escolha (incondicional) é a integral dessa fórmula logit sobre a densidade de .

Esse modelo também é chamado de modelo logit de coeficiente aleatório, pois é uma variável aleatória. Ele permite que as inclinações de utilidade (ou seja, a utilidade marginal) sejam aleatórias, o que é uma extensão do modelo de efeitos aleatórios em que apenas a interceptação era estocástica.

Qualquer função de densidade de probabilidade pode ser especificada para a distribuição dos coeficientes na população, ou seja, para . A distribuição mais utilizada é a normal, principalmente por sua simplicidade. Para coeficientes que assumem o mesmo sinal para todas as pessoas, como um coeficiente de preço que é necessariamente negativo ou o coeficiente de um atributo desejável, são usadas distribuições com suporte em apenas um lado de zero, como o lognormal. Quando os coeficientes não podem ser logicamente ilimitados grandes ou pequenos, as distribuições limitadas são freqüentemente usadas, como as distribuições ou triangulares.

Padrões de substituição irrestritos

O modelo logit misto pode representar o padrão de substituição geral porque não exibe a propriedade de independência restritiva de alternativas irrelevantes (IIA) do logit . A mudança percentual na probabilidade incondicional da pessoa de escolher a alternativa dada uma mudança percentual no m- ésimo atributo da alternativa (a elasticidade de em relação a ) é

onde está o m ésimo elemento de . Pode-se ver a partir desta fórmula que uma redução de dez por cento para não implica necessariamente (como com logit) uma redução de dez por cento em cada alternativa . A razão é que as porcentagens relativas dependem da correlação entre a probabilidade condicional de que a pessoa escolherá a alternativa e a probabilidade condicional de que essa pessoa escolherá a alternativa em vários sorteios .

Correlação em fatores não observados ao longo do tempo

O logit padrão não leva em consideração nenhum fator não observado que persiste ao longo do tempo para um determinado tomador de decisão. Isso pode ser um problema se você estiver usando dados de painel, que representam escolhas repetidas ao longo do tempo. Ao aplicar um modelo logit padrão aos dados do painel, você está assumindo que os fatores não observados que afetam a escolha de uma pessoa são novos cada vez que a pessoa faz a escolha. Essa é uma suposição muito improvável. Para levar em consideração a variação aleatória do sabor e a correlação em fatores não observados ao longo do tempo, a utilidade para o respondente n para a alternativa i no tempo t é especificada da seguinte forma:

onde o subscrito t é a dimensão do tempo. Ainda fazemos a suposição lógica de que é um valor extremo iid. Isso significa que é independente ao longo do tempo, das pessoas e das alternativas. é essencialmente apenas ruído branco. No entanto, a correlação com o tempo e com as alternativas surge do efeito comum dos 's, que entram em utilidade em cada período de tempo e em cada alternativa.

Para examinar a correlação explicitamente, assuma que os β 's são normalmente distribuídos com média e variância . Então, a equação de utilidade torna-se:

e η é um empate da densidade normal padrão. Reorganizando, a equação se torna:

onde os fatores não observados são coletados . Dos fatores não observados, é independente ao longo do tempo e não é independente ao longo do tempo ou alternativas.

Então, a covariância entre alternativas e é,

e a covariância entre o tempo e é

Especificando os Xs apropriadamente, pode-se obter qualquer padrão de covariância ao longo do tempo e alternativas.

Condicional em , a probabilidade da sequência de escolhas por uma pessoa é simplesmente o produto da probabilidade logit de cada escolha individual dessa pessoa:

uma vez que é independente ao longo do tempo. Então, a probabilidade (incondicional) da sequência de escolhas é simplesmente a integral desse produto de logits sobre a densidade de .

Simulação

Infelizmente, não existe uma forma fechada para a integral que entra na probabilidade de escolha e, portanto, o pesquisador deve simular P n . Felizmente para o pesquisador, simular P n pode ser muito simples. Existem quatro etapas básicas a seguir

1. Extraia a função de densidade de probabilidade que você especificou para os coeficientes de 'sabor'. Ou seja, pegue um sorteio e rotule o sorteio , para representar o primeiro sorteio.

2. Calcule . (A probabilidade condicional.)

3. Repita várias vezes, para .

4. Faça a média dos resultados

Então, a fórmula para a simulação se parece com a seguinte,

onde R é o número total de sorteios retirados da distribuição e r é um sorteio.

Feito isso, você terá um valor para a probabilidade de cada alternativa i para cada respondente n.

Veja também

Leitura adicional

Referências