Modelo linear generalizado - Generalized linear model

Em estatística , um modelo linear generalizado ( GLM ) é uma generalização flexível de regressão linear ordinária que permite que a variável de resposta tenha uma distribuição de erro diferente da distribuição normal . O GLM generaliza a regressão linear permitindo que o modelo linear seja relacionado à variável de resposta por meio de uma função de ligação e permitindo que a magnitude da variância de cada medição seja uma função de seu valor previsto.

Modelos lineares generalizados foram formulados por John Nelder e Robert Wedderburn como forma de unificar vários outros modelos estatísticos, incluindo regressão linear , regressão logística e regressão de Poisson . Eles propuseram um método de mínimos quadrados reponderado iterativamente para estimativa de máxima verossimilhança dos parâmetros do modelo. A estimativa de máxima verossimilhança continua popular e é o método padrão em muitos pacotes de computação estatística. Outras abordagens, incluindo abordagens bayesianas e ajustes de mínimos quadrados para respostas estabilizadas por variância , foram desenvolvidas.

Intuição

A regressão linear ordinária prevê o valor esperado de uma determinada quantidade desconhecida (a variável de resposta , uma variável aleatória ) como uma combinação linear de um conjunto de valores observados ( preditores ). Isso implica que uma mudança constante em um preditor leva a uma mudança constante na variável de resposta (ou seja, um modelo de resposta linear ). Isso é apropriado quando a variável de resposta pode variar, para uma boa aproximação, indefinidamente em qualquer direção, ou mais geralmente para qualquer quantidade que varia apenas por uma quantidade relativamente pequena em comparação com a variação nas variáveis ​​preditivas, por exemplo, alturas humanas.

No entanto, essas suposições são inadequadas para alguns tipos de variáveis ​​de resposta. Por exemplo, nos casos em que se espera que a variável de resposta seja sempre positiva e variando em uma ampla faixa, as mudanças constantes de entrada levam a alterações geométricas (ou seja, exponencialmente) de saída variando, em vez de variar constantemente. Por exemplo, suponha que um modelo de previsão linear aprenda com alguns dados (talvez principalmente extraídos de grandes praias) que uma diminuição de 10 graus na temperatura levaria a menos 1.000 pessoas visitando a praia. É improvável que esse modelo se generalize bem em praias de tamanhos diferentes. Mais especificamente, o problema é que se você usar o modelo para prever o novo atendimento com uma queda de temperatura de 10 para uma praia que recebe regularmente 50 banhistas, você preveria um valor de atendimento impossível de -950. Logicamente, um modelo mais realista poderia prever uma taxa constante de aumento da frequência na praia (por exemplo, um aumento em 10 graus leva a uma duplicação da frequência na praia, e uma queda em 10 graus leva a uma redução na metade). Esse modelo é denominado modelo de resposta exponencial (ou modelo log-linear , uma vez que se prevê que o logaritmo da resposta varie linearmente).

Da mesma forma, um modelo que prevê uma probabilidade de fazer uma escolha sim / não (uma variável de Bernoulli ) é ainda menos adequado como um modelo de resposta linear, uma vez que as probabilidades são limitadas em ambas as extremidades (devem estar entre 0 e 1). Imagine, por exemplo, um modelo que prevê a probabilidade de uma determinada pessoa ir à praia em função da temperatura. Um modelo razoável pode prever, por exemplo, que uma mudança em 10 graus torna uma pessoa duas vezes mais ou menos propensa a ir à praia. Mas o que "duas vezes mais provável" significa em termos de probabilidade? Não pode significar literalmente dobrar o valor da probabilidade (por exemplo, 50% torna-se 100%, 75% torna-se 150%, etc.). Em vez disso, são as probabilidades que estão dobrando: das probabilidades de 2: 1 para as probabilidades de 4: 1, para as probabilidades de 8: 1, etc. Tal modelo é um modelo logístico ou logístico .

Modelos lineares generalizados cobrem todas essas situações, permitindo que variáveis ​​de resposta tenham distribuições arbitrárias (em vez de distribuições simplesmente normais ) e que uma função arbitrária da variável de resposta (a função de ligação ) varie linearmente com os preditores (em vez de assumir que o a própria resposta deve variar linearmente). Por exemplo, o caso acima do número previsto de frequentadores da praia normalmente seria modelado com uma distribuição de Poisson e um link de log, enquanto o caso da probabilidade prevista de freqüência à praia seria normalmente modelado com uma distribuição de Bernoulli (ou distribuição binomial , dependendo exatamente de como o problema é formulado) e uma função de link log-odds (ou logit ).

Visão geral

Em um modelo linear generalizado (GLM), cada resultado Y das variáveis ​​dependentes é assumido como sendo gerado a partir de uma distribuição particular em uma família exponencial , uma grande classe de distribuições de probabilidade que inclui as distribuições normal , binomial , Poisson e gama , entre outras . A média, μ , da distribuição depende das variáveis ​​independentes, X , por meio de:

onde E ( Y | X ) é o valor esperado de Y condicional em X ; X β é o preditor linear , uma combinação linear de parâmetros desconhecidos β ; g é a função de link.

Neste quadro, a variância é normalmente uma função, V , da média:

É conveniente se V seguir de uma família exponencial de distribuições, mas pode ser simplesmente que a variância seja uma função do valor previsto.

Os parâmetros desconhecidos, β , são normalmente estimados com máxima verossimilhança , máxima quase-verossimilhança ou técnicas bayesianas .

Componentes do modelo

O GLM consiste em três elementos:

1. Uma família exponencial de distribuições de probabilidade.
2. Um preditor linear
3. Uma função de link tal que

Distribuição de probabilidade

Uma família exponencial superdispersa de distribuições é uma generalização de uma família exponencial e o modelo de dispersão exponencial de distribuições e inclui aquelas famílias de distribuições de probabilidade, parametrizadas por e , cujas funções de densidade f (ou função de massa de probabilidade , no caso de uma distribuição discreta ) pode ser expresso na forma

O parâmetro de dispersão , , tipicamente, é conhecido e está geralmente relacionada com a variação da distribuição. As funções , , , , e são conhecidos. Muitas distribuições comuns estão nesta família, incluindo a normal, exponencial, gama, Poisson, Bernoulli e (para um número fixo de tentativas) binomial, multinomial e binomial negativo.

Para escalar e (denotado e , neste caso), isso se reduz a

está relacionado com a média da distribuição. Se for a função de identidade, então a distribuição é dita em forma canônica (ou forma natural ). Note-se que qualquer distribuição pode ser convertido para a forma canónica reescrevendo como e em seguida aplicando a transformação . Sempre é possível converter em termos da nova parametrização, mesmo que não seja uma função um-para-um ; veja comentários na página sobre famílias exponenciais . Se, além disso, é a identidade e é conhecida, então é chamado de parâmetro canônico (ou parâmetro natural ) e está relacionado à média por meio de

Para escalar e , isso se reduz a

Nesse cenário, a variância da distribuição pode ser mostrada como

Para escalar e , isso se reduz a

Preditor linear

O preditor linear é a quantidade que incorpora as informações sobre as variáveis ​​independentes no modelo. O símbolo η ( grego " eta ") denota um preditor linear. Está relacionado ao valor esperado dos dados por meio da função de link.

η é expresso como combinações lineares (portanto, "linear") de parâmetros desconhecidos β . Os coeficientes da combinação linear são representados como a matriz de variáveis independentes X . η pode, portanto, ser expresso como

Função de ligação

A função de ligação fornece a relação entre o preditor linear e a média da função de distribuição. Existem muitas funções de link comumente usadas e sua escolha é baseada em várias considerações. Sempre há uma função de link canônico bem definida que é derivada do exponencial da função de densidade da resposta . No entanto, em alguns casos, faz sentido tentar combinar o domínio da função de ligação ao intervalo da média da função de distribuição ou usar uma função de ligação não canônica para fins algorítmicos, por exemplo, regressão probit bayesiana .

Ao usar uma função de distribuição com um parâmetro canônica , a função de ligação canônica é a função que expressa em termos de , por exemplo . Para as distribuições mais comuns, a média é um dos parâmetros na forma padrão da função de densidade da distribuição e, a seguir, é a função definida acima que mapeia a função de densidade em sua forma canônica. Ao usar a função de link canônico,, o que permite ser uma estatística suficiente para .

A seguir está uma tabela de várias distribuições de família exponencial em uso comum e os dados para os quais elas são normalmente usadas, junto com as funções de link canônico e suas inversas (às vezes chamadas de função média, como feito aqui).

Distribuições comuns com usos típicos e funções de link canônico
Distribuição Suporte de distribuição Usos típicos Nome do link Função de link, Função média
Normal real: Dados de resposta linear Identidade
Exponencial real: Dados de resposta exponencial, parâmetros de escala Inverso negativo
Gama

Gaussiano Inverso
real: Inverso
ao quadrado
Poisson inteiro: contagem de ocorrências em um período fixo de tempo / espaço Registro
Bernoulli inteiro: resultado de ocorrência única sim / não Logit
Binomial inteiro: contagem de # de ocorrências "sim" de N ocorrências sim / não
Categórico inteiro: resultado da ocorrência única de K-way
Vetor K de inteiro:, onde exatamente um elemento no vetor tem o valor 1
Multinomial K -vetor do inteiro: contagem de ocorrências de diferentes tipos (1 .. K ) de um total de N ocorrências de vias K

Nos casos das distribuições exponencial e gama, o domínio da função de ligação canônica não é o mesmo que o intervalo permitido da média. Em particular, o preditor linear pode ser positivo, o que daria uma média negativa impossível. Ao maximizar a probabilidade, devem ser tomadas precauções para evitar isso. Uma alternativa é usar uma função de link não canônico.

No caso das distribuições Bernoulli, binomial, categórica e multinomial, o suporte das distribuições não é o mesmo tipo de dado do parâmetro que está sendo previsto. Em todos esses casos, o parâmetro previsto é uma ou mais probabilidades, ou seja, números reais no intervalo . O modelo resultante é conhecido como regressão logística (ou regressão logística multinomial no caso em que K-way em vez de valores binários estão sendo previstos).

Para as distribuições Bernoulli e binomial, o parâmetro é uma probabilidade única, indicando a probabilidade de ocorrência de um único evento. O Bernoulli ainda satisfaz a condição básica do modelo linear generalizado em que, embora um único resultado seja sempre 0 ou 1, o valor esperado será uma probabilidade com valor real, ou seja, a probabilidade de ocorrência de um "sim" (ou 1) resultado. Da mesma forma, em uma distribuição binomial, o valor esperado é Np , ou seja, a proporção esperada de resultados "sim" será a probabilidade de ser prevista.

Para distribuições categóricas e multinomiais, o parâmetro a ser previsto é um vetor K de probabilidades, com a restrição adicional de que todas as probabilidades devem somar 1. Cada probabilidade indica a probabilidade de ocorrência de um dos K valores possíveis. Para a distribuição multinomial, e para a forma vetorial da distribuição categórica, os valores esperados dos elementos do vetor podem ser relacionados às probabilidades previstas de forma semelhante às distribuições binomial e de Bernoulli.

Apropriado

Máxima probabilidade

As estimativas de máxima verossimilhança podem ser encontradas usando um algoritmo de mínimos quadrados reponderado iterativamente ou um método de Newton com atualizações do formulário:

onde está a matriz de informação observada (o negativo da matriz Hessiana ) e é a função de pontuação ; ou um método de pontuação de Fisher :

onde está a matriz de informações de Fisher . Observe que, se a função de link canônico for usada, eles serão iguais.

Métodos bayesianos

Em geral, a distribuição posterior não pode ser encontrada na forma fechada e, portanto, deve ser aproximada, geralmente usando aproximações de Laplace ou algum tipo de método Monte Carlo de cadeia de Markov como a amostragem de Gibbs .

Exemplos

Modelos lineares gerais

Um possível ponto de confusão tem a ver com a distinção entre modelos lineares generalizados e modelos lineares gerais , dois modelos estatísticos amplos. O co-criador John Nelder expressou pesar sobre esta terminologia.

O modelo linear geral pode ser visto como um caso especial do modelo linear generalizado com link de identidade e respostas normalmente distribuídas. Como os resultados de interesse mais exatos são obtidos apenas para o modelo linear geral, o modelo linear geral passou por um desenvolvimento histórico um pouco mais longo. Os resultados para o modelo linear generalizado com ligação de não identidade são assintóticos (tendendo a funcionar bem com grandes amostras).

Regressão linear

Um exemplo simples e muito importante de um modelo linear generalizado (também um exemplo de um modelo linear geral) é a regressão linear . Na regressão linear, o uso do estimador de mínimos quadrados é justificado pelo teorema de Gauss-Markov , que não assume que a distribuição seja normal.

Do ponto de vista dos modelos lineares generalizados, entretanto, é útil supor que a função de distribuição é a distribuição normal com variância constante e a função de elo é a identidade, que é o elo canônico se a variância for conhecida.

Para a distribuição normal, o modelo linear generalizado possui uma expressão de forma fechada para as estimativas de máxima verossimilhança, o que é conveniente. A maioria dos outros GLMs carece de estimativas de forma fechada .

Dados binários

Quando os dados de resposta, Y , são binários (assumindo apenas os valores 0 e 1), a função de distribuição é geralmente escolhida para ser a distribuição de Bernoulli e a interpretação de μ i é então a probabilidade, p , de Y i assumir o valor 1.

Existem várias funções de link populares para funções binomiais.

Função de link Logit

A função de link mais comum é o link logit canônico :

GLMs com esta configuração são modelos de regressão logística (ou modelos logit ).

Função de ligação probit como escolha popular da função de distribuição cumulativa inversa

Alternativamente, o inverso de qualquer função de distribuição cumulativa contínua (CDF) pode ser usado para o link, uma vez que o intervalo do CDF é , o intervalo da média binomial. O CDF normal é uma escolha popular e produz o modelo probit . Seu link é

A razão para o uso do modelo probit é que uma escala constante da variável de entrada para um CDF normal (que pode ser absorvida através da escala equivalente de todos os parâmetros) produz uma função que é praticamente idêntica à função logit, mas probit os modelos são mais tratáveis ​​em algumas situações do que os modelos logit. (Em uma configuração Bayesiana em que distribuições anteriores normalmente distribuídas são colocadas nos parâmetros, a relação entre as anteriores normais e a função de ligação CDF normal significa que um modelo probit pode ser calculado usando a amostragem de Gibbs , enquanto um modelo logit geralmente não pode.)

Log-log complementar (entupimento)

A função complementar log-log também pode ser usada:

Esta função de link é assimétrica e freqüentemente produzirá resultados diferentes das funções de link logit e probit. O modelo de cloglog corresponde a aplicações onde observamos zero eventos (por exemplo, defeitos) ou um ou mais, onde o número de eventos é assumido para seguir a distribuição de Poisson . A suposição de Poisson significa que

onde μ é um número positivo denotando o número esperado de eventos. Se p representa a proporção de observações com pelo menos um evento, seu complemento

e então

Um modelo linear requer que a variável de resposta assuma valores ao longo de toda a linha real. Uma vez que μ deve ser positivo, podemos impor isso tomando o logaritmo e deixando log ( μ ) ser um modelo linear. Isso produz a transformação "cloglog"

Link de identidade

A ligação de identidade g (p) = p também é algumas vezes usada para dados binomiais para produzir um modelo de probabilidade linear . No entanto, o link de identidade pode prever "probabilidades" sem sentido menores que zero ou maiores que um. Isso pode ser evitado usando uma transformação como cloglog, probit ou logit (ou qualquer função de distribuição cumulativa inversa). Um mérito primário do vínculo de identidade é que ele pode ser estimado usando matemática linear - e outras funções de vínculo padrão são aproximadamente lineares correspondendo ao vínculo de identidade próximo a p = 0,5.

Função de variância

A função de variância para "dados quasibinomiais "são:

onde o parâmetro de dispersão τ é exatamente 1 para a distribuição binomial. De fato, a verossimilhança binomial padrão omite τ . Quando está presente, o modelo é chamado de " quase-probabilidade " e a probabilidade modificada é chamada de quase-probabilidade , uma vez que geralmente não é a probabilidade correspondente a qualquer família real de distribuições de probabilidade. Se τ excede 1, diz-se que o modelo exibe sobredispersão .

Regressão multinomial

O caso binomial pode ser facilmente estendido para permitir uma distribuição multinomial como a resposta (também, um Modelo Linear Generalizado para contagens, com um total restrito). Geralmente, isso é feito de duas maneiras:

Resposta ordenada

Se a variável de resposta for ordinal , pode-se ajustar uma função de modelo da forma:

para m > 2. Ligações diferentes g levam a modelos de regressão ordinal como modelos de odds proporcionais ou modelos probit ordenados .

Resposta não ordenada

Se a variável de resposta é uma medida nominal , ou os dados não satisfazem os pressupostos de um modelo ordenado, pode-se ajustar um modelo da seguinte forma:

para m > 2. Ligações diferentes g levam a modelos logit multinomial ou probit multinomial . Estes são mais gerais do que os modelos de resposta ordenada e mais parâmetros são estimados.

Dados de contagem

Outro exemplo de modelos lineares generalizados inclui a regressão de Poisson, que modela os dados de contagem usando a distribuição de Poisson . O link é normalmente o logaritmo, o link canônico.

A função de variância é proporcional à média

onde o parâmetro de dispersão τ é tipicamente fixado em exatamente um. Quando não é, o modelo de quase-verossimilhança resultante é frequentemente descrito como Poisson com superdispersão ou quase-Poisson .

Extensões

Dados correlacionados ou agrupados

O GLM padrão assume que as observações não estão correlacionadas . Extensões foram desenvolvidas para permitir a correlação entre as observações, como ocorre por exemplo em estudos longitudinais e projetos agrupados:

  • As equações de estimativa generalizadas (GEEs) permitem a correlação entre observações sem o uso de um modelo de probabilidade explícito para a origem das correlações, portanto, não há probabilidade explícita. São adequados quando os efeitos aleatórios e suas variâncias não são de interesse inerente, pois permitem a correlação sem explicar sua origem. O foco está em estimar a resposta média sobre a população (efeitos de "média da população") em vez dos parâmetros de regressão que permitiriam a previsão do efeito da mudança de um ou mais componentes de X em um determinado indivíduo. GEEs são geralmente usados ​​em conjunto com os erros padrão de Huber-White .
  • Os modelos lineares mistos generalizados (GLMMs) são uma extensão dos GLMs que incluem efeitos aleatórios no preditor linear, fornecendo um modelo de probabilidade explícito que explica a origem das correlações. As estimativas de parâmetro "específicas do sujeito" resultantes são adequadas quando o foco está na estimativa do efeito da alteração de um ou mais componentes de X em um determinado indivíduo. Os GLMMs também são chamados de modelos multinível e modelo misto . Em geral, ajustar GLMMs é computacionalmente mais complexo e intensivo do que ajustar GEEs.

Modelos aditivos generalizados

Modelos aditivos generalizados (GAMs) são outra extensão para GLMs em que o preditor linear η não se restringe a ser linear nas covariáveis X, mas é a soma das funções de suavização aplicadas ao x i s:

As funções de suavização f i são estimadas a partir dos dados. Em geral, isso requer um grande número de pontos de dados e é computacionalmente intensivo.

Veja também

Referências

Citações

Bibliografia

Leitura adicional

links externos