Modelo multinível - Multilevel model

Modelos multinível (também conhecidos como modelos lineares hierárquicos , lineares modelo de efeitos mistos , modelos mistos , modelos de dados aninhadas , coeficiente aleatório , modelos de efeitos aleatórios , os modelos de parâmetro aleatórios , ou de parcelas subdivididas desenhos ) são modelos estatísticos de parâmetros que variam em mais de um nível. Um exemplo poderia ser um modelo de desempenho do aluno que contém medidas para alunos individuais, bem como medidas para salas de aula nas quais os alunos estão agrupados. Esses modelos podem ser vistos como generalizações de modelos lineares (em particular, regressão linear ), embora também possam se estender a modelos não lineares. Esses modelos se tornaram muito mais populares depois que software e capacidade de computação suficientes se tornaram disponíveis.

Modelos multiníveis são particularmente apropriados para projetos de pesquisa em que os dados dos participantes são organizados em mais de um nível (ou seja, dados aninhados ). As unidades de análise são geralmente indivíduos (em um nível inferior) que estão aninhados em unidades contextuais / agregadas (em um nível superior). Embora o nível mais baixo de dados em modelos multiníveis seja geralmente um indivíduo, medições repetidas de indivíduos também podem ser examinadas. Como tal, os modelos multiníveis fornecem um tipo alternativo de análise para análise univariada ou multivariada de medidas repetidas . As diferenças individuais nas curvas de crescimento podem ser examinadas. Além disso, os modelos multiníveis podem ser usados ​​como uma alternativa à ANCOVA , em que as pontuações na variável dependente são ajustadas para covariáveis ​​(por exemplo, diferenças individuais) antes de testar as diferenças de tratamento. Modelos multiníveis são capazes de analisar esses experimentos sem as suposições de homogeneidade de declives de regressão exigidas pela ANCOVA.

Os modelos multiníveis podem ser usados ​​em dados com muitos níveis, embora os modelos de 2 níveis sejam os mais comuns e o restante deste artigo trate apenas deles. A variável dependente deve ser examinada no nível mais baixo de análise.

Equação de regressão de nível 1

Quando há uma única variável independente de nível 1, o modelo de nível 1 é:

  • refere-se à pontuação na variável dependente para uma observação individual no Nível 1 (subscrito i refere-se ao caso individual, subscrito j refere-se ao grupo).
  • refere-se ao preditor de Nível 1.
  • refere-se à interceptação da variável dependente no grupo j (Nível 2).
  • refere-se à inclinação para o relacionamento no grupo j (Nível 2) entre o preditor de Nível 1 e a variável dependente.
  • refere-se aos erros aleatórios de previsão para a equação de Nível 1 (às vezes também é referido como ).

No Nível 1, tanto as interceptações quanto as inclinações nos grupos podem ser fixas (o que significa que todos os grupos têm os mesmos valores, embora no mundo real isso seja uma ocorrência rara), variando não aleatoriamente (o que significa que as interceptações e / ou inclinações são previsíveis a partir de uma variável independente no Nível 2), ou variando aleatoriamente (significando que as interceptações e / ou inclinações são diferentes nos diferentes grupos e que cada um tem sua própria média e variância geral).

Quando há várias variáveis ​​independentes de nível 1, o modelo pode ser expandido substituindo vetores e matrizes na equação.

Quando a relação entre a resposta e o preditor não pode ser descrita pela relação linear, então pode-se encontrar alguma relação funcional não linear entre a resposta e o preditor e estender o modelo para o modelo não linear de efeitos mistos . Por exemplo, quando a resposta é a trajetória de infecção cumulativa do -ésimo país e representa os -ésimos pontos no tempo, então o par ordenado para cada país pode mostrar uma forma semelhante à função logística .

Equação de regressão de nível 2

As variáveis ​​dependentes são os interceptos e as inclinações para as variáveis ​​independentes no Nível 1 nos grupos do Nível 2.

  • refere-se à interceptação geral. Esta é a grande média das pontuações na variável dependente em todos os grupos quando todos os preditores são iguais a 0.
  • refere-se ao preditor de Nível 2.
  • refere-se ao coeficiente de regressão geral, ou a inclinação, entre a variável dependente e o preditor de Nível 2.
  • refere-se ao componente de erro aleatório para o desvio da interceptação de um grupo da interceptação geral.
  • refere-se ao coeficiente de regressão geral, ou a inclinação, entre a variável dependente e o preditor de Nível 1.
  • refere-se ao componente de erro do declive (significando o desvio dos declives do grupo em relação ao declive geral).

Tipos de modelos

Antes de conduzir uma análise de modelo multinível, um pesquisador deve decidir sobre vários aspectos, incluindo quais preditores devem ser incluídos na análise, se houver. Em segundo lugar, o pesquisador deve decidir se os valores dos parâmetros (ou seja, os elementos que serão estimados) serão fixos ou aleatórios. Os parâmetros fixos são compostos por uma constante em todos os grupos, enquanto um parâmetro aleatório tem um valor diferente para cada um dos grupos. Além disso, o pesquisador deve decidir se vai empregar uma estimativa de máxima verossimilhança ou um tipo de estimativa de máxima verossimilhança restrita.

Modelo de interceptações aleatórias

Um modelo de interceptações aleatórias é um modelo no qual as interceptações podem variar e, portanto, as pontuações na variável dependente para cada observação individual são previstas pela interceptação que varia entre os grupos. Este modelo assume que as inclinações são fixas (as mesmas em contextos diferentes). Além disso, este modelo fornece informações sobre correlações intraclasse , que são úteis para determinar se os modelos multiníveis são necessários em primeiro lugar.

Modelo de declives aleatórios

Um modelo de inclinações aleatórias é um modelo em que as inclinações podem variar e, portanto, as inclinações são diferentes entre os grupos. Este modelo assume que as interceptações são fixas (as mesmas em diferentes contextos).

Modelo de interceptações e inclinações aleatórias

Um modelo que inclui interceptações aleatórias e inclinações aleatórias é provavelmente o tipo de modelo mais realista, embora também seja o mais complexo. Nesse modelo, tanto as interceptações quanto as inclinações podem variar entre os grupos, o que significa que são diferentes em contextos diferentes.

Desenvolvendo um modelo multinível

Para conduzir uma análise de modelo multinível, deve-se começar com coeficientes fixos (inclinações e interceptos). Um aspecto poderia variar de cada vez (ou seja, seria alterado) e comparado com o modelo anterior para avaliar o melhor ajuste do modelo. Existem três perguntas diferentes que um pesquisador faria ao avaliar um modelo. Primeiro, é um bom modelo? Em segundo lugar, um modelo mais complexo é melhor? Terceiro, que contribuição os preditores individuais dão ao modelo?

Para avaliar os modelos, diferentes estatísticas de ajuste de modelo seriam examinadas. Uma dessas estatísticas é o teste da razão de verossimilhança do qui-quadrado , que avalia a diferença entre os modelos. O teste da razão de verossimilhança pode ser empregado para a construção de modelos em geral, para examinar o que acontece quando os efeitos em um modelo podem variar e ao testar uma variável categórica codificada por dummy como um único efeito. No entanto, o teste só pode ser usado quando os modelos estão aninhados (o que significa que um modelo mais complexo inclui todos os efeitos de um modelo mais simples). Ao testar modelos não aninhados, as comparações entre os modelos podem ser feitas usando o critério de informação de Akaike (AIC) ou o critério de informação Bayesiano (BIC), entre outros. Veja mais seleção de modelos .

Premissas

Os modelos multinível têm as mesmas suposições que outros modelos lineares gerais principais (por exemplo, ANOVA , regressão ), mas algumas das suposições são modificadas pela natureza hierárquica do projeto (ou seja, dados aninhados).

Linearidade

A suposição de linearidade afirma que há uma relação retilínea (em linha reta, em oposição a não linear ou em forma de U) entre as variáveis. No entanto, o modelo pode ser estendido para relacionamentos não lineares. Particularmente, quando a parte média da equação de regressão de nível 1 é substituída por uma função paramétrica não linear, essa estrutura de modelo é amplamente chamada de modelo de efeitos mistos não linear .

Normalidade

A suposição de normalidade afirma que os termos de erro em todos os níveis do modelo são normalmente distribuídos. No entanto, a maioria dos softwares estatísticos permite especificar diferentes distribuições para os termos de variância, como Poisson, binomial, logístico. A abordagem de modelagem multinível pode ser usada para todas as formas de modelos lineares generalizados.

Homocedasticidade

A suposição de homocedasticidade , também conhecida como homogeneidade de variância, pressupõe igualdade de variâncias populacionais. No entanto, diferentes matrizes de correlação de variância podem ser especificadas para explicar isso, e a própria heterogeneidade da variância pode ser modelada.

Independência de observações

A independência é uma suposição de modelos lineares gerais, que afirmam que os casos são amostras aleatórias da população e que as pontuações na variável dependente são independentes umas das outras. Um dos principais objetivos dos modelos multiníveis é lidar com casos em que o pressuposto de independência é violado; os modelos multiníveis, entretanto, assumem que 1) os resíduos de nível 1 e nível 2 não estão correlacionados e 2) Os erros (medidos pelos resíduos) no nível mais alto não são correlacionados.

Testes estatísticos

O tipo de teste estatístico que é empregado em modelos multiníveis depende se alguém está examinando efeitos fixos ou componentes de variância. Ao examinar os efeitos fixos, os testes são comparados com o erro padrão de efeito fixo, o que resulta num Z-teste . Um teste t também pode ser calculado. Ao calcular um teste t, é importante ter em mente os graus de liberdade, que dependerão do nível do preditor (por exemplo, preditor de nível 1 ou preditor de nível 2). Para um preditor de nível 1, os graus de liberdade são baseados no número de preditores de nível 1, o número de grupos e o número de observações individuais. Para um preditor de nível 2, os graus de liberdade são baseados no número de preditores de nível 2 e no número de grupos.

Poder estatístico

O poder estatístico para modelos multiníveis difere dependendo se são efeitos de nível 1 ou nível 2 que estão sendo examinados. A potência dos efeitos de nível 1 depende do número de observações individuais, enquanto a potência dos efeitos de nível 2 depende do número de grupos. Para conduzir pesquisas com poder suficiente, grandes tamanhos de amostra são necessários em modelos multinível. No entanto, o número de observações individuais em grupos não é tão importante quanto o número de grupos em um estudo. A fim de detectar interações entre níveis, dado que os tamanhos dos grupos não são muito pequenos, foram feitas recomendações de que pelo menos 20 grupos são necessários. A questão do poder estatístico em modelos multiníveis é complicada pelo fato de que o poder varia em função do tamanho do efeito e das correlações intraclasse, difere para efeitos fixos versus efeitos aleatórios e muda dependendo do número de grupos e do número de observações individuais por grupo.

Formulários

Nível

O conceito de nível é a pedra angular desta abordagem. Em um exemplo de pesquisa educacional , os níveis para um modelo de 2 níveis podem ser:

  1. aluno
  2. classe

No entanto, se alguém estivesse estudando várias escolas e vários distritos escolares, um modelo de 4 níveis poderia ser:

  1. aluno
  2. classe
  3. escola
  4. distrito

O pesquisador deve estabelecer para cada variável o nível em que foi medida. Neste exemplo, a "pontuação do teste" pode ser medida ao nível do aluno, "experiência do professor" ao nível da classe, "financiamento escolar" ao nível da escola e "urbano" ao nível distrital.

Exemplo

Como um exemplo simples, considere um modelo básico de regressão linear que prevê a renda em função da idade, classe, sexo e raça. Pode-se então observar que os níveis de renda também variam dependendo da cidade e do estado de residência. Uma maneira simples de incorporar isso ao modelo de regressão seria adicionar uma variável categórica independente adicional para explicar a localização (ou seja, um conjunto de preditores binários adicionais e coeficientes de regressão associados, um por localização). Isso teria o efeito de deslocar a renda média para cima ou para baixo - mas ainda assumiria, por exemplo, que o efeito de raça e gênero sobre a renda é o mesmo em todos os lugares. Na realidade, é improvável que seja o caso - diferentes leis locais, diferentes políticas de aposentadoria, diferenças no nível de preconceito racial etc. provavelmente farão com que todos os preditores tenham diferentes tipos de efeitos em diferentes locais.

Em outras palavras, um modelo de regressão linear simples pode, por exemplo, prever que uma determinada pessoa amostrada aleatoriamente em Seattle teria uma renda média anual $ 10.000 mais alta do que uma pessoa semelhante em Mobile, Alabama . No entanto, também poderia prever, por exemplo, que uma pessoa branca pode ter uma renda média $ 7.000 acima de uma pessoa negra, e uma pessoa de 65 anos pode ter uma renda $ 3.000 abaixo de uma pessoa de 45 anos, em ambos os casos, independentemente de localização. Um modelo multinível, entretanto, permitiria diferentes coeficientes de regressão para cada preditor em cada local. Essencialmente, ele assumiria que as pessoas em um determinado local têm rendas correlacionadas geradas por um único conjunto de coeficientes de regressão, enquanto as pessoas em outro local têm rendas geradas por um conjunto diferente de coeficientes. Enquanto isso, os próprios coeficientes são considerados correlacionados e gerados a partir de um único conjunto de hiperparâmetros . Níveis adicionais são possíveis: por exemplo, as pessoas podem ser agrupadas por cidades e os coeficientes de regressão de nível de cidade agrupados por estado e os coeficientes de nível de estado gerados a partir de um único hiper-hiperparâmetro.

Os modelos multiníveis são uma subclasse de modelos bayesianos hierárquicos , que são modelos gerais com vários níveis de variáveis ​​aleatórias e relacionamentos arbitrários entre as diferentes variáveis. A análise multinível foi estendida para incluir modelagem de equação estrutural multinível , modelagem de classe latente multinível e outros modelos mais gerais.

Usos

Modelos multiníveis têm sido usados ​​em pesquisas educacionais ou geográficas, para estimar separadamente a variância entre alunos de uma mesma escola e a variância entre escolas. Em aplicações psicológicas, os vários níveis são itens em um instrumento, indivíduos e famílias. Em aplicações sociológicas, modelos multiníveis são usados ​​para examinar indivíduos inseridos em regiões ou países. Na pesquisa em psicologia organizacional , os dados de indivíduos muitas vezes devem ser aninhados em equipes ou outras unidades funcionais.

Diferentes covariáveis ​​podem ser relevantes em diferentes níveis. Eles podem ser usados ​​para estudos longitudinais, como estudos de crescimento, para separar as mudanças dentro de um indivíduo e as diferenças entre os indivíduos.

As interações entre níveis também podem ser de interesse substantivo; por exemplo, quando uma inclinação pode variar aleatoriamente, um preditor de nível 2 pode ser incluído na fórmula de inclinação para a covariável de nível 1. Por exemplo, pode-se estimar a interação de raça e vizinhança de modo que uma estimativa da interação entre as características de um indivíduo e o contexto.

Aplicações a dados longitudinais (medidas repetidas)

Formas alternativas de análise de dados hierárquicos

Existem várias maneiras alternativas de analisar dados hierárquicos, embora a maioria delas tenha alguns problemas. Primeiro, técnicas estatísticas tradicionais podem ser usadas. Pode-se desagregar variáveis ​​de ordem superior para o nível individual e, assim, conduzir uma análise nesse nível individual (por exemplo, atribuir variáveis ​​de classe ao nível individual). O problema com essa abordagem é que ela violaria a suposição de independência e, portanto, poderia enviesar nossos resultados. Isso é conhecido como falácia atomística. Outra maneira de analisar os dados usando abordagens estatísticas tradicionais é agregar variáveis ​​de nível individual a variáveis ​​de ordem superior e, em seguida, conduzir uma análise nesse nível superior. O problema com essa abordagem é que ela descarta todas as informações dentro do grupo (porque leva a média das variáveis ​​de nível individual). Tanto quanto 80-90% da variância pode ser desperdiçada, e a relação entre as variáveis ​​agregadas é inflada e, portanto, distorcida. Isso é conhecido como falácia ecológica e, estatisticamente, esse tipo de análise resulta em diminuição da potência, além da perda de informações.

Outra forma de analisar dados hierárquicos seria por meio de um modelo de coeficientes aleatórios. Este modelo assume que cada grupo tem um modelo de regressão diferente - com sua própria interceptação e declive. Como os grupos são amostrados, o modelo assume que os interceptos e inclinações também são amostrados aleatoriamente a partir de uma população de interceptos e inclinações do grupo. Isso permite uma análise em que se pode assumir que as inclinações são fixas, mas as interceptações podem variar. No entanto, isso representa um problema, pois os componentes individuais são independentes, mas os componentes do grupo são independentes entre os grupos, mas dependentes dentro dos grupos. Isso também permite uma análise em que as inclinações são aleatórias; entretanto, as correlações dos termos de erro (distúrbios) dependem dos valores das variáveis ​​de nível individual. Assim, o problema de usar um modelo de coeficientes aleatórios para analisar dados hierárquicos é que ainda não é possível incorporar variáveis ​​de ordem superior.

Termos de erro

Os modelos multinível têm dois termos de erro, também conhecidos como distúrbios. Os componentes individuais são todos independentes, mas também existem componentes de grupo, que são independentes entre os grupos, mas correlacionados dentro dos grupos. No entanto, os componentes de variância podem ser diferentes, pois alguns grupos são mais homogêneos do que outros.

Veja também

Referências

Leitura adicional

links externos