Análise fatorial confirmatória - Confirmatory factor analysis

Em estatística , a análise fatorial confirmatória ( CFA ) é uma forma especial de análise fatorial , mais comumente usada na pesquisa social. É usado para testar se as medidas de um construto são consistentes com a compreensão do pesquisador sobre a natureza desse construto (ou fator). Como tal, o objetivo da análise fatorial confirmatória é testar se os dados se encaixam em um modelo de medição hipotético. Este modelo hipotético é baseado na teoria e / ou pesquisa analítica anterior. O CFA foi desenvolvido pela primeira vez por Jöreskog (1969) e construiu e substituiu métodos mais antigos de análise da validade do construto , como a Matriz MTMM, conforme descrito em Campbell e Fiske (1959).

Na análise fatorial confirmatória, o pesquisador primeiro desenvolve uma hipótese sobre quais fatores eles acreditam estarem subjacentes às medidas utilizadas (por exemplo, " Depressão " sendo o fator subjacente ao Inventário de Depressão de Beck e a Escala de Avaliação de Hamilton para Depressão ) e pode impor restrições ao modelo com base nessas hipóteses a priori . Ao impor essas restrições, o pesquisador está forçando o modelo a ser consistente com sua teoria. Por exemplo, se for postulado que há dois fatores responsáveis ​​pela covariância nas medidas, e que esses fatores não estão relacionados entre si, o pesquisador pode criar um modelo onde a correlação entre o fator A e o fator B é restrita a zero. Medidas de ajuste de modelo poderiam então ser obtidas para avaliar quão bem o modelo proposto capturou a covariância entre todos os itens ou medidas no modelo. Se as restrições que o pesquisador impôs ao modelo forem inconsistentes com os dados da amostra, os resultados dos testes estatísticos de ajuste do modelo indicarão um ajuste insatisfatório e o modelo será rejeitado. Se o ajuste for ruim, pode ser devido a alguns itens que medem vários fatores. Também pode ser que alguns itens dentro de um fator estejam mais relacionados entre si do que outros.

Para algumas aplicações, o requisito de "carregamentos zero" (para indicadores que não deveriam carregar em um determinado fator) foi considerado muito estrito. Um método de análise recentemente desenvolvido, "modelagem de equação estrutural exploratória", especifica hipóteses sobre a relação entre os indicadores observados e seus supostos fatores latentes primários , ao mesmo tempo que permite a estimativa de carregamentos com outros fatores latentes.

Modelo estatístico

Na análise fatorial confirmatória, os pesquisadores normalmente estão interessados ​​em estudar o grau em que as respostas em um vetor p x 1 de variáveis ​​aleatórias observáveis ​​podem ser usadas para atribuir um valor a uma ou mais variáveis ​​não observadas η . A investigação é amplamente realizada estimando e avaliando o carregamento de cada item usado para explorar aspectos da variável latente não observada. Ou seja, y [i] é o vetor de respostas observadas previstas pela variável latente não observada , que é definida como:

,

onde é o vetor p x 1 de variáveis ​​aleatórias observadas, são as variáveis ​​latentes não observadas e é uma matriz p x k com k igual ao número de variáveis ​​latentes. Visto que são medidas imperfeitas de , o modelo também consiste em erro ,. Estimativas no caso de máxima verossimilhança (ML) geradas pela minimização iterativa da função de ajuste,

onde é a matriz de variância-covariância implícita no modelo de análise fatorial proposto e é a matriz de variância-covariância observada. Ou seja, os valores são encontrados para os parâmetros do modelo livre que minimizam a diferença entre a matriz de variância-covariância implícita no modelo e a matriz de variância-covariância observada.

Estratégias alternativas de estimativa

Embora vários algoritmos tenham sido usados ​​para estimar os modelos CFA, a máxima verossimilhança (ML) continua sendo o procedimento de estimativa primário. Dito isto, os modelos CFA são frequentemente aplicados a condições de dados que se desviam dos requisitos normais da teoria para uma estimativa válida de ML. Por exemplo, os cientistas sociais costumam estimar modelos CFA com dados não normais e indicadores escalados usando categorias ordenadas discretas. Conseqüentemente, algoritmos alternativos foram desenvolvidos para atender às diversas condições de dados que os pesquisadores aplicados encontram. Os estimadores alternativos foram caracterizados em dois tipos gerais: (1) estimador robusto e (2) estimador de informação limitada.

Quando o ML é implementado com dados que se desviam dos pressupostos da teoria normal, os modelos CFA podem produzir estimativas de parâmetros enviesadas e conclusões enganosas. A estimativa robusta normalmente tenta corrigir o problema ajustando o modelo de teoria normal χ 2 e os erros padrão. Por exemplo, Satorra e Bentler (1994) recomendaram usar a estimativa ML da maneira usual e, posteriormente, dividir o modelo χ 2 por uma medida do grau de curtose multivariada. Uma vantagem adicional de estimadores de ML robustos é sua disponibilidade em um software SEM comum (por exemplo, LAVAAN).

Infelizmente, estimadores de ML robustos podem se tornar insustentáveis ​​em condições de dados comuns. Em particular, quando os indicadores são escalados usando poucas categorias de resposta (por exemplo, discordo , neutro , concordo ), estimadores robustos de ML tendem a ter um desempenho insatisfatório. Estimadores de informações limitadas, como os mínimos quadrados ponderados (WLS), são provavelmente uma escolha melhor quando os indicadores de manifesto assumem uma forma ordinal. Em termos gerais, estimadores de informação limitada atendem aos indicadores ordinais usando correlações policóricas para se ajustar aos modelos CFA. As correlações policóricas capturam a covariância entre duas variáveis ​​latentes quando apenas sua forma categorizada é observada, o que é obtido em grande parte por meio da estimativa de parâmetros de limiar.

Análise fatorial exploratória

Tanto a análise fatorial exploratória (EFA) quanto a análise fatorial confirmatória (CFA) são empregadas para entender a variância compartilhada das variáveis ​​medidas que se acredita serem atribuíveis a um fator ou construto latente. Apesar dessa semelhança, no entanto, EFA e CFA são análises conceitual e estatisticamente distintas.

O objetivo do EFA é identificar fatores com base em dados e maximizar a quantidade de variância explicada. O pesquisador não precisa ter nenhuma hipótese específica sobre quantos fatores surgirão e quais itens ou variáveis ​​esses fatores compreenderão. Se essas hipóteses existem, elas não são incorporadas e não afetam os resultados das análises estatísticas. Em contraste, o CFA avalia hipóteses a priori e é amplamente orientado pela teoria. As análises CFA requerem que o pesquisador hipotetize, com antecedência, o número de fatores, se esses fatores estão correlacionados ou não, e quais itens / medidas são carregados e refletem quais fatores. Como tal, em contraste com a análise fatorial exploratória , onde todos os carregamentos são livres para variar, o CFA permite que a restrição explícita de certos carregamentos seja zero.

O EFA é frequentemente considerado mais apropriado do que o CFA nos estágios iniciais do desenvolvimento da escala porque o CFA não mostra quão bem seus itens carregam nos fatores não hipotéticos. Outro forte argumento para o uso inicial de EFA é que a especificação incorreta do número de fatores em um estágio inicial de desenvolvimento da escala normalmente não será detectada pela análise fatorial confirmatória. Em estágios posteriores do desenvolvimento da escala, as técnicas de confirmação podem fornecer mais informações pelo contraste explícito de estruturas de fatores concorrentes.

O EFA é algumas vezes relatado em pesquisas quando o CFA seria uma abordagem estatística melhor. Tem sido argumentado que o CFA pode ser restritivo e inapropriado quando usado de forma exploratória. No entanto, a ideia de que o CFA é apenas uma análise “confirmatória” pode às vezes ser enganosa, pois os índices de modificação usados ​​no CFA são de natureza exploratória. Os índices de modificação mostram a melhoria no ajuste do modelo se um determinado coeficiente se tornasse irrestrito. Da mesma forma, EFA e CFA não precisam ser análises mutuamente exclusivas; O EFA foi considerado um seguimento razoável para um modelo de CFA que se ajusta mal.

Modelagem de equações estruturais

O software de modelagem de equações estruturais é normalmente usado para realizar análises fatoriais confirmatórias. LISREL , EQS, AMOS, Mplus e o pacote lavaan em R são programas de software populares. O CFA também é frequentemente usado como uma primeira etapa para avaliar o modelo de medição proposto em um modelo de equação estrutural. Muitas das regras de interpretação sobre a avaliação do ajuste do modelo e modificação do modelo na modelagem de equações estruturais se aplicam igualmente ao CFA. O CFA se distingue da modelagem de equações estruturais pelo fato de que no CFA, não há setas direcionadas entre os fatores latentes . Em outras palavras, enquanto em CFA os fatores não são presumidos como causadores diretos uns dos outros, SEM freqüentemente especifica fatores e variáveis ​​particulares como sendo causais por natureza. No contexto do SEM, o CFA é frequentemente chamado de 'modelo de medição', enquanto as relações entre as variáveis ​​latentes (com setas direcionadas) são chamadas de 'modelo estrutural'.

Avaliando o ajuste do modelo

No CFA, vários testes estatísticos são usados ​​para determinar o quão bem o modelo se ajusta aos dados. Observe que um bom ajuste entre o modelo e os dados não significa que o modelo esteja “correto”, ou mesmo que explique uma grande proporção da covariância. Um “bom ajuste do modelo” indica apenas que o modelo é plausível. Ao relatar os resultados de uma análise fatorial confirmatória, deve-se relatar: a) os modelos propostos, b) quaisquer modificações feitas, c) que medidas identificam cada variável latente, d) correlações entre variáveis ​​latentes, e) qualquer outra informação pertinente , por exemplo, se as restrições são usadas. Com relação à seleção de estatísticas de ajuste de modelo a serem relatadas, não se deve simplesmente relatar as estatísticas que estimam o melhor ajuste, embora isso possa ser tentador. Embora existam várias opiniões diferentes, Kline (2010) recomenda relatar o teste qui-quadrado, a raiz quadrada média do erro de aproximação (RMSEA), o índice de ajuste comparativo (CFI) e a raiz quadrada média residual padronizada (SRMR).

Índices de ajuste absoluto

Os índices de ajuste absolutos determinam o quão bem o modelo a priori se ajusta ou reproduz os dados. Os índices de ajuste absoluto incluem, mas não estão limitados a, o teste Qui-Quadrado, RMSEA, GFI, AGFI, RMR e SRMR.

Teste qui-quadrado

O teste qui-quadrado indica a diferença entre as matrizes de covariâncias observadas e esperadas . Valores próximos de zero indicam um melhor ajuste; diferença menor entre as matrizes de covariâncias esperadas e observadas. As estatísticas de qui-quadrado também podem ser usadas para comparar diretamente o ajuste de modelos aninhados aos dados. Uma dificuldade com o teste qui-quadrado de ajuste do modelo, no entanto, é que os pesquisadores podem falhar em rejeitar um modelo inadequado em tamanhos de amostra pequenos e rejeitar um modelo apropriado em tamanhos de amostra grandes. Como resultado, outras medidas de ajuste foram desenvolvidas.

Raiz do erro quadrático médio de aproximação

A raiz quadrada média do erro de aproximação (RMSEA) evita problemas de tamanho da amostra, analisando a discrepância entre o modelo hipotético, com estimativas de parâmetro escolhidas de forma ideal, e a matriz de covariância da população. O RMSEA varia de 0 a 1, com valores menores indicando melhor ajuste do modelo. Um valor de 0,06 ou menos é indicativo de ajuste de modelo aceitável.

Raiz residual quadrada média e resíduo quadrático médio padronizado

A raiz quadrada média residual (RMR) e a raiz quadrada média residual padronizada (SRMR) são a raiz quadrada da discrepância entre a matriz de covariância da amostra e a matriz de covariância do modelo. O RMR pode ser um pouco difícil de interpretar, no entanto, como seu intervalo é baseado nas escalas dos indicadores no modelo (isso se torna complicado quando você tem vários indicadores com escalas variadas; por exemplo, dois questionários, um em uma escala de 0-10 , o outro em uma escala de 1–3). A raiz quadrada média residual padronizada remove essa dificuldade de interpretação e varia de 0 a 1, com um valor de 0,08 ou menos sendo indicativo de um modelo aceitável.

Índice de adequação e índice de adequação ajustado

O índice de qualidade do ajuste (GFI) é uma medida de ajuste entre o modelo hipotético e a matriz de covariância observada. O índice de adequação ajustado (AGFI) corrige o GFI, que é afetado pelo número de indicadores de cada variável latente. O GFI e o AGFI variam entre 0 e 1, com um valor acima de 0,9 geralmente indicando um ajuste de modelo aceitável.

Índices de ajuste relativo

Os índices de ajuste relativos (também chamados de "índices de ajuste incrementais" e "índices de ajuste comparativos") comparam o qui-quadrado do modelo hipotético com um de um modelo "nulo" ou "de linha de base". Esse modelo nulo quase sempre contém um modelo no qual todas as variáveis ​​não estão correlacionadas e, como resultado, tem um qui-quadrado muito grande (indicando um ajuste inadequado). Os índices de ajuste relativos incluem o índice de ajuste normalizado e o índice de ajuste comparativo.

Índice de ajuste normatizado e índice de ajuste não normatizado

O índice de ajuste normatizado (NFI) analisa a discrepância entre o valor qui-quadrado do modelo hipotético e o valor qui-quadrado do modelo nulo. No entanto, o NFI tende a ter um viés negativo. O índice de ajuste não normatizado (NNFI; também conhecido como índice de Tucker-Lewis, pois foi construído com base em um índice formado por Tucker e Lewis, em 1973) resolve alguns dos problemas de polarização negativa, embora os valores de NNFI possam às vezes ficar além o intervalo de 0 a 1. Os valores de NFI e NNFI devem variar entre 0 e 1, com um corte de 0,95 ou mais indicando um bom ajuste do modelo.

Índice de ajuste comparativo

O índice de ajuste comparativo (CFI) analisa o ajuste do modelo examinando a discrepância entre os dados e o modelo hipotético, enquanto ajusta as questões de tamanho da amostra inerentes ao teste qui-quadrado de ajuste do modelo e o índice de ajuste normalizado. Os valores de CFI variam de 0 a 1, com valores maiores indicando melhor ajuste. Anteriormente, um valor CFI de 0,90 ou maior era considerado para indicar um ajuste de modelo aceitável. No entanto, estudos recentes indicaram que um valor maior que 0,90 é necessário para garantir que modelos mal especificados não sejam considerados aceitáveis. Assim, um valor CFI de 0,95 ou superior é atualmente aceito como um indicador de bom ajuste.

Identificação e subidentificação

Para estimar os parâmetros de um modelo, o modelo deve ser devidamente identificado. Ou seja, o número de parâmetros estimados (desconhecidos) ( q ) deve ser menor ou igual ao número de variâncias e covariâncias únicas entre as variáveis ​​medidas; p ( p + 1) / 2. Essa equação é conhecida como "regra t". Se houver muito pouca informação disponível para basear as estimativas dos parâmetros, o modelo é considerado subidentificado e os parâmetros do modelo não podem ser estimados de forma adequada.

Veja também

Referências

Leitura adicional

  • Brown, TA (2006). Análise fatorial confirmatória para pesquisa aplicada . Nova York: Guilford.
  • DiStefano, C., & Hess, B. (2005). Usando análise fatorial confirmatória para validação de construto: uma revisão empírica. Journal of Psychoeducational Assessment , 23 , 225-241.
  • Harrington, D. (2009). Análise fatorial confirmatória. Nova York: Oxford University Press.
  • Maruyama, GM (1998). Noções básicas de modelagem de equações estruturais . Thousand Oaks, CA: Sage.

links externos