análise de fatores - Factor analysis


Da Wikipédia, a enciclopédia livre

Análise do Factor é uma estatística método usado para descrever a variabilidade entre observados, correlacionados variáveis em termos de um número potencialmente menor de variáveis não observadas chamados factores . Por exemplo, é possível que as variações nos seis variáveis observadas refletem, principalmente, as variações nas duas variáveis não observadas (subjacentes). Pesquisas de análise de fator para tais variações conjuntas em resposta a não observadas variáveis latentes . As variáveis observadas são modelados como combinações lineares dos fatores potenciais, além de " erro " termos. A análise fatorial visa encontrar variáveis latentes independentes. A teoria por trás métodos analíticos fator é que a informação obtida sobre as interdependências entre variáveis observadas pode ser usado mais tarde para reduzir o conjunto de variáveis em um conjunto de dados. A análise fatorial é comumente usado em biologia, psicometria , personalidade teorias, de marketing , gerenciamento de produto , pesquisa de operações e finanças . Os defensores da análise fatorial acreditam que ele ajuda a lidar com conjuntos de dados onde há um grande número de variáveis observadas que são pensados para refletir um número menor de variáveis subjacentes / latentes. É uma das técnicas inter-dependência mais comumente usados e é usado quando o conjunto relevante de variáveis mostra uma inter-dependência sistemática e o objetivo é descobrir os fatores latentes que criam um traço comum.

Análise do Factor está relacionada com a análise de componentes principais (PCA), mas os dois não são idênticos. Houve uma controvérsia significativa no campo sobre as diferenças entre as duas técnicas (ver secção sobre análise fatorial exploratória contra análise de componentes principais abaixo). PCA pode ser considerado como uma versão mais básica de análise fatorial exploratória (EFA), que foi desenvolvido no início dos anos dias antes do advento dos computadores de alta velocidade. Ambos PCA e análise fatorial visam reduzir a dimensionalidade de um conjunto de dados, mas as abordagens adoptadas para fazê-lo são diferentes para as duas técnicas. A análise fatorial é claramente projetado com o objetivo de identificar alguns fatores não observáveis a partir das variáveis observadas, enquanto PCA não aborda directamente este objectivo; na melhor das hipóteses, APC prevê uma aproximação aos fatores necessários. Do ponto de vista da análise exploratória, os valores próprios de PCA são cargas de componentes inflacionados, ou seja, contaminados com variância do erro.

modelo estatístico

Definição

Suponha que temos um conjunto de variáveis aleatórias observáveis , com meios .

Suponha que para algumas constantes desconhecidas e variáveis aleatórias não observadas (chamados " fatores comuns ", porque influenciam todas as variáveis aleatórias observadas), onde e em que , temos

Aqui, o são termos de erro estocástico não observadas com média zero e variância finita, o que pode não ser o mesmo para todos .

Em termos matriciais, temos

Se temos observações, então vamos ter as dimensões , e . Cada coluna de e indica os valores para uma observação particular, e da matriz não varia entre observações.

Também vamos impor as seguintes premissas em :

  1. e são independentes.
  2. (Para se certificar de que os fatores não são correlacionadas).

Qualquer solução do conjunto de equações acima seguindo as restrições para é definido como os factores , e como a matriz de carregamento .

Suponha . Em seguida, note que a partir das condições apenas impostas , temos

ou

ou

Note-se que para qualquer matriz ortogonal , se definir e , os critérios para ser fatores e cargas fatoriais ainda mantêm. Assim, um conjunto de factores e cargas de fator é única apenas até a uma transformação ortogonal .

Exemplo

Suponha que um psicólogo tem a hipótese de que existem dois tipos de inteligência , "inteligência verbal" e "inteligência matemática", nenhum dos quais é observado diretamente. Evidências para a hipótese é procurado nos resultados dos exames de cada um dos 10 diferentes campos acadêmicos de 1000 alunos. Se cada aluno é escolhido aleatoriamente a partir de uma grande população , então 10 pontos de cada aluno são variáveis aleatórias. A hipótese do psicólogo pode dizer que, para cada uma das 10 áreas acadêmicas, a pontuação média em relação ao grupo de todos os estudantes que compartilham alguns par comum de valores para "inteligências" verbais e matemáticas é algumas constantes vezes seu nível de inteligência verbal além de outros tempos constantes seu nível de inteligência matemática, ou seja, é uma combinação desses dois "fatores". Os números para um assunto particular, pelo qual os dois tipos de inteligência são multiplicados para obter a pontuação esperada, está posta pela hipótese de ser o mesmo para todos os pares de nível de inteligência, e são chamados de "fator de carga" para este assunto. Por exemplo, a hipótese pode sustentar que a aptidão do aluno médio no campo da astronomia é

{10 × inteligência do aluno verbal} + {6 × inteligência matemática do aluno}.

Os números 10 e 6 são as cargas associadas com o factor de astronomia. Outros assuntos acadêmicos podem ter diferentes cargas fatoriais.

Dois estudantes assumiu ter graus idênticas dos latentes traços, não medidas de inteligência verbal e matemática podem ter diferentes aptidões medidos em astronomia porque aptidões individuais diferem de aptidões médias e por si erro de medição. Essas diferenças tornam-se o que é coletivamente chamado de "erro" - um termo estatístico que significa que o montante pelo qual um indivíduo, medida, difere do que é a média para ou previsto por seus níveis de inteligência (ver erros e resíduos nas estatísticas ).

Os dados observáveis ​​que vão para análise de fator seria de 10 pontuações de cada um dos 1000 alunos, um total de 10.000 números. As cargas fatoriais e os níveis dos dois tipos de inteligência de cada aluno deve ser inferida a partir dos dados.

modelo matemático do mesmo exemplar

No que se segue, as matrizes serão indicadas por variáveis indexadas. Índices "sujeito" irá ser indicada através de letras a, b e c, com valores que vai de 1 a qual é igual a 10, no exemplo acima. Índices "Factor" irá ser indicada através de letras p, q e r, com valores compreendidos entre 1 a qual é igual a dois, no exemplo acima. "Instância" ou "amostra" índices serão indicados utilizando letras i, j e k, com valores compreendidos entre 1 a . No exemplo acima, se uma amostra de alunos responderam às perguntas, o i pontuação th do aluno para a uma pergunta th são dadas por . O objectivo da análise factorial é caracterizar as correlações entre as variáveis do que o são um exemplo particular, ou um conjunto de observações. Para que as variáveis para ser em pé de igualdade, eles são normalizados:

em que a média da amostra é a seguinte:

e a variância da amostra é dado por:

O modelo de análise fatorial para esta amostra particular é então:

ou, de forma mais sucinta:

Onde

  • é o i th "inteligência verbal" do aluno,
  • é o i th "inteligência matemática" do aluno,
  • são as cargas do factor para a um th sujeito, para p = 1, 2.

Na matriz de notação, temos

Observa-se que a duplicação da escala em que "inteligência verbal" -o primeiro componente em cada coluna de F -é medido, e, simultaneamente, reduzir para metade as cargas de fator de inteligência verbal não faz qualquer diferença para o modelo. Assim, não é perdida generalidade, assumindo que o desvio padrão dos factores de inteligência verbal é 1. Da mesma forma para a inteligência matemático. Além disso, por razões semelhantes, sem generalidade é perdida por assumindo os dois factores são não correlacionados uns com os outros. Em outras palavras:

onde é o delta de Kronecker (0, e quando um ) .Os erros são assumidos como sendo independente dos factores:

Note-se que, uma vez que qualquer rotação de uma solução é também uma solução, o que torna difícil interpretar os factores. Veja desvantagens abaixo. Neste exemplo particular, se não sabemos de antemão que os dois tipos de inteligência não são correlacionadas, então não podemos interpretar os dois fatores como os dois tipos diferentes de inteligência. Mesmo que eles não estão correlacionados, não podemos dizer qual fator corresponde à inteligência verbal e que corresponde a inteligência matemática sem um argumento fora.

Os valores das cargas L , as médias p, e as variações dos "erros" ε deve ser estimada com base nos dados observados X e F (a hipótese sobre os níveis dos factores é fixa para um dado F ). O "teorema fundamental" pode ser derivada de tais condições:

O termo no lado esquerdo é a (a, b) expressão da matriz de correlação (uma matriz de) dos dados observados, e os seus elementos diagonais será um de. O último termo à direita será uma matriz diagonal com termos menos do que a unidade. O primeiro termo da direita é a "matriz de correlação reduzida" e será igual ao da matriz de correlação, excepto para os seus valores da diagonal que será menor do que a unidade. Estes elementos da diagonal da matriz de correlação são chamados de "reduzida communalities" (que representam a fracção da variância na variável observado que seja contabilizada pelos factores):

Os dados da amostra não será, é claro, exatamente obedecer a equação fundamental dado acima, devido a erros de amostragem, a inadequação do modelo, etc. O objetivo de qualquer análise do modelo acima é encontrar os fatores e as cargas que, em certo sentido, dar uma "melhor ajuste" aos dados. Na análise factorial, o melhor ajuste é definido como o mínimo do erro quadrado médio nos resíduos fora da diagonal da matriz de correlação:

Isto é equivalente a minimizar os componentes fora da diagonal da covariância de erro que, no modelo de equações de esperar valores de zero. Isso é para ser contrastado com análise de componentes principais, que visa minimizar o erro quadrático médio de todos os resíduos. Antes do advento dos computadores de alta velocidade, um esforço considerável foi dedicado a encontrar soluções aproximadas para o problema, particularmente na estimativa communalities por outros meios, os quais, em seguida, simplifica consideravelmente o problema por obtendo-se uma matriz de correlação reduzida conhecido. Este foi, em seguida, utilizada para estimar os factores e as cargas. Com o advento dos computadores de alta velocidade, o problema de minimização pode ser resolvido de forma iterativa com velocidade adequada, e as comunalidades são calculados no processo, em vez de ser necessário de antemão. O MinRes algoritmo é particularmente adequado para este problema, mas não é o único meio iterativos de encontrar uma solução.

Se os fatores de solução estão autorizados a ser correlacionado (como em rotação oblíqua, por exemplo), então o modelo matemático correspondente utiliza as coordenadas de inclinação , em vez de coordenadas ortogonais.

interpretação geométrica

Interpretação geométrica da análise fatorial parâmetros para 3 respondentes a questionar "a". A "resposta" é representada pelo vector unitário , que é projectada sobre um plano definido por dois vectores ortonormais e . O vector é projecção e o erro é perpendicular ao plano, de modo que . O vector de projecção pode ser representada em termos dos vectores de factores como . O quadrado do comprimento do vector de projecção é o communality: . Se um outro vector de dados foram representados graficamente, o co-seno do ângulo entre e seria  : o (a, b) entrada na matriz de correlação. (Adaptado de Harman Fig. 4.3)

Os parâmetros e variáveis de análise fatorial pode ser dada uma interpretação geométrica. Os dados ( ), os factores ( ) e os erros ( ) pode ser visto como vectores num espaço Euclidiano -dimensional (espaço de amostra), representada como , e respectivamente. Uma vez que os dados são normalizados, os vectores são dados da unidade de comprimento ( ). Os vectores do factor de definir um subespaço linear dimensional (ou seja, um hiperplana) neste espaço, em que os vectores de dados são projectadas de modo ortogonal. Isso decorre da equação do modelo

ea independência dos fatores e os erros: . No exemplo acima, o hiperplana é apenas um plano 2-dimensional definido pelos dois vectores de factores. A projecção dos vectores de dados sobre o hiperplana é dada pela

e os erros são vectores a partir desse ponto projectado para o ponto de dados e são perpendiculares ao hiperplana. O objetivo da análise fatorial é encontrar um hiperplano que é um "melhor ajuste" para os dados em algum sentido, então não importa como os vetores de fatores que definem este hyperplane são escolhidos, desde que eles são independentes e encontram-se na hiperplano. Somos livres para especificá-los tanto como ortogonais e normal ( ) sem perda de generalidade. Depois de um conjunto adequado de factores encontram-se, eles podem também ser arbitrariamente rodado dentro do hiperplana, de modo que qualquer rotação dos vectores de factor vai definir o mesmo hiperplana, e também ser uma solução. Como resultado, no exemplo acima, em que o hiperplano montagem é bidimensional, se não sabemos de antemão que os dois tipos de inteligência não são correlacionadas, então não podemos interpretar os dois fatores como os dois tipos diferentes de inteligência. Mesmo que eles não estão correlacionados, não podemos dizer qual fator corresponde à inteligência verbal e que corresponde a inteligência matemática, ou se os fatores são combinações lineares de ambos, sem um argumento fora.

Os vectores de dados tem unidade de comprimento. A matriz de correlação para os dados é dada por . A matriz de correlação pode ser geometricamente interpretado como o co-seno do ângulo entre os dois vetores de dados e . Os elementos da diagonal será claramente 1 e os elementos fora da diagonal terão valores absolutos menor ou igual à unidade. A "matriz de correlação reduzida" é definido como

.

O objectivo da análise factorial é escolher o hiperplana encaixe de tal modo que a matriz de correlação reduzida reproduz a matriz de correlação de tão perto quanto possível, excepto para os elementos da diagonal da matriz de correlação, que são conhecidos como tendo valor unitário. Em outras palavras, o objectivo é o de reproduzir o mais exacta possível das correlações cruzadas nos dados. Especificamente, para o hiperplana encaixe, o erro quadrado nos componentes fora da diagonal significa

é para ser minimizado, e isso é conseguido minimizando o com respeito a um conjunto de vectores de factor ortonormais. Pode ser visto que

O termo à direita é apenas a covariância dos erros. No modelo, a covariância de erro é indicado para ser uma matriz diagonal e assim o problema de minimização acima vai de facto dar uma "melhor ajuste" para o modelo: Vai se obter uma estimativa de amostra da covariância de erro, que tem os seus componentes fora da diagonal minimizado no sentido da média quadrática. Pode ser visto que desde que o são projecções ortogonais dos vectores de dados, o seu comprimento vai ser menor do que ou igual ao comprimento do vector de dados projectada, que é a unidade. O quadrado de estes comprimentos são apenas os elementos da diagonal da matriz de correlação reduzida. Estes elementos da diagonal da matriz de correlação reduzida são conhecidos como "communalities":

Grandes valores de communalities irá indicar que o hiperplana acessório é, em vez de reprodução exacta da matriz correlação. Note-se que os valores médios dos fatores também devem ser restrito a zero, do qual resulta que os valores médios dos erros também será zero.

Implementação prática

Tipos de análise fatorial

Análise fatorial exploratória (EFA) é usado para identificar as inter-relações complexas entre itens e itens de grupos que fazem parte dos conceitos unificados. O pesquisador não faz a priori suposições sobre as relações entre os fatores.

Análise factorial confirmatória (CFA) é uma abordagem mais complexo que testa a hipótese de que os produtos estão associados com factores específicos. CFA utiliza equações estruturais para testar um modelo de medição através do qual o carregamento sobre os factores que permite a avaliação das relações entre variáveis observados e variáveis não observadas. Abordagens de equações estruturais podem acomodar os erros de medição, e são menos restritivos do que de mínimos quadrados estimativa . Modelos hipótese são testados contra os dados reais, e a análise iria demonstrar cargas de variáveis observados nas variáveis latentes (fatores), bem como a correlação entre as variáveis latentes.

Tipos de extração dos fatores

Análise de componentes principais (PCA) é um método largamente usado para a extracção fator, que é a primeira fase de EFA. Factor de pesos são calculados para extrair a variância máxima possível, com factoring sucessiva continuada até que não é deixado mais variância significativa. O modelo de fatores deve, então, ser girado para análise.

análise fatorial Canonical, também chamado factoring canônica de Rao, é um método diferente de calcular o mesmo modelo como PCA, que utiliza o método principal eixo. análise fatorial Canonical busca fatores que têm a mais alta correlação canônica com as variáveis ​​observadas. análise fatorial Canonical não é afetado por rescaling arbitrária dos dados.

análise de fator comum, também chamado de princípio da análise fatorial (PFA) ou principal factoring eixo (PAF), busca o menor número de fatores que podem explicar a variância comum (correlação) de um conjunto de variáveis.

Factoring imagem baseia-se na matriz de correlação de variáveis previstas, em vez do que as variáveis efectivas, em que cada variável é preditos a partir dos outros usando regressão múltipla .

Alfa factoring é baseado na maximização da fiabilidade dos factores, assumindo que as variáveis ​​são amostrados aleatoriamente a partir de um universo de variáveis. Todos os outros métodos assumem casos a amostrar e variáveis ​​fixo.

modelo de regressão fator é um modelo combinatória de modelo de fatores ea modelo de regressão; ou, alternativamente, pode ser visto como o modelo híbridas do factor, cujos factores são parcialmente conhecidos.

Terminologia

Cargas Factor: Comunalidade é o quadrado de carregamento externo normalizado de um item. Análogo ao r de Pearson , o factor de carga ao quadrado é a porcentagem de variância nessa variável indicador explicada pelo fator. Para obter o percentual de variação em todas as variáveis explicada por cada fator, adicione a soma das cargas fatoriais quadrados para esse fator (coluna) e dividir pelo número de variáveis. (Note o número de variáveis é igual à soma de suas variações como a variância de uma variável padronizada é 1.) Este é o mesmo que dividir o fator de valor próprio pelo número de variáveis.

Interpretação cargas fatoriais: por uma regra de ouro na análise fatorial confirmatória, cargas deve ser 0,7 ou superior para confirmar que as variáveis ​​independentes identificados a priori são representados por um fator particular, sobre a lógica que o nível de 0,7 corresponde a cerca de metade do variância no indicador a ser explicada pelo fator. No entanto, o padrão de 0,7 é um alto e da vida real de dados pode muito bem não satisfaz este critério, razão pela qual alguns pesquisadores, particularmente para fins exploratórios, vai usar um nível mais baixo, como 0,4 para o fator central e 0,25 para outros fatores. Em qualquer caso, cargas fatoriais deve ser interpretado à luz da teoria, não por níveis de corte arbitrários.

Em obliquo de rotação, pode-se examinar tanto uma matriz padrão e uma matriz de estrutura. A matriz de estrutura é simplesmente a matriz de factores de carga como em rotação ortogonal, que representa a variação de uma grandeza de medição explicado por um factor em ambas numa base única e contribuições comuns. A matriz padrão, ao contrário, contém coeficientes que apenas representam contribuições únicas. Quanto mais fatores, menor os coeficientes padrão como regra uma vez que haverá contribuições mais comuns a variância explicada. Para rotação oblíqua, o pesquisador olha para a estrutura e coeficientes padrão ao atribuir um rótulo para um fator. Princípios de rotação oblíqua pode ser derivado tanto de entropia transversal e a sua dupla entropia.

Comunalidade: A soma dos pesos dos fatores quadrado para todos os fatores para uma dada variável (linha) é a variância nessa variável explicada por todos os fatores, e isso é chamado de comunalidade. O communality mede a percentagem de variância de uma dada variável explicada por todos os elementos em conjunto e podem ser interpretados como a fiabilidade do indicador no contexto dos factores que se coloca.

soluções espúrias: Se o communality excede 1,0, não existe uma solução espúrio, que pode reflectir uma amostra muito pequena ou a escolha para extrair demais ou de alguns factores.

Singularidade de uma variável: A variabilidade de uma variável menos sua comunalidade.

Eigenvalues ​​/ raízes características: valores próprios medir a quantidade de variação no total da amostra representada por cada fator. A relação dos valores próprios é a relação de importância explicativa dos factores no que diz respeito às variáveis. Se um fator tem um valor próprio baixo, então ele está contribuindo pouco para a explicação das variações nas variáveis ​​e pode ser ignorada como menos importantes do que os fatores com valores próprios mais elevados.

somas de extracção de cargas ao quadrado: valores próprios iniciais e valores próprios após extracção (listados por SPSS como "Somas de extracção de Squared Cargas") são o mesmo para a extracção de PCA, mas para outros métodos de extracção, valores próprios após extracção será inferior do que as suas contrapartes iniciais. SPSS também imprime "Somas rotação do Squared Loadings" e até mesmo para PCA, estes valores próprios será diferente de valores próprios iniciais e extração, embora seu total será o mesmo.

pontuações Factor (também chamados de pontuações de componentes em APC): são as pontuações de cada caso (linha) em cada elemento (coluna). Para calcular o factor de pontuação para um determinado caso de um determinado factor, uma toma pontuação padronizada do caso em cada uma das variáveis, multiplica-se por as cargas correspondentes da variável por um determinado factor, e resume estes produtos. Computação escores fatoriais permite olhar para os outliers fatores. Além disso, escores fatoriais podem ser usados ​​como variáveis ​​na modelagem subseqüente. (Explicado a partir PCA não do Fator Análise perspectiva).

Critérios para a determinação do número de factores

Os pesquisadores desejam evitar tais critérios subjetivos ou arbitrários para a retenção fator como "fazia sentido para mim." Uma série de métodos objetivos foram desenvolvidos para resolver este problema, permitindo que os usuários para determinar um conjunto adequado de soluções para investigar. Métodos podem não concordar. Por exemplo, a análise paralela pode sugerir 5 factores ao MAP Velicer sugere 6, de modo que o pesquisador pode solicitar ambos os 5 e 6 do fator de soluções e discutir cada em termos da sua relação com os dados externos e teoria.

critérios modernos

Corno da análise paralela (PA): Um método de simulação baseados Monte-Carlo que compara os valores próprios observados com os obtidos a partir de variáveis não correlacionadas normais. Um factor ou componente é mantido se o valor próprio associado é maior do que o percentil 95 da distribuição de valores próprios derivados a partir dos dados aleatórios. PA é uma das regras mais recomendadas para determinar o número de componentes para reter, mas muitos programas não incluem essa opção (sendo uma exceção notável R ). No entanto, Formann forneceu evidência teórica e empírica que a sua aplicação pode não ser apropriado em muitos casos, já que o seu desempenho é consideravelmente influenciado pelo tamanho da amostra , discriminação do item e tipo de coeficiente de correlação .

(1976) teste de MAPA Velicer “envolve uma análise de componentes principais completo seguido pelo exame de uma série de matrizes de correlações parciais” (p. 397). A correlação quadrado para Passo “0” (ver Figura 4) representa a média quadrado de correlação fora da diagonal da matriz de correlação unpartialed. Na Etapa 1, o primeiro componente principal e seus itens associados são partialed fora. Em seguida, o quadrado médio de correlação fora da diagonal da matriz de correlação subsequente é então calculado para a Etapa 1. No Passo 2, as primeiras duas componentes principais são partialed para fora e a média resultante quadrado de correlação fora da diagonal é novamente calculado. Os cálculos são efectuados para k menos um passo (k representa o número total de variáveis ​​na matriz). Depois disso, todas as correlações quadrados médios para cada passo são alinhadas e o número da etapa em que as análises resultaram na menor média quadrado correlação parcial determina o número de componentes ou factores para reter. Por este método, os componentes são mantidos tão longo como a variância na matriz de correlação representa variação sistemática, em oposição a variância residual ou de erro. Embora metodológica semelhante a análise de componentes principais, a técnica de MAP foi mostrado para executar bastante bem para determinar o número de factores a reter em vários estudos de simulação. Este procedimento é disponibilizado através de interface de usuário do SPSS. Veja Courtney (2013) para orientação.

métodos mais antigos

Critério de Kaiser: A regra Kaiser é a queda de todos os componentes com valores próprios sob 1.0 - sendo este o autovalor igual à informação explicada por um único item média. O critério de Kaiser é o padrão no SPSS e mais software estatístico , mas não é recomendado quando usado como único critério de corte para estimar o número de fatores, uma vez que tende a sobre-extrato de fatores. Uma variação deste método foi criado onde um pesquisador calcula intervalos de confiança para cada valor próprio e retém únicos factores que têm todo o intervalo de confiança superior a 1,0.

Trama cascalho: O teste de cascalho Cattell representa os componentes como o eixo X e os correspondentes valores próprios como o eixo Y . Como se move para a direita, em direção componentes posteriores, os valores próprios cair. Quando a gota cessa ea curva faz um cotovelo em direção a menos acentuado declínio, teste scree de Cattell diz a cair todos os outros componentes após o iniciar o cotovelo. Esta regra é por vezes criticada por ser passível de "controlada pelo pesquisador falsificação ". Ou seja, como escolher o "cotovelo" pode ser subjetiva, porque a curva tem vários cotovelos ou é uma curva suave, o pesquisador pode ser tentado a definir o cut-off com o número de fatores desejados por sua agenda de pesquisa.

Variância explicada critérios: Alguns pesquisadores simplesmente usar a regra de manter fatores suficientes para dar conta de 90% (às vezes 80%) da variação. Onde o objetivo do pesquisador enfatiza parcimônia (explicando desacordo com o menor número de fatores como possível), o critério poderia ser tão baixa quanto 50%.

métodos de rotação

A saída unrotated maximiza a variância explicada pela primeira e subsequentes fatores, e obriga os fatores a ser ortogonal . Este-compressão de dados está no custo de ter a maioria dos itens da carga sobre os primeiros factores e, normalmente, ter de muitos artigos de carga substancialmente em mais do que um factor. Rotação serve para tornar a saída mais compreensível, procurando assim chamada "estrutura simples": um padrão de cargas onde cada item cargas fortemente em apenas um dos fatores, e muito mais fraca nos outros fatores. Rotações pode ser ortogonal ou oblíqua (permitindo que os factores para correlacionar).

A rotação dos fatores é uma rotação ortogonal do factor de eixos para maximizar a variância dos quadrados cargas de um factor (coluna) em todas as variáveis (linhas) em uma matriz de factores, que tem o efeito de diferenciar as variáveis originais por fator extraído. Cada factor de tenderão a ter cargas de grandes ou pequenas, de qualquer variável em particular. A produz solução varimax resultados que o tornam tão fácil quanto possível identificar cada variável com um único factor. Esta é a opção de rotação mais comum. No entanto, a ortogonalidade (ie, independência) de factores é muitas vezes uma suposição irrealista. Rotações oblíquas são inclusive de rotação ortogonal, e por essa razão, as rotações oblíquas são um método preferido. Permitindo fatores que estão correlacionados com o outro é especialmente aplicável na pesquisa psicométrica, desde atitudes, opiniões e habilidades intelectuais tendem a ser correlacionados, e uma vez que seria irrealista em muitas situações para assumir outra forma.

rotação Quartimax é uma alternativa ortogonal que minimiza o número de factores necessários para explicar cada variável. Este tipo de rotação gera muitas vezes um factor que em geral a maioria das variáveis ​​são carregados para um grau médio ou alto. Tal estrutura fator geralmente não é útil para o propósito de pesquisa.

rotação Equimax é um compromisso entre varimax e critérios quartimax.

Rotação oblíqua directa é o método padrão quando se deseja uma solução não-ortogonal (oblíquo) - isto é, uma em que se permitiu que os factores que devem ser correlacionadas. Isto irá resultar em valores próprios superiores, mas diminuiu interpretabilidade dos fatores. Ver abaixo.

Promax rotação é um método (oblíquo) rotação alternativa não ortogonal que é computacionalmente mais rápido do que o método oblimin directo e, por conseguinte, é por vezes usado para grandes conjuntos de dados .

em psicometria

História

Charles Spearman foi pioneiro no uso de análise factorial no campo da psicologia e às vezes é creditado com a invenção da análise factorial. Ele descobriu que as pontuações da escola das crianças em uma ampla variedade de temas aparentemente não relacionados foram positivamente correlacionados, o que o levou a postular que a capacidade geral mental, ou g , sustenta e molda o desempenho cognitivo humano. Seu postulado agora goza de amplo apoio no campo da pesquisa da inteligência , onde é conhecido como o g teoria .

Raymond Cattell expandiu a idéia de Spearman de uma teoria de dois fatores de inteligência depois de realizar seus próprios testes e análise fatorial. Ele usou uma teoria multi-fator para explicar a inteligência. A teoria de Cattell abordados fatores alternativos no desenvolvimento intelectual, incluindo a motivação e psicologia. Cattell também desenvolveu vários métodos matemáticos para ajustar gráficos psicométricas, tais como coeficientes de seu teste "scree" e similaridade. Sua pesquisa levou ao desenvolvimento de sua teoria da inteligência fluida e cristalizada , assim como o seu 16 Personalidade Fatores teoria da personalidade. Cattell era um forte defensor da análise fatorial e psicometria . Ele acreditava que toda teoria deve ser proveniente de pesquisa, que suporta o uso continuado de observação empírica e teste objetivo estudar a inteligência humana.

Aplicações em psicologia

Análise factor é usado para identificar "factores" que explicam uma variedade de resultados de testes diferentes. Por exemplo, a pesquisa de inteligência descobriram que as pessoas que recebem uma pontuação elevada em um teste de habilidade verbal também são bons em outros testes que exigem habilidades verbais. Pesquisadores explicaram isso usando análise fatorial para isolar um fator, muitas vezes chamado de inteligência cristalizada ou inteligência verbal, o que representa o grau em que alguém é capaz de resolver problemas que envolvem habilidades verbais.

A análise fatorial em psicologia é mais frequentemente associada com a pesquisa de inteligência. No entanto, ele também tem sido usado para encontrar fatores em uma ampla gama de domínios, tais como personalidade, atitudes, crenças, etc. Ela está ligada a psicometria , pois pode avaliar a validade de um instrumento encontrando se o instrumento de fato mede o postulado fatores.

vantagens

  • Redução do número de variáveis, através da combinação de duas ou mais variáveis em um único factor. Por exemplo, o desempenho em funcionamento, jogar bola, batedura, de salto e de elevação do peso poderia ser combinadas em um único factor tal como a capacidade atlética geral. Normalmente, em um item pela matriz pessoas, fatores são selecionados pelo agrupamento de itens relacionados. Na técnica de análise de factor Q, a matriz é transposta e factores são criados pelo agrupamento de pessoas relacionadas: por exemplo, liberais, liberais , conservadores e socialistas, poderia formar grupos separados.
  • Identificação de grupos de variáveis inter-relacionadas, para ver como eles estão relacionados uns aos outros. Por exemplo, Carroll usado análise fatorial para construir o seu Três Teoria Estrato . Ele descobriu que um fator chamado de "ampla percepção visual" relaciona-se com o quão bom um indivíduo está em tarefas visuais. Ele também descobriu um fator "ampla percepção auditiva", relativas à capacidade tarefa auditiva. Além disso, ele encontrou um fator global, chamado de "g" ou inteligência geral, que se relaciona com ambos "ampla percepção visual" e "ampla percepção auditiva". Isto significa que alguém com uma alta "g" é susceptível de ter um alto capacidade de "percepção visual" e uma alta capacidade de "percepção auditiva", e que "g", portanto, explica uma boa parte da razão pela qual alguém é bom ou ruim em ambos esses domínios.

desvantagens

  • " ... cada orientação é igualmente aceitável matematicamente. Mas diferentes teorias fatoriais provou diferem tanto em termos das orientações dos eixos fatoriais para uma determinada solução, como em termos de qualquer outra coisa, de modo que o modelo de montagem não provou ser útil em distinguir entre teorias ". (Sternberg, 1977). Isso significa que todas as rotações representam processos subjacentes diferentes, mas todas as rotações são resultados igualmente válidas de otimização análise fatorial padrão. Portanto, é impossível escolher a rotação adequada usando análise de fator sozinho.
  • A análise fatorial pode ser apenas tão bom quanto o de dados permite. Na psicologia, onde os pesquisadores muitas vezes têm de contar com medidas menos válidos e confiáveis, tais como auto-relatos, isso pode ser problemático.
  • análise fatorial interpretação é baseada na utilização de uma "heurística", que é uma solução que é "conveniente mesmo que não seja absolutamente verdade". Mais do que uma interpretação pode ser feita do mesmo dados consignado da mesma forma, e análise fatorial não pode identificar causalidade.

análise factorial exploratória contra análise de componentes principais

Enquanto análise factorial exploratória e análise de componentes principais são tratados técnicas como sinimos, em alguns campos de estatísticas, isto tem sido criticado (por exemplo Fabrigar et al, 1999;. Suhr, 2009). Na análise factorial, o pesquisador faz com que o pressuposto de que existe um modelo causal subjacente, enquanto APC é simplesmente uma técnica de redução variável. Os pesquisadores argumentam que as distinções entre as duas técnicas pode significar que existem benefícios objetivos para preferir um sobre o outro com base na meta analítica. Se o modelo de fator é formulado incorretamente ou os pressupostos não forem cumpridas, então a análise de fator vai dar resultados errados. A análise fatorial tem sido utilizado com sucesso onde compreensão adequada do sistema permite boas formulações modelo inicial. Análise de componentes principais emprega uma transformação matemática aos dados originais sem suposições sobre a forma da matriz de covariância. O objetivo do PCA é determinar algumas combinações lineares das variáveis originais que podem ser usados para resumir o conjunto de dados sem perder muita informação.

Argumentos contrastantes PCA e EFA

Fabrigar et al. (1999) tratar um número de motivos utilizados para sugerir que a análise de componentes principais não é equivalente ao factor de análise:

  1. Algumas vezes é sugerido que a análise de componentes principais é computacionalmente mais rápido e exige menos recursos do que a análise fatorial. Fabrigar et al. sugerem que a disponibilidade de recursos do computador tornaram esta preocupação prática irrelevante.
  2. PCA e análise fatorial pode produzir resultados semelhantes. Este ponto é também tratada por Fabrigar et al .; em certos casos, em que as communalities são baixos (por exemplo, 0,40), as duas técnicas produzem resultados divergentes. Na verdade, Fabrigar et al. argumentam que nos casos em que os dados correspondem aos pressupostos do modelo fator comum, os resultados de PCA são resultados imprecisos.
  3. Há certos casos em análise de fatores leva a 'casos Heywood'. Estas abrangem as situações em que 100% ou mais da variância de uma variável medida é estimada para ser contabilizadas pelo modelo. Fabrigar et al. sugerem que estes casos são realmente informativo com o pesquisador, indicando um modelo mal especificado ou uma violação do modelo fator comum. A falta de casos Heywood na abordagem PCA pode significar que essas questões passam despercebidos.
  4. Pesquisadores obter informações extra a partir de uma abordagem PCA, como resultado de um indivíduo em um determinado componente - essas informações não são produzidos a partir de análise fatorial. No entanto, como Fabrigar et al. alegam, o objectivo típico de análise factorial - isto é, para determinar os factores que representam a estrutura das correlações entre variáveis medidas - não requer conhecimentos das pontuações do factor e, assim, esta vantagem é negada. Também é possível calcular escores fatoriais de uma análise fatorial.

Variância contra covariância

Análise de fatores leva em conta o erro aleatório que é inerente a medição, enquanto PCA não o fizer. Este ponto é exemplificado por Brown (2009), que indicou que, no que diz respeito às matrizes de correlações envolvidas nos cálculos:

"No PCA, 1.00s são colocadas no sentido diagonal que toda a variância na matriz deve ser contabilizado (incluindo variância única para cada variável, variância comum entre as variáveis, ea variância de erro). Isso seria, portanto, por definição , incluem toda a variância nas variáveis. em contraste, em EFA, as comunalidades são colocadas no sentido diagonal que só a variância compartilhada com outras variáveis ​​devem ser contabilizados (excluindo variação única para cada variável e erro variância). isso seria, portanto, por definição, incluir apenas variância que é comum entre as variáveis ​​".

-  Brown (2009), a análise de componentes principais e análise fatorial exploratória - definições, diferenças e escolhas

Por esta razão, Brown (2009) recomenda o uso de análise fatorial quando existem ideias teóricas sobre relações entre as variáveis, enquanto PCA deve ser usado se o objetivo do pesquisador é explorar padrões em seus dados.

Diferenças no procedimento e resultados

As diferenças entre a análise de componentes principais e análise factorial são ainda ilustrados por Suhr (2009):

  • PCA resulta em componentes principais que representam uma quantidade máxima de variância para variáveis ​​observados; conta FA para variância comum nos dados.
  • APC insere os sobre as diagonais da matriz de correlação; FA ajusta as diagonais da matriz de correlação com os factores únicos.
  • APC minimiza a soma da distância perpendicular quadrado para o eixo do componente; FA estima fatores que influenciam as respostas sobre as variáveis ​​observadas.
  • As pontuações dos componentes em PCA representam uma combinação linear das variáveis observados ponderadas por vectores próprios ; as variáveis observados em FA são combinações lineares dos factores subjacentes e únicas.
  • No PCA, os componentes cedidos são não interpretável, ou seja, eles não representam subjacente 'constrói'; em FA, as construções subjacentes podem ser marcados e prontamente interpretado, dado um modelo preciso especificação.

em termos de marketing

Os passos básicos são:

  • Identificar os atributos mais salientes os consumidores utilizam para avaliar produtos nesta categoria.
  • Use Pesquisa de mercado quantitativa técnicas (tais como pesquisas ) para coletar dados de uma amostra de potenciais clientes acerca de suas classificações de todos os atributos do produto.
  • Inserir os dados em um programa estatístico e executar o procedimento de análise fatorial. O computador irá produzir um conjunto de atributos subjacentes (ou factores).
  • Usar estes factores para construir mapas perceptuais e outros posicionamento produto dispositivos.

Coleta de informações

A etapa de coleta de dados geralmente é feito por profissionais de pesquisa de marketing. As perguntas da pesquisa pedir ao entrevistado para avaliar uma amostra do produto ou descrições de conceitos de produtos em uma variedade de atributos. Em qualquer lugar de cinco a vinte atributos são escolhidos. Eles podem incluir coisas como: facilidade de uso, peso, precisão, durabilidade, colourfulness, preço ou tamanho. Os atributos escolhidos irão variar dependendo do produto a ser estudado. A mesma pergunta é feita sobre todos os produtos em estudo. Os dados para produtos múltiplos é codificada e de entrada num programa de estatística, tais como R , SPSS , SAS , Stata , Statistica , JMP, e SYSTAT.

Análise

A análise vai isolar os factores subjacentes que explicam os dados utilizando uma matriz de associações. Análise do Factor é uma técnica interdependência. O conjunto completo de relações interdependentes é examinada. Não há nenhuma especificação de variáveis dependentes, variáveis independentes, ou causalidade. Análise do Factor assume que todos os dados de especificação diferentes atributos pode ser reduzido a poucos dimensões importantes. Esta redução é possível porque alguns atributos podem ser relacionados entre si. A classificação dada para qualquer um atributo é parcialmente o resultado da influência de outros atributos. O algoritmo estatístico deconstructs a classificação (chamado uma pontuação bruta) nas suas diferentes componentes, e reconstitui as pontuações parciais em pontuações factor subjacente. O grau de correlação entre a pontuação bruta inicial e a contagem final factor é chamado um factor loading .

vantagens

  • Ambos os atributos objetivos e subjetivos podem ser usados ​​desde que os atributos subjetivos podem ser convertidos em pontuação.
  • Análise do Factor pode identificar dimensões latentes ou construções de que a análise directa não pode.
  • É fácil e barato.

desvantagens

  • Utilidade depende da capacidade dos pesquisadores para coletar um conjunto suficiente de atributos do produto. Se atributos importantes são excluídos ou negligenciado, o valor do procedimento é reduzida.
  • Se conjuntos de variáveis ​​observadas são muito semelhantes entre si e distintos de outros itens, análise fatorial irá atribuir um único fator para eles. Isso pode obscurecer fatores que representam relacionamentos mais interessantes.
  • fatores de nomeação pode exigir conhecimento da teoria porque os atributos aparentemente díspares pode correlacionar fortemente por razões desconhecidas.

Em ciências físicas e biológicas

Análise do Factor também tem sido amplamente usada nas ciências físicas tais como Geochemistry , hidroquímica , astrofísica e cosmologia , bem como as ciências biológicas, tais como a ecologia , biologia molecular e bioquímica .

Na gestão de qualidade das águas subterrâneas, é importante relacionar a distribuição espacial dos diferentes parâmetros químicos para diferentes fontes possíveis, que têm diferentes assinaturas químicas. Por exemplo, uma mina de sulfureto é susceptível de ser associada a elevados níveis de acidez, sulfatos dissolvidos e metais de transição. Estas assinaturas podem ser identificados como fatores por meio de análise fatorial I-mode, ea localização de possíveis fontes pode ser sugerido pelo contorno dos escores fatoriais.

Em Geochemistry , diferentes factores podem corresponder a diferentes associações minerais, e, assim, a mineralização.

Na análise de microarray

Análise dos factores pode ser usada para resumir de alta densidade oligonucleótido microarranjos de DNA de dados no nível de sonda para Affymetrix Genechips. Neste caso, a variável latente corresponde ao ARN de concentração numa amostra.

Implementação

A análise fatorial foi implementado em vários programas de análise estatística desde a década de 1980:

Veja também

Referências

Outras leituras

links externos