Análise discriminante linear - Linear discriminant analysis

Análise discriminante linear ( LDA ), análise discriminante normal ( NDA ) ou análise de função discriminante é uma generalização do discriminante linear de Fisher , um método usado em estatísticas e outros campos, para encontrar uma combinação linear de recursos que caracterizam ou separam duas ou mais classes de objetos ou eventos. A combinação resultante pode ser usada como um classificador linear ou, mais comumente, para redução de dimensionalidade antes da classificação posterior .

O LDA está intimamente relacionado à análise de variância (ANOVA) e à análise de regressão , que também tenta expressar uma variável dependente como uma combinação linear de outras características ou medidas. No entanto, utilizações ANOVA categóricas variáveis independentes e uma contínua variável dependente , ao passo que a análise discriminante tem contínuas variáveis independentes e uma variável dependente categórica ( isto é, a etiqueta de classe). A regressão logística e a regressão probit são mais semelhantes a LDA do que a ANOVA, pois também explicam uma variável categórica pelos valores de variáveis ​​independentes contínuas. Esses outros métodos são preferíveis em aplicações onde não é razoável supor que as variáveis ​​independentes são normalmente distribuídas, o que é uma suposição fundamental do método LDA.

A LDA também está intimamente relacionada à análise de componentes principais (PCA) e à análise fatorial, pois ambas procuram combinações lineares de variáveis ​​que melhor explicam os dados. O LDA tenta explicitamente modelar a diferença entre as classes de dados. O PCA, por outro lado, não leva em consideração nenhuma diferença de classe, e a análise fatorial constrói as combinações de recursos com base em diferenças em vez de semelhanças. A análise discriminante também é diferente da análise fatorial por não ser uma técnica de interdependência: uma distinção entre variáveis ​​independentes e variáveis ​​dependentes (também chamadas de variáveis ​​de critério) deve ser feita.

O LDA funciona quando as medições feitas nas variáveis ​​independentes para cada observação são quantidades contínuas. Ao lidar com variáveis ​​independentes categóricas, a técnica equivalente é a análise de correspondência discriminante.

A análise discriminante é usada quando os grupos são conhecidos a priori (ao contrário da análise de cluster ). Cada caso deve ter uma pontuação em uma ou mais medidas preditivas quantitativas e uma pontuação em uma medida de grupo. Em termos simples, a análise da função discriminante é classificação - o ato de distribuir coisas em grupos, classes ou categorias do mesmo tipo.

História

A análise discriminante dicotômica original foi desenvolvida por Sir Ronald Fisher em 1936. É diferente de uma ANOVA ou MANOVA , que é usada para prever uma (ANOVA) ou múltiplas (MANOVA) variáveis ​​dependentes contínuas por uma ou mais variáveis ​​categóricas independentes. A análise da função discriminante é útil para determinar se um conjunto de variáveis ​​é eficaz para prever a associação da categoria.

LDA para duas classes

Considere um conjunto de observações (também chamadas de recursos, atributos, variáveis ​​ou medidas) para cada amostra de um objeto ou evento com classe conhecida . Este conjunto de amostras é denominado conjunto de treinamento . O problema de classificação é então encontrar um bom preditor para a classe de qualquer amostra da mesma distribuição (não necessariamente do conjunto de treinamento) dada apenas uma observação .

LDA aborda o problema assumindo que as funções de densidade de probabilidade condicional e são ambas a distribuição normal com parâmetros de média e covariância e , respectivamente. Sob essa suposição, a solução ótima de Bayes é prever pontos como sendo da segunda classe se o log das razões de verossimilhança for maior do que algum limite T, de modo que:

Sem quaisquer outras suposições, o classificador resultante é referido como QDA ( análise discriminante quadrática ).

Em vez disso, LDA faz a suposição de homocedasticidade simplificadora adicional ( ou seja, que as covariâncias de classe são idênticas, portanto ) e que as covariâncias têm classificação completa. Neste caso, vários termos cancelam:

porque é hermitiano

e o critério de decisão acima torna-se um limite no produto escalar

para alguma constante de limite c , onde

Isso significa que o critério de um input estar em uma classe é puramente uma função dessa combinação linear das observações conhecidas.

Muitas vezes é útil ver esta conclusão em termos geométricos: o critério de um input estar em uma classe é puramente uma função da projeção de um ponto do espaço multidimensional no vetor (portanto, consideramos apenas sua direção). Em outras palavras, a observação pertence a se o correspondente está localizado em um determinado lado de um hiperplano perpendicular a . A localização do avião é definida pelo limite c.

Premissas

As premissas da análise discriminante são as mesmas da MANOVA. A análise é bastante sensível a outliers e o tamanho do menor grupo deve ser maior do que o número de variáveis ​​preditoras.

  • Normalidade multivariada : variáveis ​​independentes são normais para cada nível da variável de agrupamento.
  • Homogeneidade de variância / covariância ( homocedasticidade ): as variâncias entre as variáveis ​​do grupo são as mesmas entre os níveis de preditores. Pode ser testado com a estatística M de Box . Foi sugerido, entretanto, que a análise discriminante linear seja usada quando as covariâncias são iguais, e que a análise discriminante quadrática pode ser usada quando as covariâncias não são iguais.
  • Multicolinearidade : o poder preditivo pode diminuir com o aumento da correlação entre as variáveis ​​preditoras.
  • Independência : presume-se que os participantes tenham uma amostra aleatória e a pontuação de um participante em uma variável é considerada independente das pontuações dessa variável para todos os outros participantes.

Foi sugerido que a análise discriminante é relativamente robusta a pequenas violações dessas premissas, e também foi mostrado que a análise discriminante ainda pode ser confiável ao usar variáveis ​​dicotômicas (onde a normalidade multivariada é frequentemente violada).

Funções discriminantes

A análise discriminante funciona criando uma ou mais combinações lineares de preditores, criando uma nova variável latente para cada função. Essas funções são chamadas de funções discriminantes. O número de funções possíveis é onde = número de grupos ou (o número de preditores), o que for menor. A primeira função criada maximiza as diferenças entre os grupos nessa função. A segunda função maximiza as diferenças nessa função, mas também não deve ser correlacionada com a função anterior. Isso continua com as funções subsequentes com o requisito de que a nova função não seja correlacionada com nenhuma das funções anteriores.

Dado grupo , com conjuntos de espaço amostral, existe uma regra discriminante de que se , então . A análise discriminante, então, encontra regiões “boas” de para minimizar o erro de classificação, levando, portanto, a um alto percentual de classificação correta na tabela de classificação.

Cada função recebe uma pontuação discriminante para determinar quão bem ela prevê a colocação do grupo.

  • Coeficientes de correlação de estrutura: A correlação entre cada preditor e a pontuação discriminante de cada função. Esta é uma correlação de ordem zero (ou seja, não corrigida para os outros preditores).
  • Coeficientes padronizados: o peso de cada preditor na combinação linear que é a função discriminante. Como em uma equação de regressão, esses coeficientes são parciais (ou seja, corrigidos para os outros preditores). Indica a contribuição exclusiva de cada preditor na previsão da atribuição de grupo.
  • Funções em Centroides de Grupo: As pontuações discriminantes médias para cada variável de agrupamento são fornecidas para cada função. Quanto mais distantes os meios estiverem, menos erros haverá na classificação.

Regras de discriminação

  • Máxima verossimilhança : atribui x ao grupo que maximiza a densidade da população (grupo).
  • Regra Discriminante de Bayes: Atribui x ao grupo que maximiza , onde π i representa a probabilidade anterior dessa classificação e representa a densidade populacional.
  • Regra discriminante linear de Fisher : Maximiza a proporção entre SS entre e SS dentro e encontra uma combinação linear dos preditores para predizer o grupo.

Autovalores

Um valor próprio na análise discriminante é a raiz característica de cada função. É uma indicação de quão bem essa função diferencia os grupos, onde quanto maior o autovalor, melhor a função se diferencia. No entanto, isso deve ser interpretado com cautela, pois os valores próprios não têm limite superior. O valor próprio pode ser visto como uma razão de SS entre e SS dentro, como em ANOVA, quando a variável dependente é a função discriminante e os grupos são os níveis de IV . Isso significa que o maior autovalor está associado à primeira função, o segundo maior à segunda, etc.

Tamanho do efeito

Alguns sugerem o uso de autovalores como medidas de tamanho do efeito , no entanto, isso geralmente não é suportado. Em vez disso, a correlação canônica é a medida preferida do tamanho do efeito. É semelhante ao valor próprio, mas é a raiz quadrada da razão de SS entre e SS total . É a correlação entre os grupos e a função. Outra medida popular do tamanho do efeito é a porcentagem de variância para cada função. Isso é calculado por: ( λ x / Σλ i ) X 100 onde λ x é o autovalor da função e Σ λ i é a soma de todos os autovalores. Isso nos diz o quão forte é a previsão para aquela função específica em comparação com as outras. A porcentagem corretamente classificada também pode ser analisada como um tamanho de efeito. O valor kappa pode descrever isso enquanto corrige para concordância casual. O Kappa normaliza em todas as categorias, em vez de ser influenciado por classes de desempenho significativamente bom ou ruim.

Análise discriminante canônica para classes k

A análise discriminante canônica (CDA) encontra os eixos ( k  - 1 coordenadas canônicas , sendo k o número de classes) que melhor separam as categorias. Essas funções lineares não são correlacionadas e definem, com efeito, um  espaço k - 1 ótimo por meio da nuvem n- dimensional de dados que melhor separa (as projeções nesse espaço) dos grupos k . Consulte “ Multiclass LDA ” para obter os detalhes abaixo.

Discriminante linear de Fisher

Os termos discriminante linear de Fisher e LDA são freqüentemente usados ​​alternadamente, embora o artigo original de Fisher realmente descreva um discriminante ligeiramente diferente, que não faz algumas das suposições de LDA, como classes normalmente distribuídas ou covariâncias de classe iguais .

Suponha que duas classes de observações tenham médias e covariâncias . Então, a combinação linear de recursos terá médias e variações para . Fisher definiu a separação entre essas duas distribuições como a razão da variância entre as classes para a variância dentro das classes:

Esta medida é, em certo sentido, uma medida da relação sinal-ruído para a rotulagem de classe. Pode-se mostrar que a separação máxima ocorre quando

Quando as premissas do LDA são satisfeitas, a equação acima é equivalente ao LDA.

Discriminante linear de Fisher visualizado como um eixo

Certifique-se de observar que o vetor é o normal ao hiperplano discriminante . Por exemplo, em um problema bidimensional, a linha que melhor divide os dois grupos é perpendicular a .

Geralmente, os pontos de dados a serem discriminados são projetados ; então, o limite que melhor separa os dados é escolhido a partir da análise da distribuição unidimensional. Não existe uma regra geral para o limite. Porém, se as projeções dos pontos de ambas as classes exibem aproximadamente as mesmas distribuições, uma boa escolha seria o hiperplano entre as projeções dos dois meios, e . Neste caso, o parâmetro c na condição de limite pode ser encontrado explicitamente:

.

O método de Otsu está relacionado ao discriminante linear de Fisher e foi criado para binarizar o histograma de pixels em uma imagem em tons de cinza, escolhendo de forma otimizada o limite de preto / branco que minimiza a variância intraclasse e maximiza a variância interclasse dentro / entre as escalas de cinza atribuídas ao preto e classes de pixels brancos.

Multiclass LDA

Visualização de um contra todos os eixos LDA para 4 classes em 3d
Projeções ao longo de eixos discriminantes lineares para 4 classes

No caso em que há mais de duas classes, a análise usada na derivação do discriminante de Fisher pode ser estendida para encontrar um subespaço que parece conter toda a variabilidade da classe. Essa generalização se deve a CR Rao . Suponha que cada uma das classes C tenha uma média e a mesma covariância . Em seguida, a dispersão entre a variabilidade de classe pode ser definida pela covariância de amostra das médias de classe

onde está a média dos meios de classe. A separação de classes em uma direção , neste caso, será dada por

Isso significa que quando é um autovetor da separação será igual ao autovalor correspondente .

Se for diagonalizável, a variabilidade entre as características estará contida no subespaço medido pelos autovetores correspondentes aos  maiores autovalores C - 1 (visto que é de classificação C  - 1 no máximo). Esses autovetores são usados ​​principalmente na redução de recursos, como no PCA. Os autovetores correspondentes aos autovalores menores tendem a ser muito sensíveis à escolha exata dos dados de treinamento, e muitas vezes é necessário usar a regularização conforme descrito na próxima seção.

Se a classificação for necessária, em vez de redução de dimensão , existem várias técnicas alternativas disponíveis. Por exemplo, as classes podem ser particionadas e um discriminante Fisher padrão ou LDA usado para classificar cada partição. Um exemplo comum disso é "um contra o resto", em que os pontos de uma classe são colocados em um grupo e tudo o mais no outro e, em seguida, o LDA é aplicado. Isso resultará em classificadores C, cujos resultados são combinados. Outro método comum é a classificação em pares, onde um novo classificador é criado para cada par de classes (dando C ( C  - 1) / 2 classificadores no total), com os classificadores individuais combinados para produzir uma classificação final.

LDA incremental

A implementação típica da técnica LDA requer que todas as amostras estejam disponíveis com antecedência. No entanto, existem situações em que todo o conjunto de dados não está disponível e os dados de entrada são observados como um fluxo. Nesse caso, é desejável que a extração do recurso LDA tenha a capacidade de atualizar os recursos LDA calculados observando as novas amostras sem executar o algoritmo em todo o conjunto de dados. Por exemplo, em muitas aplicações em tempo real, como robótica móvel ou reconhecimento facial on-line, é importante atualizar os recursos extraídos do LDA assim que novas observações estiverem disponíveis. Uma técnica de extração de recursos LDA que pode atualizar os recursos LDA simplesmente observando novas amostras é um algoritmo LDA incremental , e essa ideia foi extensivamente estudada nas últimas duas décadas. Chatterjee e Roychowdhury propuseram um algoritmo LDA auto-organizado incremental para atualizar os recursos do LDA. Em outro trabalho, Demir e Ozmehmet propuseram algoritmos de aprendizado local online para atualizar recursos de LDA de forma incremental usando correção de erros e as regras de aprendizado Hebbian. Mais tarde, Aliyari et al . algoritmos incrementais rápidos derivados para atualizar os recursos do LDA observando as novas amostras.

Uso pratico

Na prática, as médias e covariâncias de classe não são conhecidas. Eles podem, no entanto, ser estimados a partir do conjunto de treinamento. Tanto a estimativa de máxima verossimilhança quanto a estimativa máxima a posteriori podem ser usadas no lugar do valor exato nas equações acima. Embora as estimativas da covariância possam ser consideradas ótimas em algum sentido, isso não significa que o discriminante resultante obtido pela substituição desses valores seja ótimo em qualquer sentido, mesmo se a suposição de classes normalmente distribuídas estiver correta.

Outra complicação na aplicação do LDA e do discriminante de Fisher aos dados reais ocorre quando o número de medições de cada amostra (ou seja, a dimensionalidade de cada vetor de dados) excede o número de amostras em cada classe. Nesse caso, as estimativas de covariância não têm classificação completa e, portanto, não podem ser invertidas. Existem várias maneiras de lidar com isso. Uma delas é usar uma pseudoinversa em vez da matriz inversa usual nas fórmulas acima. No entanto, uma melhor estabilidade numérica pode ser alcançada projetando-se primeiro o problema no subespaço abrangido por . Outra estratégia para lidar com o pequeno tamanho da amostra é usar um estimador de contração da matriz de covariância, que pode ser expresso matematicamente como

onde é a matriz de identidade e é a intensidade de encolhimento ou parâmetro de regularização . Isso leva à estrutura da análise discriminante regularizada ou análise discriminante de redução.

Além disso, em muitos casos práticos, discriminantes lineares não são adequados. O LDA e o discriminante de Fisher podem ser estendidos para uso em classificação não linear por meio do truque do kernel . Aqui, as observações originais são efetivamente mapeadas em um espaço não linear de dimensão superior. A classificação linear neste espaço não linear é então equivalente à classificação não linear no espaço original. O exemplo mais comumente usado disso é o discriminante Fisher de kernel .

LDA pode ser generalizado para análise discriminante múltipla , onde c se torna uma variável categórica com N estados possíveis, em vez de apenas dois. Analogamente, se as densidades condicionais de classe são normais com covariâncias compartilhadas, a estatística suficiente para são os valores de N projeções, que são o subespaço medido pelas N médias, afins projetadas pela matriz de covariância inversa. Essas projeções podem ser encontradas resolvendo um problema de autovalor generalizado , onde o numerador é a matriz de covariância formada tratando as médias como as amostras, e o denominador é a matriz de covariância compartilhada. Consulte “ Multiclass LDA ” acima para obter detalhes.

Formulários

Além dos exemplos dados a seguir, o LDA é aplicado no posicionamento e na gestão de produtos .

Previsão de falência

Na previsão de falências com base em índices contábeis e outras variáveis ​​financeiras, a análise discriminante linear foi o primeiro método estatístico aplicado para explicar sistematicamente quais empresas entraram em falência versus sobreviveram. Apesar das limitações, incluindo a não conformidade conhecida dos índices contábeis com as premissas de distribuição normal da LDA, o modelo de Edward Altman de 1968 ainda é um modelo líder em aplicações práticas.

Reconhecimento facial

No reconhecimento de rosto computadorizado , cada rosto é representado por um grande número de valores de pixel. A análise discriminante linear é usada principalmente aqui para reduzir o número de recursos a um número mais gerenciável antes da classificação. Cada uma das novas dimensões é uma combinação linear de valores de pixel, que formam um modelo. As combinações lineares obtidas usando o discriminante linear de Fisher são chamadas de faces de Fisher , enquanto aquelas obtidas usando a análise de componentes principais relacionados são chamadas de eigenfaces .

Marketing

Em marketing , a análise discriminante costumava ser usada para determinar os fatores que distinguem diferentes tipos de clientes e / ou produtos com base em pesquisas ou outras formas de dados coletados. A regressão logística ou outros métodos são agora mais comumente usados. O uso da análise discriminante em marketing pode ser descrito pelas seguintes etapas:

  1. Formule o problema e reúna dados - Identifique os atributos salientes que os consumidores usam para avaliar os produtos nesta categoria - Use técnicas de pesquisa de marketing quantitativa (como pesquisas ) para coletar dados de uma amostra de clientes potenciais sobre suas classificações de todos os atributos do produto. A etapa de coleta de dados geralmente é feita por profissionais de pesquisa de marketing. As perguntas da pesquisa pedem ao entrevistado para classificar um produto de um a cinco (ou 1 a 7, ou 1 a 10) em uma gama de atributos escolhidos pelo pesquisador. Em qualquer lugar de cinco a vinte atributos são escolhidos. Eles podem incluir coisas como: facilidade de uso, peso, precisão, durabilidade, cores, preço ou tamanho. Os atributos escolhidos irão variar dependendo do produto em estudo. A mesma pergunta é feita sobre todos os produtos do estudo. Os dados para vários produtos são codificados e inseridos em um programa estatístico como R , SPSS ou SAS . (Esta etapa é igual à da análise fatorial).
  2. Estime os Coeficientes da Função Discriminante e determine a significância estatística e a validade - Escolha o método de análise discriminante apropriado. O método direto envolve estimar a função discriminante de forma que todos os preditores sejam avaliados simultaneamente. O método passo a passo insere os preditores sequencialmente. O método de dois grupos deve ser usado quando a variável dependente tem duas categorias ou estados. O método discriminante múltiplo é usado quando a variável dependente tem três ou mais estados categóricos. Use o Lambda de Wilks para testar a significância no SPSS ou F stat no SAS. O método mais comum usado para testar a validade é dividir a amostra em uma estimativa ou amostra de análise e uma amostra de validação ou validação. A amostra de estimativa é usada na construção da função discriminante. A amostra de validação é usada para construir uma matriz de classificação que contém o número de casos classificados corretamente e classificados incorretamente. A porcentagem de casos classificados corretamente é chamada de taxa de acerto .
  3. Plote os resultados em um mapa bidimensional, defina as dimensões e interprete os resultados. O programa estatístico (ou um módulo relacionado) mapeará os resultados. O mapa representará cada produto (geralmente no espaço bidimensional). A distância dos produtos entre si indica o quão diferentes eles são. As dimensões devem ser rotuladas pelo pesquisador. Isso requer julgamento subjetivo e muitas vezes é muito desafiador. Veja mapeamento perceptual .

Estudos biomédicos

A principal aplicação da análise discriminante na medicina é a avaliação do estado de gravidade de um paciente e o prognóstico da evolução da doença. Por exemplo, durante a análise retrospectiva, os pacientes são divididos em grupos de acordo com a gravidade da doença - forma leve, moderada e grave. Em seguida, os resultados das análises clínicas e laboratoriais são estudados a fim de revelar variáveis ​​que são estatisticamente diferentes nos grupos estudados. Usando essas variáveis, funções discriminantes são construídas que ajudam a classificar objetivamente a doença em um futuro paciente na forma leve, moderada ou grave.

Em biologia, princípios semelhantes são usados ​​para classificar e definir grupos de diferentes objetos biológicos, por exemplo, para definir tipos de fago de Salmonella enteritidis com base em espectros infravermelhos de transformada de Fourier, para detectar origem animal de Escherichia coli estudando seus fatores de virulência etc.

Ciência da Terra

Este método pode ser usado para separar as zonas de alteração . Por exemplo, quando dados diferentes de várias zonas estão disponíveis, a análise discriminante pode encontrar o padrão dentro dos dados e classificá-lo de forma eficaz.

Comparação com regressão logística

A análise da função discriminante é muito semelhante à regressão logística e ambas podem ser usadas para responder às mesmas perguntas de pesquisa. A regressão logística não tem tantas premissas e restrições quanto a análise discriminante. No entanto, quando as suposições da análise discriminante são atendidas, ela é mais poderosa do que a regressão logística. Ao contrário da regressão logística, a análise discriminante pode ser usada com tamanhos de amostra pequenos. Foi demonstrado que quando os tamanhos das amostras são iguais e a homogeneidade da variância / covariância se mantém, a análise discriminante é mais precisa. Apesar de todas essas vantagens, a regressão logística tornou-se, no entanto, a escolha comum, uma vez que os pressupostos da análise discriminante raramente são atendidos.

Discriminante linear em alta dimensão

Anomalias geométricas em dimensões elevadas levam à conhecida maldição da dimensionalidade . No entanto, a utilização adequada dos fenômenos de concentração de medidas pode tornar o cálculo mais fácil. Um caso importante dessa bênção de fenômenos de dimensionalidade foi destacado por Donoho e Tanner: se uma amostra é essencialmente alta dimensional, cada ponto pode ser separado do resto da amostra por desigualdade linear, com alta probabilidade, mesmo para amostras exponencialmente grandes. Essas desigualdades lineares podem ser selecionadas na forma padrão (Fisher) do discriminante linear para uma família rica de distribuição de probabilidade. Em particular, tais teoremas são comprovados para distribuições log-côncavas, incluindo distribuição normal multidimensional (a prova é baseada nas desigualdades de concentração para medidas log-côncavas) e para medidas de produto em um cubo multidimensional (isso é comprovado usando a desigualdade de concentração de Talagrand para probabilidade de produto espaços). A separabilidade de dados por discriminantes lineares clássicos simplifica o problema de correção de erros para sistemas de inteligência artificial em alta dimensão.

Veja também

Referências

Leitura adicional

links externos