Fatoração de matriz não negativa - Non-negative matrix factorization

Ilustração de fatoração matriz não-negativo aproximada: a matriz V está representada pelas duas matrizes menores W e H , que, quando multiplicado, aproximadamente reconstruir V .

Fatoração de matriz não negativa ( NMF ou NNMF ), também aproximação de matriz não negativa é um grupo de algoritmos em análise multivariada e álgebra linear onde uma matriz V é fatorada em (geralmente) duas matrizes W e H , com a propriedade de que todas as três matrizes não possuem elementos negativos. Essa não negatividade torna as matrizes resultantes mais fáceis de inspecionar. Além disso, em aplicações como processamento de espectrogramas de áudio ou atividade muscular, a não negatividade é inerente aos dados considerados. Uma vez que o problema não é exatamente resolvível em geral, ele é comumente aproximado numericamente.

O NMF encontra aplicações em áreas como astronomia , visão computacional , agrupamento de documentos , imputação de dados perdidos , quimiometria , processamento de sinal de áudio , sistemas de recomendação e bioinformática .

História

Em quimiometria , a fatoração de matrizes não negativas tem uma longa história com o nome de "resolução de curva de auto modelagem". Neste quadro, os vetores na matriz certa são curvas contínuas em vez de vetores discretos. Também os primeiros trabalhos sobre fatorações de matrizes não negativas foram realizados por um grupo finlandês de pesquisadores na década de 1990 sob o nome de fatoração de matrizes positivas . Tornou-se mais conhecido como fatoração de matriz não negativa depois que Lee e Seung investigaram as propriedades do algoritmo e publicaram alguns algoritmos simples e úteis para dois tipos de fatoração.

Fundo

Seja a matriz V o produto das matrizes W e H ,

A multiplicação de matrizes pode ser implementado como computar os vectores de coluna de V como combinações lineares dos vectores de coluna em W utilizando coeficientes fornecidos por colunas de H . Ou seja, cada coluna de V pode ser calculada da seguinte forma:

onde v i é o i vetor coluna -ésimo da matriz de produto de V e h i é o i -ésimo vector coluna da matriz H .

Ao multiplicar matrizes, as dimensões das matrizes de fator podem ser significativamente menores do que as da matriz de produto e é essa propriedade que forma a base do NMF. O NMF gera fatores com dimensões significativamente reduzidas em comparação com a matriz original. Por exemplo, se V é uma matriz m × n , W é uma matriz m × p e H é uma matriz p × n , então p pode ser significativamente menor do que m e n .

Aqui está um exemplo baseado em um aplicativo de mineração de texto:

  • Deixe a matriz de entrada (a matriz a ser fatorada) ser V com 10.000 linhas e 500 colunas onde as palavras estão nas linhas e os documentos estão nas colunas. Ou seja, temos 500 documentos indexados por 10.000 palavras. Segue-se que um vetor coluna v em V representa um documento.
  • Suponha que pedimos ao algoritmo para encontrar 10 características para gerar uma matriz de características W com 10.000 linhas e 10 colunas e uma matriz de coeficientes H com 10 linhas e 500 colunas.
  • O produto de W e H é uma matriz com 10000 linhas e 500 colunas, da mesma forma como a matriz de entrada V e, se Fatorização trabalhado, é uma aproximação razoável para a matriz de entrada V .
  • A partir do tratamento de multiplicação de matrizes acima segue-se que cada coluna na matriz de produto WH é uma combinação linear dos vectores de coluna 10 na matriz apresenta W com coeficientes fornecidos pelos coeficientes da matriz H .

Este último ponto é a base do NMF porque podemos considerar cada documento original em nosso exemplo como sendo construído a partir de um pequeno conjunto de recursos ocultos. O NMF gera esses recursos.

É útil pensar em cada característica (vetor de coluna) na matriz de características W como um arquétipo de documento que compreende um conjunto de palavras onde o valor da célula de cada palavra define a classificação da palavra na característica: Quanto mais alto o valor da célula da palavra, maior a classificação da palavra no recurso. Uma coluna na matriz de coeficientes H representa um documento original com um valor de célula que define a classificação do documento para um elemento. Podemos agora reconstituir um documento (vector de coluna) a partir de nosso matriz de entrada por uma combinação linear dos nossos recursos (vectores de coluna em W ) onde cada característica é ponderado por valor da célula do elemento de coluna do documento em H .

Propriedade de agrupamento

O NMF possui uma propriedade de agrupamento inerente, ou seja, agrupa automaticamente as colunas de dados de entrada .

Mais especificamente, a aproximação de por é obtida encontrando e minimizando a função de erro

sujeito a

Se, além disso, impomos uma restrição de ortogonalidade , ou seja , a minimização acima é matematicamente equivalente à minimização do agrupamento de K-médias .

Além disso, o calculado fornece a associação do cluster, ou seja, se para todo ik , isso sugere que os dados de entrada pertencem ao -ésimo cluster. O calculado fornece os centróides do cluster, ou seja, a -ésima coluna fornece o centróide do -ésimo cluster. A representação desse centróide pode ser significativamente aprimorada por NMF convexo.

Quando a restrição de ortogonalidade não é imposta explicitamente, a ortogonalidade se mantém em grande parte e a propriedade de agrupamento também. O agrupamento é o objetivo principal da maioria das aplicações de mineração de dados de NMF.

Quando a função de erro a ser usada é a divergência de Kullback-Leibler , o NMF é idêntico à análise semântica latente probabilística , um método popular de agrupamento de documentos.

Tipos

Fatoração aproximada de matriz não negativa

Normalmente, o número de colunas de W e o número de linhas de H em NMF são seleccionados de modo que o produto WH irá tornar-se uma aproximação a V . A decomposição completa de V , em seguida, eleva-se para as duas matrizes não-negativos W e H , bem como um resíduo L , de tal modo que: V = WH + U . Os elementos da matriz residual podem ser negativos ou positivos.

Quando W e H são menores do que V, eles se tornam mais fáceis de armazenar e manipular. Outra razão para fatorar V em matrizes menores W e H , é que se alguém for capaz de representar aproximadamente os elementos de V por um número significativamente menor de dados, então será necessário inferir alguma estrutura latente nos dados.

Fatoração de matriz convexa não negativa

No NMF padrão, o fator de matriz WR + m × k , ou seja, W pode ser qualquer coisa naquele espaço. O NMF convexo restringe as colunas de W a combinações convexas dos vetores de dados de entrada . Isto melhora consideravelmente a qualidade da representação de dados de W . Além disso, o fator de matriz H resultante torna - se mais esparso e ortogonal.

Fatoração de classificação não negativa

No caso de a classificação não negativa de V ser igual à sua classificação real, V = WH é chamada de fatoração de classificação não negativa (NRF). O problema de encontrar o NRF de V , se existir, é conhecido como NP-difícil.

Diferentes funções de custo e regularizações

Existem diferentes tipos de fatorações de matrizes não negativas. Os diferentes tipos surgem do uso de diferentes funções de custo para medir a divergência entre V e WH e, possivelmente, pela regularização das matrizes W e / ou H.

Duas funções de divergência simples estudadas por Lee e Seung são o erro quadrático (ou norma de Frobenius ) e uma extensão da divergência de Kullback-Leibler para matrizes positivas (a divergência de Kullback-Leibler original é definida em distribuições de probabilidade). Cada divergência leva a um algoritmo de NMF diferente, geralmente minimizando a divergência usando regras de atualização iterativas.

O problema de fatoração na versão de erro quadrático do NMF pode ser declarado como: Dada uma matriz encontre matrizes não negativas W e H que minimizam a função

Outro tipo de NMF para imagens é baseado na norma de variação total .

Quando a regularização L1 (semelhante a Lasso ) é adicionada ao NMF com a função de custo de erro quadrático médio, o problema resultante pode ser chamado de codificação esparsa não negativa devido à semelhança com o problema de codificação esparsa , embora também possa ser referido como NMF.

NMF online

Muitos algoritmos NMF padrão analisam todos os dados juntos; ou seja, toda a matriz está disponível desde o início. Isso pode ser insatisfatório em aplicativos onde há muitos dados para caber na memória ou onde os dados são fornecidos em forma de fluxo . Um desses usos é para filtragem colaborativa em sistemas de recomendação , onde pode haver muitos usuários e muitos itens a serem recomendados, e seria ineficiente recalcular tudo quando um usuário ou um item é adicionado ao sistema. A função de custo para otimização nesses casos pode ou não ser a mesma do NMF padrão, mas os algoritmos precisam ser bastante diferentes.

Algoritmos

Existem várias maneiras nas quais W e H podem ser encontrados: A regra de atualização multiplicativa de Lee e Seung tem sido um método popular devido à simplicidade de implementação. Este algoritmo é:

inicializar: W e H não negativo.
Em seguida, atualize os valores em W e H calculando o seguinte, com um índice da iteração.
e
Até que W e H sejam estáveis.

Observe que as atualizações são feitas elemento por elemento, não por multiplicação de matriz.

Notamos que os fatores multiplicativos para W e H , ou seja, os termos e , são matrizes de uns quando .

Mais recentemente, outros algoritmos foram desenvolvidos. Algumas abordagens são baseadas em mínimos quadrados alternados não negativos : em cada etapa de tal algoritmo, primeiro H é fixo e W encontrado por um solucionador de quadrados mínimos não negativos, então W é fixo e H é encontrado analogamente. Os procedimentos utilizados para resolver para W e H podem ser o mesmo ou diferente, como algumas variantes NMF um regularizar de W e H . Abordagens específicas incluem os métodos de descida do gradiente projetado , o método do conjunto ativo , o método do gradiente ideal e o método de pivotamento principal do bloco, entre vários outros.

Os algoritmos atuais são subótimos, pois garantem apenas encontrar um mínimo local, em vez de um mínimo global da função de custo. Um algoritmo provavelmente ótimo é improvável em um futuro próximo, pois o problema demonstrou generalizar o problema de agrupamento de k-means, que é conhecido como NP-completo . No entanto, como em muitas outras aplicações de mineração de dados, um mínimo local ainda pode ser útil.

Gráficos de variância residual fracionária (FRV) para PCA e NMF sequencial; para PCA, os valores teóricos são a contribuição dos autovalores residuais. Em comparação, as curvas de FRV para PCA atingem um patamar plano onde nenhum sinal é capturado de forma eficaz; enquanto as curvas NMF FRV estão diminuindo continuamente, indicando uma melhor capacidade de capturar o sinal. As curvas de FRV para NMF também convergem para níveis mais altos do que PCA, indicando a propriedade menos superajuste do NMF.

NMF sequencial

A construção sequencial de componentes de NMF ( W e H ) foi primeiramente usada para relacionar NMF com Análise de Componentes Principais (PCA) em astronomia. A contribuição dos componentes do PCA é classificada pela magnitude de seus autovalores correspondentes; para NMF, seus componentes podem ser classificados empiricamente quando são construídos um a um (sequencialmente), ou seja, aprendem o -ésimo componente com os primeiros componentes construídos.

A contribuição dos componentes sequenciais do NMF pode ser comparada com o teorema de Karhunen-Loève , uma aplicação do PCA, usando o gráfico de autovalores. Uma escolha típica do número de componentes com PCA é baseada no ponto de "cotovelo", então a existência do platô plano indica que o PCA não está capturando os dados de forma eficiente e, por fim, existe uma queda repentina refletindo a captura de dados aleatórios ruído e cai no regime de sobreajuste. Para NMF sequencial, o gráfico de valores próprios é aproximado pelo gráfico das curvas de variância residual fracionária, onde as curvas diminuem continuamente e convergem para um nível mais alto do que PCA, que é a indicação de menos sobreajuste de NMF sequencial.

NMF exato

Soluções exactos para as variantes de NMF pode ser esperado (em tempo polinomial) quando restrições adicionais para segurar matriz V . Um algoritmo de tempo polinomial para resolver a fatoração de classificação não negativa se V contém uma submatriz monomial de classificação igual à sua classificação foi fornecido por Campbell e Poole em 1981. Kalofolias e Gallopoulos (2012) resolveram a contraparte simétrica deste problema, onde V é simétrico e contém uma submatriz principal diagonal de classificação r. Seu algoritmo é executado em tempo O (rm 2 ) no caso denso. Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu, & Zhu (2013) fornecem um algoritmo de tempo polinomial para NMF exato que funciona para o caso em que um dos fatores W satisfaz uma condição de separabilidade.

Relação com outras técnicas

Em Aprendizagem de partes de objetos por fatoração de matriz não negativa, Lee e Seung propuseram NMF principalmente para decomposição baseada em partes de imagens. Ele compara o NMF à quantização vetorial e à análise de componentes principais e mostra que, embora as três técnicas possam ser escritas como fatorações, elas implementam restrições diferentes e, portanto, produzem resultados diferentes.

NMF como modelo gráfico probabilístico: unidades visíveis ( V ) são conectadas a unidades ocultas ( H ) por meio de pesos W , de forma que V é gerado a partir de uma distribuição de probabilidade com média .

Posteriormente, foi demonstrado que alguns tipos de NMF são exemplos de um modelo probabilístico mais geral denominado "PCA multinomial". Quando o NMF é obtido minimizando a divergência de Kullback-Leibler , é de fato equivalente a outra instância de PCA multinomial, a análise semântica latente probabilística , treinada por estimativa de máxima verossimilhança . Esse método é comumente usado para analisar e agrupar dados textuais e também está relacionado ao modelo de classe latente .

O NMF com o objetivo de mínimos quadrados é equivalente a uma forma relaxada de agrupamento de K-médias : o fator de matriz W contém centróides de cluster e H contém indicadores de associação de cluster. Isso fornece uma base teórica para usar o NMF para agrupamento de dados. No entanto, k-means não impõe a não-negatividade em seus centróides, então a analogia mais próxima é, de fato, com "semi-NMF".

O NMF pode ser visto como um modelo gráfico direcionado de duas camadas com uma camada de variáveis ​​aleatórias observadas e uma camada de variáveis ​​aleatórias ocultas.

NMF se estende além de matrizes para tensores de ordem arbitrária. Essa extensão pode ser vista como uma contrapartida não negativa, por exemplo, do modelo PARAFAC .

Outras extensões do NMF incluem a fatoração conjunta de várias matrizes de dados e tensores, onde alguns fatores são compartilhados. Esses modelos são úteis para fusão de sensores e aprendizagem relacional.

NMF é uma instância de programação quadrática não negativa ( NQP ), assim como a máquina de vetores de suporte (SVM). No entanto, o SVM e o NMF estão relacionados em um nível mais íntimo do que o do NQP, o que permite a aplicação direta dos algoritmos de solução desenvolvidos para qualquer um dos dois métodos a problemas em ambos os domínios.

Singularidade

A fatoração não é única: uma matriz e seu inverso podem ser usados ​​para transformar as duas matrizes de fatoração por, por exemplo,

Se as duas novas matrizes e forem não negativas, elas formam outra parametrização da fatoração.

A não negatividade de e se aplica pelo menos se B for uma matriz monomial não negativa . Neste caso simples, corresponderá apenas a uma escala e uma permutação .

Mais controle sobre a não exclusividade do NMF é obtido com restrições de dispersão.

Formulários

Astronomia

Em astronomia, o NMF é um método promissor para redução de dimensão no sentido de que os sinais astrofísicos não são negativos. O NMF foi aplicado às observações espectroscópicas e às observações diretas de imagens como um método para estudar as propriedades comuns de objetos astronômicos e pós-processar as observações astronômicas. Os avanços nas observações espectroscópicas de Blanton & Roweis (2007) levam em consideração as incertezas das observações astronômicas, que são posteriormente aprimoradas por Zhu (2016) onde os dados ausentes também são considerados e a computação paralela é habilitada. Seu método é então adotado por Ren et al. (2018) para o campo de imagem direta como um dos métodos de detecção de exoplanetas , especialmente para a imagem direta de discos circunstelares .

Ren et al. (2018) são capazes de provar a estabilidade dos componentes do NMF quando eles são construídos sequencialmente (ou seja, um por um), o que permite a linearidade do processo de modelagem do NMF; a propriedade de linearidade é usada para separar a luz estelar e a luz espalhada dos exoplanetas e discos circunstelares .

Na imagem direta, para revelar os exoplanetas fracos e discos circunstelares brilhantes das luzes estelares circundantes, que tem um contraste típico de 10⁵ a 10¹⁰, vários métodos estatísticos foram adotados, no entanto, a luz dos exoplanetas ou discos circunstelares são geralmente superdimensionados , onde a modelagem direta deve ser adotada para recuperar o fluxo verdadeiro. A modelagem direta é atualmente otimizada para fontes pontuais, mas não para fontes estendidas, especialmente para estruturas de formato irregular, como discos circunstelares. Nesta situação, o NMF tem sido um método excelente, sendo menos sobreajustado no sentido de não negatividade e esparsidade dos coeficientes de modelagem do NMF, portanto, a modelagem direta pode ser realizada com alguns fatores de escala, em vez de dados computacionalmente intensivos re-redução nos modelos gerados.

Imputação de dados

Para imputar dados perdidos nas estatísticas, o NMF pode pegar dados perdidos enquanto minimiza sua função de custo, em vez de tratar esses dados perdidos como zeros. Isso o torna um método matematicamente comprovado para imputação de dados em estatísticas. Provando primeiro que os dados ausentes são ignorados na função de custo e, em seguida, provando que o impacto dos dados ausentes pode ser tão pequeno quanto um efeito de segunda ordem, Ren et al. (2020) estudou e aplicou tal abordagem para o campo da astronomia. Seu trabalho se concentra em matrizes bidimensionais, especificamente, inclui derivação matemática, imputação de dados simulados e aplicação a dados no céu.

O procedimento de imputação de dados com NMF pode ser composto de duas etapas. Em primeiro lugar, quando os componentes do NMF são conhecidos, Ren et al. (2020) provou que o impacto da falta de dados durante a imputação de dados ("modelagem alvo" em seu estudo) é um efeito de segunda ordem. Em segundo lugar, quando os componentes do NMF são desconhecidos, os autores provaram que o impacto da falta de dados durante a construção do componente é um efeito de primeira para segunda ordem.

Dependendo da forma como os componentes do NMF são obtidos, a primeira etapa acima pode ser independente ou dependente da última. Além disso, a qualidade de imputação pode ser aumentada quando mais componentes de NMF são usados, consulte a Figura 4 de Ren et al. (2020) para sua ilustração.

Mineração de texto

O NMF pode ser usado para aplicações de mineração de texto . Nesse processo, uma matriz documento-termo é construída com os pesos de vários termos (geralmente informações de frequência de palavras ponderadas) de um conjunto de documentos. Esta matriz é fatorada em uma matriz de recurso de termo e documento de recurso . Os recursos são derivados do conteúdo dos documentos, e a matriz de recursos-documento descreve clusters de dados de documentos relacionados.

Um aplicativo específico usou NMF hierárquico em um pequeno subconjunto de resumos científicos do PubMed . Outro grupo de pesquisa agrupou partes do conjunto de dados de e-mail da Enron com 65.033 mensagens e 91.133 termos em 50 grupos. O NMF também foi aplicado a dados de citações, com um exemplo agrupando artigos da Wikipedia em inglês e periódicos científicos com base nas citações científicas enviadas na Wikipedia em inglês.

Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu, & Zhu (2013) forneceram algoritmos de tempo polinomial para aprender modelos de tópicos usando NMF. O algoritmo assume que a matriz de tópicos satisfaz uma condição de separabilidade que costuma ser encontrada nessas configurações.

Hassani, Iranmanesh e Mansouri (2019) propuseram um método de aglomeração de características para matrizes de documentos de termo que opera usando NMF. O algoritmo reduz a matriz do termo-documento em uma matriz menor, mais adequada para agrupamento de texto.

Análise de dados espectrais

O NMF também é usado para analisar dados espectrais; um desses usos é na classificação de objetos espaciais e detritos.

Previsão escalável da distância da Internet

O NMF é aplicado na previsão escalonável da distância da Internet (tempo de ida e volta). Para uma rede com hosts, com a ajuda do NMF, as distâncias de todos os links ponta a ponta podem ser previstas após a realização de apenas medições. Esse tipo de método foi introduzido pela primeira vez no Serviço de Estimativa de Distância da Internet (IDES). Posteriormente, como uma abordagem totalmente descentralizada, o sistema de coordenadas da rede Phoenix é proposto. Ele atinge uma melhor precisão geral de previsão ao introduzir o conceito de peso.

Denoising de fala não estacionária

A remoção de ruído da fala tem sido um problema de longa data no processamento de sinais de áudio . Existem muitos algoritmos para redução de ruído se o ruído for estacionário. Por exemplo, o filtro Wiener é adequado para ruído gaussiano aditivo . No entanto, se o ruído não for estacionário, os algoritmos clássicos de eliminação de ruído geralmente têm um desempenho ruim porque a informação estatística do ruído não estacionário é difícil de estimar. Schmidt et al. use o NMF para fazer a redução de ruído da fala sob ruído não estacionário, o que é completamente diferente das abordagens estatísticas clássicas. A ideia principal é que o sinal de fala limpo pode ser representado esparsamente por um dicionário de fala, mas o ruído não estacionário não. Da mesma forma, o ruído não estacionário também pode ser representado esparsamente por um dicionário de ruído, mas a fala não.

O algoritmo para remoção de ruído NMF é o seguinte. Dois dicionários, um para fala e outro para ruído, precisam ser treinados off-line. Uma vez que uma fala barulhenta é dada, primeiro calculamos a magnitude da Transformada de Fourier de Curto Tempo. Em segundo lugar, separe-o em duas partes via NMF, uma pode ser esparsamente representada pelo dicionário de fala e a outra parte pode ser esparsamente representada pelo dicionário de ruído. Terceiro, a parte representada pelo dicionário de fala será a fala limpa estimada.

Genética Populacional

O NMF esparso é usado em genética de populações para estimar coeficientes de mistura individuais, detectar grupos genéticos de indivíduos em uma amostra populacional ou avaliar a mistura genética em genomas amostrados. No agrupamento genético humano, os algoritmos de NMF fornecem estimativas semelhantes às do programa de computador STRUCTURE, mas os algoritmos são mais eficientes computacionalmente e permitem a análise de grandes conjuntos de dados genômicos de populações.

Bioinformática

O NMF foi aplicado com sucesso em bioinformática para agrupar a expressão de genes e dados de metilação de DNA e encontrar os genes mais representativos dos agrupamentos. Na análise de mutações do câncer, tem sido usado para identificar padrões comuns de mutações que ocorrem em muitos tipos de câncer e que provavelmente têm causas distintas. As técnicas de NMF podem identificar fontes de variação, como tipos de células, subtipos de doenças, estratificação da população, composição do tecido e clonalidade do tumor.

Imagem nuclear

O NMF, também conhecido neste campo como análise fatorial, tem sido usado desde a década de 1980 para analisar sequências de imagens em imagens médicas dinâmicas SPECT e PET . A não exclusividade do NMF foi abordada usando restrições de dispersão.

Pesquisa atual

A pesquisa atual (desde 2010) em fatoração de matriz não negativa inclui, mas não está limitada a,

  1. Algorítmico: busca de mínimos globais dos fatores e inicialização do fator.
  2. Escalabilidade: como fatorar matrizes milhões por bilhão, que são comuns na mineração de dados em escala da Web, por exemplo, consulte Distributed Nonnegative Matrix Factorization (DNMF), Scalable Nonnegative Matrix Factorization (ScalableNMF), Distributed Stochastic Singular Value Decomposition.
  3. Online: como atualizar a fatoração quando novos dados chegam sem recomputar do zero, por exemplo, consulte o CNSC online
  4. Fatoração coletiva (conjunta): fatoração de matrizes múltiplas inter-relacionadas para aprendizado de múltiplas visões, por exemplo, agrupamento de múltiplas visões, consulte CoNMF e MultiNMF
  5. Problema de Cohen e Rothblum 1993: se uma matriz racional sempre tem um NMF de dimensão interna mínima cujos fatores também são racionais. Recentemente, este problema foi respondido negativamente.

Veja também

Fontes e links externos

Notas

Outros