Redução de dimensionalidade - Dimensionality reduction

Redução de dimensionalidade , ou redução de dimensão , é a transformação de dados de um espaço de alta dimensão em um espaço de baixa dimensão de forma que a representação de baixa dimensão retenha algumas propriedades significativas dos dados originais, idealmente perto de sua dimensão intrínseca . Trabalhar em espaços de grande dimensão pode ser indesejável por muitos motivos; os dados brutos costumam ser esparsos como consequência da maldição da dimensionalidade , e a análise dos dados geralmente é computacionalmente intratável . A redução da dimensionalidade é comum em campos que lidam com um grande número de observações e / ou um grande número de variáveis, como processamento de sinal , reconhecimento de fala , neuroinformática e bioinformática .

Os métodos são comumente divididos em abordagens lineares e não lineares. As abordagens também podem ser divididas em seleção e extração de recursos . A redução de dimensionalidade pode ser usada para redução de ruído , visualização de dados , análise de cluster ou como uma etapa intermediária para facilitar outras análises.

Seleção de recursos

As abordagens de seleção de recursos tentam encontrar um subconjunto das variáveis ​​de entrada (também chamadas de recursos ou atributos). As três estratégias são: a estratégia de filtro (por exemplo, ganho de informação ), a estratégia de wrapper (por exemplo, busca guiada pela precisão) e a estratégia embutida (recursos selecionados são adicionados ou removidos durante a construção do modelo com base em erros de previsão).

A análise de dados , como regressão ou classificação, pode ser feita no espaço reduzido com mais precisão do que no espaço original.

Projeção de recursos

A projeção de recursos (também chamada de extração de recursos) transforma os dados do espaço de alta dimensão em um espaço de menos dimensões. A transformação de dados pode ser linear, como na análise de componente principal (PCA), mas também existem muitas técnicas de redução de dimensionalidade não linear . Para dados multidimensionais, a representação de tensores pode ser usada na redução da dimensionalidade por meio do aprendizado de subespaço multilinear .

Análise de componente principal (PCA)

A principal técnica linear para redução de dimensionalidade, a análise de componentes principais, realiza um mapeamento linear dos dados para um espaço de dimensão inferior de forma que a variância dos dados na representação de dimensão inferior seja maximizada. Na prática, a matriz de covariância (e às vezes a correlação ) dos dados é construída e os vetores próprios nessa matriz são calculados. Os autovetores que correspondem aos maiores autovalores (os componentes principais) agora podem ser usados ​​para reconstruir uma grande fração da variância dos dados originais. Além disso, os primeiros vectores próprios podem frequentemente ser interpretados em termos do comportamento físico em larga escala do sistema, porque frequentemente contribuem com a vasta maioria da energia do sistema, especialmente em sistemas de baixa dimensão. Ainda assim, isso deve ser comprovado caso a caso, pois nem todos os sistemas apresentam esse comportamento. O espaço original (com a dimensão do número de pontos) foi reduzido (com perda de dados, mas com sorte retendo a variância mais importante) para o espaço medido por alguns autovetores.

Fatoração de matriz não negativa (NMF)

O NMF decompõe uma matriz não negativa no produto de duas não negativas, o que tem sido uma ferramenta promissora em campos onde existem apenas sinais não negativos, como a astronomia. O NMF é bem conhecido desde a regra de atualização multiplicativa de Lee & Seung, que tem sido continuamente desenvolvida: a inclusão de incertezas, a consideração de dados faltantes e computação paralela, construção sequencial que leva à estabilidade e linearidade do NMF, bem como outros atualizações, incluindo manipulação de dados ausentes no processamento de imagem digital .

Com uma base de componentes estável durante a construção e um processo de modelagem linear, o NMF sequencial é capaz de preservar o fluxo na imagem direta de estruturas circunstelares na astromônia, como um dos métodos de detecção de exoplanetas , especialmente para a imagem direta de discos circunstelares . Em comparação com o PCA, o NMF não remove a média das matrizes, o que leva a fluxos não físicos não negativos; portanto, o NMF é capaz de preservar mais informações do que o PCA, conforme demonstrado por Ren et al.

Kernel PCA

A análise de componentes principais pode ser empregada de forma não linear por meio do truque do kernel . A técnica resultante é capaz de construir mapeamentos não lineares que maximizam a variação nos dados. A técnica resultante é chamada de kernel PCA .

PCA de kernel baseado em gráfico

Outras técnicas não lineares proeminentes incluem técnicas de aprendizado múltiplas , como Isomap , incorporação localmente linear (LLE), Hessian LLE, eigenmaps Laplacianos e métodos baseados em análise de espaço tangente. Essas técnicas constroem uma representação de dados de baixa dimensão usando uma função de custo que retém as propriedades locais dos dados e podem ser visualizadas como definindo um kernel baseado em gráfico para Kernel PCA.

Mais recentemente, foram propostas técnicas que, ao invés de definir um kernel fixo, tentam aprender o kernel usando programação semidefinida . O exemplo mais proeminente de tal técnica é o desdobramento da variância máxima (MVU). A ideia central do MVU é preservar exatamente todas as distâncias de pares entre os vizinhos mais próximos (no espaço interno do produto), enquanto maximiza as distâncias entre pontos que não são vizinhos mais próximos.

Uma abordagem alternativa para a preservação da vizinhança é por meio da minimização de uma função de custo que mede as diferenças entre as distâncias nos espaços de entrada e saída. Exemplos importantes de tais técnicas incluem: escalonamento multidimensional clássico , que é idêntico ao PCA; Isomap , que usa distâncias geodésicas no espaço de dados; mapas de difusão , que usam distâncias de difusão no espaço de dados; incorporação de vizinhos estocásticos com distribuição t (t-SNE), que minimiza a divergência entre as distribuições sobre pares de pontos; e análise de componentes curvilíneos.

Uma abordagem diferente para a redução da dimensionalidade não linear é por meio do uso de autoencoders , um tipo especial de redes neurais feedforward com uma camada oculta de gargalo. O treinamento de codificadores profundos é normalmente executado usando um pré-treinamento ganancioso em camadas (por exemplo, usando uma pilha de máquinas Boltzmann restritas ) que é seguido por um estágio de ajuste fino baseado em retropropagação .

Análise discriminante linear (LDA)

A análise discriminante linear (LDA) é uma generalização do discriminante linear de Fisher, um método usado em estatística, reconhecimento de padrões e aprendizado de máquina para encontrar uma combinação linear de recursos que caracterizam ou separam duas ou mais classes de objetos ou eventos.

Análise discriminante generalizada (GDA)

GDA lida com análise discriminante não linear usando o operador de função kernel. A teoria subjacente está próxima das máquinas de vetores de suporte (SVM), na medida em que o método GDA fornece um mapeamento dos vetores de entrada no espaço de recursos de alta dimensão. Semelhante ao LDA, o objetivo do GDA é encontrar uma projeção para os recursos em um espaço dimensional inferior, maximizando a razão de dispersão entre classes e dispersão dentro das classes.

Autoencoder

Autoencoders podem ser usados ​​para aprender funções de redução de dimensão não linear e codificações junto com uma função inversa da codificação para a representação original.

t-SNE

A incorporação de vizinho estocástico distribuído em T (t-SNE) é uma técnica de redução de dimensionalidade não linear útil para a visualização de conjuntos de dados de alta dimensão. Não é recomendado para uso em análises, como clustering ou detecção de outliers, uma vez que não necessariamente preserva bem as densidades ou distâncias.

UMAP

Aproximação e projeção de variedade uniforme (UMAP) é uma técnica de redução de dimensionalidade não linear. Visualmente, é semelhante a t-SNE, mas assume que os dados são uniformemente distribuídos em uma variedade Riemanniana conectada localmente e que a métrica Riemanniana é localmente constante ou aproximadamente localmente constante.

Redução de dimensão

Para conjuntos de dados de alta dimensão (ou seja, com número de dimensões maior que 10), a redução da dimensão é geralmente realizada antes da aplicação de um algoritmo de vizinhos K-mais próximos (k-NN) para evitar os efeitos da maldição da dimensionalidade .

Extração de características e redução de dimensão podem ser combinadas em uma etapa usando análise de componente principal (PCA), análise discriminante linear (LDA), análise de correlação canônica (CCA) ou técnicas de fatoração de matriz não negativa (NMF) como uma etapa de pré-processamento seguida agrupando por K-NN em vetores de recursos no espaço de dimensão reduzida. No aprendizado de máquina, esse processo também é chamado de incorporação de baixa dimensão .

Para conjuntos de dados de dimensões muito altas (por exemplo, ao realizar pesquisa de similaridade em streams de vídeo ao vivo, dados de DNA ou séries temporais de alta dimensão ) executando uma pesquisa K-NN aproximada rápida usando hashing sensível à localidade , projeção aleatória , "esboços" ou outros técnicas de pesquisa de similaridade em alta dimensão da caixa de ferramentas da conferência VLDB podem ser a única opção viável.

Formulários

Uma técnica de redução de dimensionalidade que às vezes é usada em neurociência são as dimensões informativas ao máximo , que encontram uma representação em uma dimensão inferior de um conjunto de dados de forma que o máximo possível de informações sobre os dados originais seja preservado.

Veja também

Notas

Referências

links externos