Perseguição de projeção - Projection pursuit

Perseguição de projeção (PP) é um tipo de técnica estatística que envolve encontrar as projeções mais "interessantes" possíveis em dados multidimensionais. Freqüentemente, as projeções que se desviam mais de uma distribuição normal são consideradas mais interessantes. À medida que cada projeção é encontrada, os dados são reduzidos removendo o componente ao longo dessa projeção, e o processo é repetido para encontrar novas projeções; esse é o aspecto de "busca" que motivou a técnica conhecida como busca por correspondência .

A ideia da busca por projeção é localizar a projeção ou projeções do espaço de alta dimensão para o espaço de baixa dimensão que revelam mais detalhes sobre a estrutura do conjunto de dados. Uma vez que um conjunto interessante de projeções foi encontrado, as estruturas existentes (clusters, superfícies, etc.) podem ser extraídas e analisadas separadamente.

A busca por projeção tem sido amplamente utilizada para separação cega de fontes , por isso é muito importante na análise de componentes independentes . A busca de projeção busca uma projeção por vez, de forma que o sinal extraído seja o menos gaussiano possível.

História

A técnica de busca por projeção foi originalmente proposta e experimentada por Kruskal. Ideias relacionadas ocorrem em Switzer (1970) "Numerical classificação" pp31-43 em "Computer Applications in the Earth Sciences: Geostatistics, and Switzer e Wright (1971)" Numerical identification of eocene nummulitids, "Mathematical Geology pp 297-311. O primeiro a implementação bem-sucedida deve-se a Jerome H. Friedman e John Tukey (1974), que nomearam a busca por projeção.

O objetivo original da busca por projeção era escolher à máquina projeções de baixa dimensão "interessantes" de uma nuvem de pontos de alta dimensão maximizando numericamente uma determinada função objetiva ou índice de projeção.

Vários anos depois, Friedman e Stuetzle estenderam a ideia por trás da busca por projeção e adicionaram a regressão de busca por projeção (PPR), classificação de busca por projeção (PPC) e estimativa de densidade de busca por projeção (PPDE).

Característica

A característica mais interessante da busca por projeção é que ela é um dos poucos métodos multivariados capazes de contornar a "maldição da dimensionalidade" causada pelo fato de o espaço de alta dimensão estar quase totalmente vazio. Além disso, a busca por projeção pode ignorar variáveis ​​irrelevantes (ou seja, barulhentas e com pouca informação). Esta é uma vantagem distinta sobre os métodos baseados em distâncias entre pontos, como árvores geradoras mínimas, dimensionamento multidimensional e a maioria das técnicas de agrupamento.

Muitos dos métodos da análise multivariada clássica revelaram-se casos especiais de busca por projeção. Os exemplos são a análise de componentes principais e a análise discriminante , e os métodos quartimax e oblimax na análise fatorial .

Uma séria desvantagem dos métodos de busca por projeção é a alta demanda de tempo do computador.

Veja também

Referências