Extração de recursos - Feature extraction
No aprendizado de máquina , reconhecimento de padrões e processamento de imagem , a extração de recursos começa a partir de um conjunto inicial de dados medidos e cria valores derivados ( recursos ) destinados a serem informativos e não redundantes, facilitando as etapas subsequentes de aprendizagem e generalização e, em alguns casos, levando para melhores interpretações humanas. A extração de recursos está relacionada à redução da dimensionalidade .
Quando os dados de entrada para um algoritmo são muito grandes para serem processados e suspeita-se que sejam redundantes (por exemplo, a mesma medida em pés e metros, ou a repetitividade das imagens apresentadas como pixels ), eles podem ser transformados em um conjunto reduzido de recursos (também chamado de vetor de recursos ). A determinação de um subconjunto dos recursos iniciais é chamada de seleção de recursos . Espera-se que os recursos selecionados contenham as informações relevantes dos dados de entrada, de modo que a tarefa desejada possa ser realizada usando esta representação reduzida em vez dos dados iniciais completos.
Em geral
A extração de recursos envolve a redução do número de recursos necessários para descrever um grande conjunto de dados. Ao realizar análises de dados complexos, um dos principais problemas advém do número de variáveis envolvidas. A análise com um grande número de variáveis geralmente requer uma grande quantidade de memória e poder de computação, também pode fazer com que um algoritmo de classificação se ajuste demais para amostras de treinamento e generalize mal para novas amostras. Extração de recurso é um termo geral para métodos de construção de combinações das variáveis para contornar esses problemas enquanto ainda descreve os dados com precisão suficiente. Muitos profissionais de aprendizado de máquina acreditam que a extração de recursos adequadamente otimizada é a chave para a construção eficaz de modelos.
Os resultados podem ser melhorados usando conjuntos construídos de recursos dependentes do aplicativo, normalmente desenvolvidos por um especialista. Um desses processos é chamado de engenharia de recursos . Alternativamente, técnicas gerais de redução de dimensionalidade são usadas, tais como:
- Análise de componente independente
- Isomap
- Kernel PCA
- Análise semântica latente
- Mínimos quadrados parciais
- Análise do componente principal
- Redução de dimensionalidade multifatorial
- Redução de dimensionalidade não linear
- Análise Multilinear de Componente Principal
- Aprendizagem subespaço multilinear
- Incorporação semidefinida
- Autoencoder
Processamento de imagem
Uma área de aplicação muito importante é o processamento de imagem , no qual algoritmos são usados para detectar e isolar várias partes ou formas (recursos) desejadas de uma imagem digitalizada ou fluxo de vídeo . É particularmente importante na área de reconhecimento óptico de caracteres .
Implementações
Muitos pacotes de software de análise de dados fornecem extração de recursos e redução de dimensão. Ambientes de programação numérica comuns, como MATLAB , SciLab , NumPy , Sklearn e a linguagem R fornecem algumas das técnicas de extração de recursos mais simples (por exemplo , análise de componente principal ) por meio de comandos embutidos. Algoritmos mais específicos geralmente estão disponíveis como scripts disponíveis publicamente ou complementos de terceiros. Existem também pacotes de software direcionados a aplicativos de aprendizado de máquina de software específicos que se especializam na extração de recursos.
Veja também
- Análise de cluster
- Redução de dimensionalidade
- Detecção de recursos
- Seleção de recursos
- Mineração de dados
- Rotulagem de componente conectado
- Segmentação (processamento de imagem)
- Mapeamento do espaço
- Textura dinâmica
- Radiomics