Extração de recursos - Feature extraction

No aprendizado de máquina , reconhecimento de padrões e processamento de imagem , a extração de recursos começa a partir de um conjunto inicial de dados medidos e cria valores derivados ( recursos ) destinados a serem informativos e não redundantes, facilitando as etapas subsequentes de aprendizagem e generalização e, em alguns casos, levando para melhores interpretações humanas. A extração de recursos está relacionada à redução da dimensionalidade .

Quando os dados de entrada para um algoritmo são muito grandes para serem processados ​​e suspeita-se que sejam redundantes (por exemplo, a mesma medida em pés e metros, ou a repetitividade das imagens apresentadas como pixels ), eles podem ser transformados em um conjunto reduzido de recursos (também chamado de vetor de recursos ). A determinação de um subconjunto dos recursos iniciais é chamada de seleção de recursos . Espera-se que os recursos selecionados contenham as informações relevantes dos dados de entrada, de modo que a tarefa desejada possa ser realizada usando esta representação reduzida em vez dos dados iniciais completos.

Em geral

A extração de recursos envolve a redução do número de recursos necessários para descrever um grande conjunto de dados. Ao realizar análises de dados complexos, um dos principais problemas advém do número de variáveis ​​envolvidas. A análise com um grande número de variáveis ​​geralmente requer uma grande quantidade de memória e poder de computação, também pode fazer com que um algoritmo de classificação se ajuste demais para amostras de treinamento e generalize mal para novas amostras. Extração de recurso é um termo geral para métodos de construção de combinações das variáveis ​​para contornar esses problemas enquanto ainda descreve os dados com precisão suficiente. Muitos profissionais de aprendizado de máquina acreditam que a extração de recursos adequadamente otimizada é a chave para a construção eficaz de modelos.

Os resultados podem ser melhorados usando conjuntos construídos de recursos dependentes do aplicativo, normalmente desenvolvidos por um especialista. Um desses processos é chamado de engenharia de recursos . Alternativamente, técnicas gerais de redução de dimensionalidade são usadas, tais como:

Processamento de imagem

Uma área de aplicação muito importante é o processamento de imagem , no qual algoritmos são usados ​​para detectar e isolar várias partes ou formas (recursos) desejadas de uma imagem digitalizada ou fluxo de vídeo . É particularmente importante na área de reconhecimento óptico de caracteres .

Implementações

Muitos pacotes de software de análise de dados fornecem extração de recursos e redução de dimensão. Ambientes de programação numérica comuns, como MATLAB , SciLab , NumPy , Sklearn e a linguagem R fornecem algumas das técnicas de extração de recursos mais simples (por exemplo , análise de componente principal ) por meio de comandos embutidos. Algoritmos mais específicos geralmente estão disponíveis como scripts disponíveis publicamente ou complementos de terceiros. Existem também pacotes de software direcionados a aplicativos de aprendizado de máquina de software específicos que se especializam na extração de recursos.

Veja também

Referências