Recurso (aprendizado de máquina) - Feature (machine learning)

No aprendizado de máquina e no reconhecimento de padrões , um recurso é uma propriedade individual mensurável ou característica de um fenômeno. A escolha de recursos informativos, discriminantes e independentes é um elemento crucial de algoritmos eficazes no reconhecimento , classificação e regressão de padrões . Os recursos geralmente são numéricos, mas os recursos estruturais, como strings e gráficos, são usados ​​no reconhecimento de padrões sintáticos . O conceito de "recurso" está relacionado ao de variável explicativa usado em técnicas estatísticas , como a regressão linear .

Classificação

Uma característica numérica pode ser convenientemente descrita por um vetor de característica. Uma maneira de obter a classificação binária é usar uma função de predição linear (relacionada ao perceptron ) com um vetor de características como entrada. O método consiste em calcular o produto escalar entre o vetor de características e um vetor de pesos, qualificando aquelas observações cujo resultado ultrapassa um limite.

Os algoritmos para classificação de um vetor de recursos incluem classificação do vizinho mais próximo , redes neurais e técnicas estatísticas , como abordagens bayesianas .

Exemplos

No reconhecimento de caracteres , os recursos podem incluir histogramas contando o número de pixels pretos ao longo das direções horizontal e vertical, número de orifícios internos, detecção de traço e muitos outros.

No reconhecimento de fala , os recursos para reconhecer fonemas podem incluir taxas de ruído, duração dos sons, potência relativa, correspondências de filtro e muitos outros.

Em algoritmos de detecção de spam , os recursos podem incluir a presença ou ausência de determinados cabeçalhos de e-mail, a estrutura do e-mail, o idioma, a frequência de termos específicos, a correção gramatical do texto.

Na visão computacional , há um grande número de recursos possíveis , como bordas e objetos.

Extensões

Em reconhecimento de padrões e aprendizagem de máquina , um vetor de características é um n-dimensional vector de recursos numéricos que representam algum objeto. Muitos algoritmos em aprendizado de máquina requerem uma representação numérica de objetos, uma vez que tais representações facilitam o processamento e a análise estatística. Ao representar imagens, os valores dos recursos podem corresponder aos pixels de uma imagem, enquanto, ao representar textos, os recursos podem ser as frequências de ocorrência de termos textuais. Os vetores de características são equivalentes aos vetores de variáveis ​​explicativas usadas em procedimentos estatísticos , como regressão linear . Os vetores de recursos são frequentemente combinados com pesos usando um produto escalar para construir uma função de predição linear que é usada para determinar uma pontuação para fazer uma previsão.

O espaço vetorial associado a esses vetores costuma ser chamado de espaço de recurso . A fim de reduzir a dimensionalidade do espaço de recursos, uma série de técnicas de redução de dimensionalidade podem ser empregadas.

Recursos de nível superior podem ser obtidos a partir de recursos já disponíveis e adicionados ao vetor de recursos; por exemplo, para o estudo de doenças, o recurso 'Idade' é útil e é definido como Idade = 'Ano de morte' menos 'Ano de nascimento' . Este processo é conhecido como construção de recursos . A construção de recursos é a aplicação de um conjunto de operadores construtivos a um conjunto de recursos existentes, resultando na construção de novos recursos. Exemplos de tais operadores construtivos incluem a verificação das condições de igualdade {=, ≠}, os operadores aritméticos {+, -, ×, /}, os operadores de matriz {max (S), min (S), média (S)} como bem como outros operadores mais sofisticados, por exemplo, contagem (S, C) que conta o número de características no vetor de características S que satisfazem alguma condição C ou, por exemplo, distâncias para outras classes de reconhecimento generalizadas por algum dispositivo de aceitação. A construção de recursos há muito é considerada uma ferramenta poderosa para aumentar a precisão e a compreensão da estrutura, especialmente em problemas de dimensões elevadas. As aplicações incluem estudos de doenças e reconhecimento de emoções a partir da fala.

Seleção e extração

O conjunto inicial de recursos brutos pode ser redundante e grande demais para ser gerenciado. Portanto, uma etapa preliminar em muitas aplicações de aprendizado de máquina e reconhecimento de padrões consiste em selecionar um subconjunto de recursos ou construir um conjunto novo e reduzido de recursos para facilitar o aprendizado e melhorar a generalização e a interpretabilidade.

Extrair ou selecionar recursos é uma combinação de arte e ciência; desenvolver sistemas para fazer isso é conhecido como engenharia de recursos . Requer a experimentação de múltiplas possibilidades e a combinação de técnicas automatizadas com a intuição e o conhecimento do especialista no domínio . Automatizar esse processo é o aprendizado de recursos , em que uma máquina não apenas usa recursos para aprender, mas aprende os próprios recursos.

Veja também

Referências