Regressão não paramétrica - Nonparametric regression

A regressão não paramétrica é uma categoria de análise de regressão na qual o preditor não assume uma forma predeterminada, mas é construído de acordo com as informações derivadas dos dados. Ou seja, nenhuma forma paramétrica é assumida para o relacionamento entre preditores e variável dependente. A regressão não paramétrica requer tamanhos de amostra maiores do que a regressão baseada em modelos paramétricos porque os dados devem fornecer a estrutura do modelo, bem como as estimativas do modelo.

Definição

Na regressão não paramétrica, temos variáveis aleatórias e e assumir a seguinte relação:

onde está alguma função determinística. A regressão linear é um caso restrito de regressão não paramétrica em que é considerada afim. Alguns autores usam uma suposição um pouco mais forte de ruído aditivo:

onde a variável aleatória é o `termo de ruído ', com média 0. Sem a suposição de que pertence a uma família paramétrica específica de funções, é impossível obter uma estimativa não enviesada para , no entanto, a maioria dos estimadores são consistentes sob condições adequadas.

Lista de algoritmos de regressão não paramétrica de uso geral

Esta é uma lista não exaustiva de algoritmos adequados para problemas de regressão não paramétrica.

Exemplos

Regressão do processo gaussiano ou Krigagem

Na regressão do processo gaussiano, também conhecida como Krigagem, um prior gaussiano é assumido para a curva de regressão. Os erros são assumidos como tendo uma distribuição normal multivariada e a curva de regressão é estimada por seu modo posterior . O prior gaussiano pode depender de hiperparâmetros desconhecidos, que geralmente são estimados via Bayes empírica . Os hiperparâmetros normalmente especificam um kernel de covariância anterior. Caso o kernel também deva ser inferido não parametricamente a partir dos dados, o filtro crítico pode ser usado.

As splines de suavização têm uma interpretação como o modo posterior de uma regressão de processo gaussiano.

Regressão de kernel

Exemplo de uma curva (linha vermelha) ajustada a um pequeno conjunto de dados (pontos pretos) com regressão não paramétrica usando um suavizador de kernel gaussiano. A área sombreada em rosa ilustra a função kernel aplicada para obter uma estimativa de y para um determinado valor de x. A função kernel define o peso dado a cada ponto de dados na produção da estimativa para um ponto alvo.

A regressão do kernel estima a variável dependente contínua a partir de um conjunto limitado de pontos de dados convolvendo as localizações dos pontos de dados com uma função de kernel - falando aproximadamente, a função de kernel especifica como "borrar" a influência dos pontos de dados para que seus valores possam ser usado para prever o valor para locais próximos.

Árvores de regressão

Os algoritmos de aprendizagem da árvore de decisão podem ser aplicados para aprender a prever uma variável dependente a partir dos dados. Embora a formulação original da Árvore de Classificação e Regressão (CART) aplicada apenas para prever dados univariados, a estrutura pode ser usada para prever dados multivariados, incluindo séries temporais.

Veja também

Referências

Leitura adicional

links externos