Análise de regressão - Regression analysis


Da Wikipédia, a enciclopédia livre

Na modelagem estatística , análise de regressão é um conjunto de processos estatísticos para estimar as relações entre variáveis. Ele inclui muitas técnicas para modelagem e análise de diversas variáveis, quando o foco é sobre a relação entre uma variável dependente e uma ou mais variáveis independentes (ou 'preditores'). Mais especificamente, a análise de regressão ajuda a entender como o valor típico da variável dependente (ou 'variável critério') muda quando qualquer uma das variáveis independentes é variada, enquanto as outras variáveis independentes são mantidos fixos.

Mais comumente, análise de regressão estima a esperança condicional da variável dependente dada as variáveis independentes - ou seja, o valor médio da variável dependente quando as variáveis independentes são fixos. Menos comumente, o foco está em um quantil , ou outro parâmetro de localização da distribuição condicional da variável dependente dada as variáveis independentes. Em todos os casos, uma função das variáveis independentes chamados a função de regressão é para ser estimado. Na análise de regressão, que é também de interesse para caracterizar a variação da variável dependente em torno da previsão da função de regressão utilizando uma distribuição de probabilidade . Uma abordagem relacionada mas distinta é necessário Análise Condição (NCA), que estima o valor máximo (em vez de média) o valor da variável dependente para um dado valor da variável independente (linha do teto em vez de linha central), a fim de identificar o valor de a variável independente é necessária, mas não suficiente para um dado valor da variável dependente.

A análise de regressão é amplamente utilizado para a previsão e de previsão , em que a sua utilização tem sobreposição substancial com o campo de aprendizagem máquina . A análise de regressão também é usado para entender que entre as variáveis independentes estão relacionadas à variável dependente, e explorar as formas dessas relações. Em circunstâncias restritas, análise de regressão pode ser usada para inferir relações causais entre as variáveis independentes e dependentes. No entanto, isto pode levar a ilusões ou falsas relações, assim que o cuidado é aconselhável.

Muitas técnicas para a realização de análise de regressão foram desenvolvidos. Métodos conhecidos, tais como a regressão linear e dos mínimos quadrados de regressão são paramétrico , em que a função de regressão é definida em termos de um número finito de desconhecidos parâmetros que são estimados a partir dos dados . Regressão não paramétrica refere-se a técnicas que permitem a função de regressão a ficar num determinado conjunto de funções , que pode ser de dimensão infinita .

O desempenho dos métodos de análise de regressão na prática depende da forma do processo de geração de dados , e como se relaciona com a abordagem de regressão a ser utilizado. Desde a verdadeira forma do processo de geração de dados geralmente não é conhecido, análise de regressão, muitas vezes depende em certa medida, fazer suposições sobre este processo. Esses pressupostos são, por vezes testável se uma quantidade suficiente de dados disponível. Modelos de regressão para predição são frequentemente úteis, mesmo quando as premissas são moderadamente violado, ainda que eles não podem executar de forma otimizada. No entanto, em muitas aplicações, especialmente com pequenos efeitos ou questões de causalidade com base em dados observacionais , métodos de regressão pode levar a resultados enganosos.

Num sentido mais restrito, a regressão pode referir-se especificamente para a estimativa de resposta contínua (variáveis dependentes), em oposição às variáveis de resposta usadas no discretas classificação . O caso de uma variável dependente contínua pode ser mais especificamente referida como regressão métrica para distingui-lo dos problemas relacionados.

História

A primeira forma de regressão foi o método dos mínimos quadrados , que foi publicado por Legendre em 1805, e por Gauss em 1809. Legendre e Gauss tanto aplicado o método para o problema de determinar, a partir de observações astronómicas, as órbitas dos corpos sobre o Sol (principalmente cometas, mas também mais tarde os planetas menores, então recém-descobertas). Gauss publicou um maior desenvolvimento da teoria dos mínimos quadrados em 1821, incluindo uma versão do teorema de Gauss-Markov .

O termo "regressão" foi cunhada por Francis Galton no século XIX para descrever um fenômeno biológico. O fenómeno foi que as alturas de descendentes de ancestrais altas tendem a regredir para baixo no sentido de uma média normal (um fenómeno também conhecida como regressão à média ). Para Galton, regressão só tinha este significado biológico, mas o seu trabalho foi posteriormente prorrogado por Udny Yule e Karl Pearson para um contexto estatística mais geral. Na obra de Yule e Pearson, a distribuição conjunta da resposta e variáveis explicativas é assumido como sendo Gaussian . Esta suposição foi enfraquecida por RA Fisher em seus trabalhos de 1922 e 1925. Fisher assumiu que a distribuição condicional da variável resposta é Gaussian, mas a distribuição conjunta não precisa ser. A este respeito, a suposição de Fisher está mais perto de formulação de 1821 de Gauss.

Nos anos 1950 e 1960, os economistas usado Desk "calculadoras" eletromecânicos para calcular regressões. Antes de 1970, ele às vezes demorava até 24 horas para receber o resultado de uma regressão.

Métodos de regressão continuam a ser uma área de pesquisa ativa. Nas últimas décadas, novos métodos foram desenvolvidos para regressão robusta , regressão envolvendo respostas correlacionadas, como séries temporais e curvas de crescimento , regressão em que o indicador (variável independente) ou variáveis de resposta são curvas, imagens, gráficos ou outros objetos de dados complexos, métodos de regressão acomodar diversos tipos de dados perdidos, de regressão não paramétrica , Bayesian métodos de regressão, de regressão em que as variáveis de previsão são medidos com um erro, de regressão com mais variáveis de previsão que observações, e inferência causal com regressão.

modelos de regressão

modelos de regressão envolvem os seguintes parâmetros e variáveis:

  • Os parâmetros desconhecidos , denotados como , o que pode representar um escalar ou um vetor .
  • As variáveis independentes , .
  • A variável dependente , .

Em vários campos de aplicação , diferentes terminologias são usados em lugar de variáveis dependentes e independentes .

Um modelo de regressão refere-se a uma função de e .

A aproximação é geralmente formalizado como . Para realizar a análise de regressão, a forma da função devem ser especificados. Às vezes, a forma desta função é baseada no conhecimento sobre a relação entre e que não se baseia nos dados. Se nenhum tal conhecimento está disponível, uma forma flexível ou conveniente para é escolhido.

Suponha agora que o vetor de parâmetros desconhecidos é de comprimento . Para realizar uma análise de regressão, o usuário deve fornecer informações sobre a variável dependente :

  • Se os pontos do formulário de dados são observados, onde , a maioria das abordagens clássicas para análise de regressão não pode ser executada: uma vez que o sistema de equações que definem o modelo de regressão é indeterminada, não há dados suficientes para recuperar .
  • Se exatamente pontos de dados são observados, e a função é linear, as equações pode ser resolvido exatamente ao invés de aproximadamente. Isto reduz a resolução de um conjunto de equações com incógnitas (os elementos do , que tem uma única solução, contanto que o são linearmente independentes. Se é não-linear, uma solução pode não existir, ou podem existir muitas soluções.
  • A situação mais comum é onde são observados pontos de dados. Neste caso, não há informações suficientes nos dados para estimar um valor único para que melhor se ajusta aos dados em algum sentido, e o modelo de regressão quando aplicada aos dados podem ser vistos como um sistema sobredeterminado no .

No último caso, a análise de regressão fornece as ferramentas para:

  1. Encontrar uma solução para os parâmetros desconhecidos que vão, por exemplo, minimizam a distância entre os valores medidos e previstos da variável dependente (também conhecido como método de mínimos quadrados ).
  2. Sob certas hipóteses estatísticas, a análise de regressão utiliza o excedente de informação para fornecer informação estatística sobre os parâmetros desconhecidos e valores preditos da variável dependente .

número necessário de medições independentes

Considere-se um modelo de regressão que tem três parâmetros desconhecidos, , , e . Suponhamos que um experimentador executa todas as 10 medições em exactamente o mesmo valor de vector variável independente (que contém as variáveis independentes , e ). Neste caso, a análise de regressão não consegue dar um único conjunto de valores estimados para os três parâmetros desconhecidos; o experimentador não forneceu informações suficientes. O melhor que se pode fazer é a de estimar o valor médio e o desvio padrão da variável dependente . Da mesma forma, medindo em dois valores diferentes de daria dados suficientes para uma regressão com duas incógnitas, mas não para três ou mais incógnitas.

Se o experimentador tinha realizado medições em três valores diferentes do vetor variável independente , então a análise de regressão iria fornecer um conjunto único de estimativas para os três parâmetros desconhecidos no .

No caso de regressão linear geral , a declaração acima é equivalente à exigência de que a matriz é invertível .

Quando o número de medições, , é maior do que o número de parâmetros desconhecidos, e os erros de medição são normalmente distribuídos, em seguida, o excesso de informação contida no medições é usado para fazer previsões estatísticas sobre os parâmetros desconhecidos. Esse excesso de informações é referido como os graus de liberdade da regressão.

Suposições subjacentes

Clássicas premissas para a análise de regressão incluem:

Estas são condições suficientes para que o estimador de mínimos quadrados para possuir propriedades desejáveis; em particular, estes pressupostos implicam que as estimativas dos parâmetros será imparcial , consistente e eficiente na classe de estimadores imparciais lineares. É importante notar que os dados reais raramente satisfaz as suposições. Ou seja, o método é usado, mesmo que as premissas não são verdadeiras. Variação dos pressupostos às vezes pode ser usado como uma medida de quão longe o modelo é de ser útil. Muitas dessas suposições podem ser simplificados em tratamentos mais avançados. Relatórios de análises estatísticas geralmente incluem análises de testes na amostra de dados e metodologia para o ajuste e utilidade do modelo.

Variáveis independentes e dependentes geralmente se referem a valores medidos em locais pontuais. Pode haver tendências espaciais e autocorrelação espacial nas variáveis que violam os pressupostos estatísticos de regressão. Regressão ponderada Geographic é uma técnica para lidar com esses dados. Além disso, as variáveis podem incluir valores agregados por áreas. Com os dados agregados do problema unidade de área modificável pode causar variação extrema em parâmetros de regressão. Ao analisar os dados agregados por fronteiras políticas, códigos postais ou áreas censitárias resultados podem ser muito distinta, com uma escolha diferente de unidades.

Regressão linear

Em análises de regressão linear, a especificação do modelo é que a variável dependente, é uma combinação linear dos parâmetros (mas não precisam de ser lineares nas variáveis independentes ). Por exemplo, em regressão linear simples para modelagem de pontos de dados não é uma variável independente: e dois parâmetros, e :

linha reta:

Na regressão linear múltipla, existem várias variáveis ​​ou funções de variáveis ​​independentes independentes.

Adicionando um termo em que a regressão anterior dá:

parábola:

Esta ainda é a regressão linear; embora a expressão do lado direito é quadrática na variável independente , é linear nos parâmetros , e

Em ambos os casos, é um termo de erro e os subscritos índices uma observação específico.

Voltando a nossa atenção para o caso linear: Dada uma amostra aleatória da população, estimamos os parâmetros populacionais e obter o modelo de regressão linear de exemplo:

O residual , , é a diferença entre o valor da variável dependente previsto pelo modelo, e o verdadeiro valor da variável dependente, . Um método de estimativa é de mínimos quadrados ordinários . Este método obtém estimativas dos parâmetros que minimizam a soma dos quadrados resíduos , SSR :

Minimização de esta função resulta em um conjunto de equações normais , um conjunto de equações lineares nos parâmetros, os quais são resolvidos para se obter os estimadores de parâmetros, .

Ilustração de regressão linear em um conjunto de dados.

No caso de regressão simples, as fórmulas para as estimativas de mínimos quadrados são

onde representa a média (média) dos valores e é a média dos valores.

Sob a hipótese de que o termo de erro população tem uma variância constante, a estimativa de que a variância é dada por:

Isto é chamado o erro médio quadrático (MSE) da regressão. O denominador é o tamanho da amostra reduzida ao número de parâmetros do modelo estimados a partir dos mesmos dados, para regressores , ou se uma intercepção é usado. Neste caso, de modo que o denominador é .

Os erros padrão das estimativas dos parâmetros são dadas por

.

Sob o pressuposto de que o termo de erro população é normalmente distribuída, o pesquisador pode usar estes erros padrão estimados para criar intervalos de confiança e realizar testes de hipóteses sobre os parâmetros populacionais .

modelo linear geral

No modelo de regressão múltipla mais geral, existem variáveis independentes:

onde é a observação -ésimo sobre a variável independente -ésimo. Se a primeira variável independente assume o valor 1 para todos , e, em seguida é chamado de interceptação de regressão .

As estimativas dos parâmetros mínimos quadrados são obtidos a partir equações normais. O residual pode ser escrita como

As equações normais são

Na rotação da matriz, as equações normais são escritas como

em que o elemento de é , o elemento do vector de coluna é , e o elemento de é . Assim, é , é , e é . A solução é

Diagnostics

Uma vez que um modelo de regressão foi construído, ele pode ser importante para confirmar a qualidade do ajuste do modelo e da significância estatística dos parâmetros estimados. Controlos comumente utilizados de qualidade de ajuste incluem o R-quadrado , análises de padrão de resíduos e testes de hipóteses. A significância estatística pode ser verificada por um teste de F do ajuste global, seguido por testes-t de parâmetros individuais.

Interpretações destes testes de diagnóstico descansar pesadamente sobre os pressupostos do modelo. Embora o exame dos resíduos pode ser usado para invalidar um modelo, os resultados de um teste t ou F-teste às vezes são mais difíceis de interpretar se as hipóteses do modelo são violados. Por exemplo, se o termo de erro não tem uma distribuição normal, em pequenas amostras dos parâmetros estimados não seguem distribuições normais e complicar inferência. Com amostras relativamente grandes, no entanto, um teorema limite central pode ser invocado tal que o teste de hipótese pode prosseguir usando aproximações assintótica.

variáveis ​​dependentes limitadas

Variáveis dependentes limitadas , que são variáveis de resposta que são variáveis categóricas ou são variáveis restritas a cair apenas em um determinado intervalo, muitas vezes surgem na econometria .

A variável de resposta pode ser não-contínuos ( "limitado" para se deitar em alguns subconjuntos da linha real). Para binário (zero ou um) variáveis, se a análise prossegue com mínimos quadrados de regressão linear, o modelo é chamado de modelo linear de probabilidade . Modelos não lineares para variáveis dependentes binárias incluem o probit e modelo logit . O multivariada probit modelo é um método padrão de estimar uma relação conjunta entre diversas variáveis dependentes binárias e algumas variáveis independentes. Para as variáveis categóricas com mais de dois valores há o logit multinomial . Para variáveis ordinais com mais de dois valores, há o logit ordenado e probit ordenado modelos. Modelos de regressão censurados pode ser utilizado quando a variável dependente só é por vezes observado, e correcção Heckman modelos tipo pode ser utilizado quando a amostra não é seleccionado aleatoriamente a partir da população de interesse. Uma alternativa para tais procedimentos é a regressão linear com base na correlação policóricas (ou correlações polyserial) entre as variáveis categóricas. Tais procedimentos diferem nos pressupostos relativos à distribuição das variáveis na população. Se a variável é positivo, com valores baixos e representa a repetição da ocorrência de um evento, em seguida, contar modelos como a regressão de Poisson ou o binomial negativo pode ser utilizado o modelo.

regressão não linear

Quando a função de modelo não é linear nos parâmetros, a soma dos quadrados deve ser minimizada através de um processo iterativo. Isto introduz muitas complicações que são resumidas em Diferenças entre linear e mínimos quadrados não lineares .

Interpolação e extrapolação

No meio, a linha reta interpolada representa o melhor equilíbrio entre os pontos acima e abaixo desta linha. As linhas ponteadas representam as duas linhas extremas. As primeiras curvas representam os valores estimados. As curvas exteriores representar uma previsão para uma nova medição.

Os modelos de regressão prever um valor do Y dada variável valores conhecidos dos X variáveis. Predição dentro da gama de valores no conjunto de dados utilizado para o modelo-encaixe é conhecido informalmente como interpolação . Predição fora deste intervalo de dados é conhecida como extrapolação . Realizando extrapolação depende fortemente das suposições de regressão. Quanto mais a extrapolação vai para fora dos dados, o mais espaço há para o modelo para falhar, devido a diferenças entre as hipóteses e os dados de amostra ou os valores verdadeiros.

É geralmente aconselhável que ao executar a extrapolação, um deve acompanhar o valor estimado da variável dependente com um intervalo de predição que representa a incerteza. Tais intervalos tendem a expandir-se rapidamente como os valores da variável independente (s) transferida para fora do intervalo abrangido por os dados observados.

Para essas e outras razões, alguns tendem a dizer que poderia ser sensato realizar extrapolação.

No entanto, isto não cobrir todo o conjunto de erros de modelação que podem ser feitas: em particular, a assunção de uma forma particular para a relação entre Y e X . A análise de regressão bem conduzido incluirá uma avaliação de quão bem a forma assumida é compensada pelos dados observados, mas só pode fazê-lo dentro do intervalo de valores das variáveis independentes efectivamente disponíveis. Isto significa que qualquer extrapolação é particularmente dependente dos pressupostos sendo feito sobre a forma estrutural da relação de regressão. Aconselhamento de melhores práticas aqui é que um linear nas variáveis e relação linear-in-parâmetros não deve ser escolhido simplesmente por conveniência computacional, mas que todo o conhecimento disponível deve ser implantado na construção de um modelo de regressão. Se esse conhecimento inclui o fato de que a variável dependente não pode ir para fora de um determinado intervalo de valores, isso pode ser feito uso de na escolha do modelo - mesmo se o conjunto de dados observados não tem valores particularmente perto de tais limites. As implicações desta etapa de escolher uma forma funcional adequada para a regressão pode ser grande quando extrapolação é considerada. No mínimo, ele pode assegurar que qualquer extrapolação decorrente de um modelo ajustado é "realista" (ou de acordo com o que é conhecido).

cálculos de tamanho de potência e amostra

Não há métodos geralmente aceites para relacionar o número de observações em relação ao número de variáveis independentes no modelo. Uma regra sugerida pelo Bem e Hardin é , onde é o tamanho da amostra, é o número de variáveis independentes e é o número de observações necessárias para atingir a precisão desejada se o modelo tinha apenas uma variável independente. Por exemplo, um pesquisador está construindo um modelo de regressão linear usando um conjunto de dados que contém 1.000 pacientes ( ). Se o pesquisador decide que cinco observações são necessários para definir precisamente uma linha reta ( ), em seguida, o número máximo de variáveis independentes do modelo pode suportar é 4, porque

.

Outros métodos

Embora os parâmetros de um modelo de regressão são normalmente estimada usando o método dos mínimos quadrados, outros métodos que têm sido utilizados incluem:

Programas

Todos os principais pacotes de software estatísticos executar mínimos quadrados análise de regressão e inferência. Regressão linear simples e regressão múltipla usando mínimos quadrados pode ser feito em alguns planilha aplicações e em algumas calculadoras. Enquanto muitos pacotes de software estatísticos pode executar vários tipos de regressão não paramétrica e robusta, esses métodos são menos padronizados; pacotes de software diferentes implementar métodos diferentes, e um método com um nome dado pode ser implementado de forma diferente em diferentes pacotes. Software de regressão especializado foi desenvolvido para uso em áreas como análise de pesquisa e de neuroimagem.

Veja também

Referências

Outras leituras

Evan J. Williams, "I. Regressão", pp. 523-41.
Julian C. Stanley , "II. Análise de variância", pp. 541-554.
  • Lindley, DV (1987). "A análise de regressão e correlação," New Palgrave: Um Dicionário de Economia ., V 4, pp 120-23..
  • Birkes, David e Dodge, Y. , métodos alternativos de regressão . ISBN  0-471-56881-3
  • Chatfield, C. (1993) "Calculando Previsões Intervalo", Journal of Business and Economic Statistics, 11 . pp. 121-135.
  • Draper, NR; Smith, H. (1998). Análise Aplicada de regressão (3ª ed.). John Wiley. ISBN  0-471-17082-8 .
  • Fox, J. (1997). Aplicada Análise de Regressão, Modelos Lineares e métodos relacionados. Sábio
  • Hardle, W., Applied Nonparametric Regressão (1990), ISBN  0-521-42950-1
  • Meade, N. e T. Islam (1995) "intervalos de predição para a curva de crescimento Previsões" Jornal de Previsão, 14 , pp. 413-430.
  • A. Sen, M. Srivastava, Análise de Regressão - Teoria, Métodos e Aplicações , Springer-Verlag, Berlin, 2011 (4ª impressão).
  • T. Strutz: dados de montagem e incerteza (A introdução prática de mínimos quadrados ponderados, e para além) . Vieweg + Teubner, ISBN  978-3-8348-1022-9 .
  • Malakooti, ​​B. (2013). Operações e Sistemas de Produção com Objectivos Múltiplos. John Wiley & Sons.

links externos