Regressão linear simples - Simple linear regression

A lei de Okun na macroeconomia é um exemplo de regressão linear simples. Aqui, a variável dependente (crescimento do PIB) é presumida em uma relação linear com as mudanças na taxa de desemprego.

Em estatística , a regressão linear simples é um modelo de regressão linear com uma única variável explicativa . Isto é, refere-se bidimensionais pontos de amostra com uma variável independente e uma variável dependente (convencionalmente, a x e y coordenadas de um sistema de coordenadas cartesianas ) e encontra uma função linear (um não-vertical linear ) que, mais exacta possível, prevê os valores da variável dependente como uma função da variável independente. O adjetivo simples refere-se ao fato de a variável de desfecho estar relacionada a um único preditor.

É comum fazer a estipulação adicional de que o método dos mínimos quadrados ordinários (OLS) deve ser usado: a precisão de cada valor predito é medida por seu resíduo quadrado (distância vertical entre o ponto do conjunto de dados e a linha ajustada), e o objetivo é fazer com que a soma desses desvios quadrados seja a menor possível. Outros métodos de regressão que podem ser usados ​​no lugar de mínimos quadrados ordinários incluem mínimos desvios absolutos (minimizando a soma dos valores absolutos dos resíduos) e o estimador de Theil-Sen (que escolhe uma linha cuja inclinação é a mediana das inclinações determinadas por pares de pontos de amostragem). A regressão de Deming (mínimos quadrados totais) também encontra uma linha que se ajusta a um conjunto de pontos de amostra bidimensionais, mas (ao contrário de quadrados mínimos comuns, desvios absolutos mínimos e regressão de inclinação mediana) não é realmente uma instância de regressão linear simples, porque ele não separa as coordenadas em uma variável dependente e uma variável independente e pode retornar uma linha vertical como seu ajuste.

O restante do artigo assume uma regressão de mínimos quadrados ordinários. Nesse caso, a inclinação da linha ajustada é igual à correlação entre y e x corrigida pela razão dos desvios padrão dessas variáveis. A interceptação da linha ajustada é tal que a linha passa pelo centro de massa ( x , y ) dos pontos de dados.

Ajustando a linha de regressão

Considere a função do modelo

que descreve uma linha com inclinação β e interceptação y α . Em geral, essa relação pode não se manter exatamente para a população de valores das variáveis ​​independentes e dependentes amplamente não observada; chamamos os desvios não observados da equação acima de erros . Suponha que observemos n pares de dados e os chamemos de {( x i , y i ), i = 1, ..., n }. Podemos descrever a relação subjacente entre y i e x i envolvendo este termo de erro ε i por

Essa relação entre os verdadeiros (mas não observados) parâmetros subjacentes α e β e os pontos de dados é chamada de modelo de regressão linear.

O objetivo é encontrar valores estimados e para os parâmetros α e β que forneceriam o "melhor" ajuste em algum sentido para os pontos de dados. Conforme mencionado na introdução, neste artigo o "melhor" ajuste será entendido como na abordagem dos mínimos quadrados : uma linha que minimiza a soma dos residuais quadrados (ver também Erros e residuais ) (diferenças entre os valores reais e previstos do variável dependente y ), cada um dos quais é dado por, para quaisquer valores de parâmetros candidatos e ,

Em outras palavras, e resolva o seguinte problema de minimização:

Ao expandir para obter uma expressão quadrática em e podemos derivar valores de e que minimizam a função objetivo Q (esses valores de minimização são denotados e ):

Aqui nós introduzimos

Substituindo as expressões acima por e em

rendimentos

Isso mostra que r xy é a inclinação da linha de regressão dos pontos de dados padronizados (e que essa linha passa pela origem). Desde então, obtemos que se x é alguma medida ey é uma medida de acompanhamento do mesmo item, então esperamos que y (em média) esteja mais próximo da medida média do que estava do valor original de x. Um fenômeno conhecido como regressões em direção à média .

Generalizando a notação, podemos escrever uma barra horizontal sobre uma expressão para indicar o valor médio dessa expressão sobre o conjunto de amostras. Por exemplo:

Essa notação nos permite uma fórmula concisa para r xy :

O coeficiente de determinação ("R ao quadrado") é igual a quando o modelo é linear com uma única variável independente. Consulte o coeficiente de correlação de amostra para obter detalhes adicionais.

Explicação intuitiva

Multiplicando todos os membros da soma no numerador por: (não alterando assim):

Podemos ver que a inclinação (tangente do ângulo) da linha de regressão é a média ponderada disso é a inclinação (tangente do ângulo) da linha que conecta o i-ésimo ponto à média de todos os pontos, ponderada por porque o além disso, o ponto é o mais "importante", uma vez que pequenos erros em sua posição afetarão mais a inclinação que o conecta ao ponto central.

Explicação intuitiva

Dado com o ângulo que a linha forma com o eixo x positivo, temos

Explicação intuitiva, dado que cada um é fixo

Na formulação acima, observe que cada um é um valor constante ("adiantado conhecido"), enquanto o são variáveis ​​aleatórias que dependem da função linear de e do termo aleatório . Essa suposição é usada para derivar o erro padrão da inclinação e mostrar que ela é imparcial .

Nesse enquadramento, quando não é realmente uma variável aleatória , que tipo de parâmetro a correlação empírica estima? A questão é que para cada valor i teremos: e . Uma possível interpretação de é imaginar que define uma variável aleatória retirada da distribuição empírica dos valores de x em nossa amostra. Por exemplo, se x tivesse 10 valores dos números naturais : [1,2,3 ..., 10], então podemos imaginar x como uma distribuição uniforme discreta . Sob essa interpretação, todos têm a mesma expectativa e alguma variação positiva. Com essa interpretação, podemos pensar em como o estimador da correlação de Pearson entre a variável aleatória y e a variável aleatória x (como acabamos de defini-la).

Regressão linear simples sem o termo de interceptação (regressor único)

Às vezes é apropriado para forçar a linha de regressão a passar pela origem, porque x e y estão a ser assumida proporcional. Para o modelo sem o termo de interceptação, y = βx , o estimador OLS para β simplifica para

Substituindo ( x - h , y - k ) no lugar de ( x , y ) dá a regressão por meio de ( h , k ) :

onde Cov e Var se referem à covariância e variância dos dados da amostra (não corrigido para viés).

A última forma acima demonstra como mover a linha para longe do centro de massa dos pontos de dados afeta a inclinação.

Propriedades numéricas

  1. A linha de regressão passa pelo centro de massa ponto, se o modelo inclui um termo de intercepto (ou seja, não forçada através da origem).
  2. A soma dos resíduos é zero se o modelo inclui um termo de interceptação:
  3. Os resíduos e x valores não estão correlacionados (se existe ou não uma expressão de intercepção no modelo), o que significa:
  4. A relação entre (o coeficiente de correlação para a população ) e as variâncias da população de ( ) e o termo de erro de ( ) é:
    Para valores extremos, isso é evidente. Desde então . E quando então .

Propriedades baseadas em modelo

A descrição das propriedades estatísticas dos estimadores a partir das estimativas de regressão linear simples requer o uso de um modelo estatístico . O que segue é baseado na suposição da validade de um modelo sob o qual as estimativas são ótimas. Também é possível avaliar as propriedades sob outras premissas, como não homogeneidade , mas isso é discutido em outro lugar.

Imparcialidade

Os estimadores e são imparciais .

Para formalizar essa afirmação, devemos definir uma estrutura em que esses estimadores sejam variáveis ​​aleatórias. Consideramos os resíduos ε i como variáveis ​​aleatórias extraídas independentemente de alguma distribuição com média zero. Em outras palavras, para cada valor de x , o valor correspondente de y é gerado como uma resposta média α + βx mais uma variável aleatória adicional ε chamada de termo de erro , igual a zero em média. Sob tal interpretação, os estimadores de mínimos quadrados e eles próprios serão variáveis ​​aleatórias cujas médias serão iguais aos "valores verdadeiros" α e β . Esta é a definição de um estimador imparcial.

Intervalos de confiança

As fórmulas fornecidas na seção anterior permitem calcular as estimativas pontuais de α e β - ou seja, os coeficientes da linha de regressão para um determinado conjunto de dados. No entanto, essas fórmulas não nos dizem quão precisas são as estimativas, ou seja, quanto os estimadores e variam de amostra para amostra para o tamanho de amostra especificado. Os intervalos de confiança foram planejados para fornecer um conjunto plausível de valores às estimativas que alguém poderia ter se repetisse o experimento um grande número de vezes.

O método padrão de construção de intervalos de confiança para coeficientes de regressão linear se baseia na suposição de normalidade, que é justificada se:

  1. os erros na regressão são normalmente distribuídos (a chamada suposição de regressão clássica ), ou
  2. o número de observações n é suficientemente grande, caso em que o estimador é aproximadamente normalmente distribuído.

O último caso é justificado pelo teorema do limite central .

Suposição de normalidade

Sob a primeira suposição acima, a da normalidade dos termos de erro, o estimador do coeficiente de inclinação será ele próprio normalmente distribuído com média β e variância, onde σ 2 é a variância dos termos de erro (ver Provas envolvendo mínimos quadrados ordinários ). Ao mesmo tempo, a soma dos resíduos quadrados Q é distribuída proporcionalmente a χ 2 com n - 2 graus de liberdade e independentemente de . Isso nos permite construir um valor t

Onde

é o erro padrão do estimador .

Este t -valor tem um Student t -Distribuição com n - 2 graus de liberdade. Usando-o, podemos construir um intervalo de confiança para β :

no nível de confiança (1 - γ ) , onde é o quantil da distribuição t n −2 . Por exemplo, se γ = 0,05 , o nível de confiança é 95%.

Da mesma forma, o intervalo de confiança para o coeficiente de interceptação α é dado por

no nível de confiança (1 - γ ), onde

Regressão das "mudanças no desemprego - crescimento do PIB" dos EUA com as bandas de confiança de 95%.

Os intervalos de confiança para α e β nos dão uma ideia geral de onde esses coeficientes de regressão têm maior probabilidade de estar. Por exemplo, na regressão da lei de Okun mostrada aqui, as estimativas pontuais são

Os intervalos de confiança de 95% para essas estimativas são

Para representar essa informação graficamente, na forma de bandas de confiança ao redor da linha de regressão, deve-se proceder com cuidado e levar em conta a distribuição conjunta dos estimadores. Pode-se mostrar que no nível de confiança (1 -  γ ) a banda de confiança tem forma hiperbólica dada pela equação

Suposição assintótica

A segunda hipótese alternativa afirma que quando o número de pontos no conjunto de dados é "grande o suficiente", a lei dos grandes números e o teorema do limite central tornam-se aplicáveis, e então a distribuição dos estimadores é aproximadamente normal. Sob essa suposição, todas as fórmulas derivadas na seção anterior permanecem válidas, com a única exceção de que o quantil t * n −2 da distribuição t de Student é substituído pelo quantil q * da distribuição normal padrão . Ocasionalmente, a fração 1/n -2 é substituído por 1/n. Quando n é grande, essa mudança não altera os resultados de forma apreciável.

Exemplo numérico

Este conjunto de dados fornece as massas médias para mulheres em função de sua altura em uma amostra de mulheres americanas de 30 a 39 anos. Embora o artigo OLS argumente que seria mais apropriado executar uma regressão quadrática para esses dados, o modelo de regressão linear simples é aplicado aqui.

Altura (m), x i 1,47 1,50 1,52 1,55 1,57 1,60 1,63 1,65 1,68 1,70 1,73 1,75 1,78 1,80 1,83
Massa (kg), y i 52,21 53,12 54,48 55,84 57,20 58,57 59,93 61,29 63,11 64,47 66,28 68,10 69,92 72,19 74,46
1 1,47 52,21 2,1609 76,7487 2725,8841
2 1,50 53,12 2.2500 79,6800 2821,7344
3 1,52 54,48 2,3104 82,8096 2968.0704
4 1,55 55,84 2,4025 86,5520 3118,1056
5 1,57 57,20 2,4649 89,8040 3271,8400
6 1,60 58,57 2.5600 93,7120 3430,4449
7 1,63 59,93 2,6569 97,6859 3591,6049
8 1,65 61,29 2,7225 101,1285 3756.4641
9 1,68 63,11 2.8224 106.0248 3982,8721
10 1,70 64,47 2.8900 109.5990 4156.3809
11 1,73 66,28 2,9929 114,6644 4393,0384
12 1,75 68,10 3.0625 119,1750 4637,6100
13 1,78 69,92 3,1684 124,4576 4888,8064
14 1,80 72,19 3.2400 129,9420 5211.3961
15 1,83 74,46 3,3489 136,2618 5544,2916
24,76 931,17 41,0532 1548,2453 58498.5439

Existem n = 15 pontos neste conjunto de dados. Os cálculos manuais seriam iniciados encontrando-se as seguintes cinco somas:

Essas quantidades seriam usadas para calcular as estimativas dos coeficientes de regressão e seus erros padrão.

Gráfico de pontos e mínimos quadrados lineares no exemplo numérico de regressão linear simples

O quantil 0,975 da distribuição t de Student com 13 graus de liberdade é t * 13 = 2,1604 e, portanto, os intervalos de confiança de 95% para α e β são

O coeficiente de correlação produto-momento também pode ser calculado:

Este exemplo também demonstra que cálculos sofisticados não irão superar o uso de dados mal preparados. As alturas foram originalmente fornecidas em polegadas e foram convertidas para o centímetro mais próximo. Como a conversão introduziu um erro de arredondamento, essa não é uma conversão exata. As polegadas originais podem ser recuperadas por Arredondamento (x / 0,0254) e, em seguida, reconvertido em sistema métrico sem arredondamento: se isso for feito, os resultados se tornam

Assim, uma variação aparentemente pequena nos dados tem um efeito real.

Veja também

Referências

links externos