Regressão linear simples - Simple linear regression
Parte de uma série sobre |
Análise de regressão |
---|
Modelos |
Estimativa |
Fundo |
Em estatística , a regressão linear simples é um modelo de regressão linear com uma única variável explicativa . Isto é, refere-se bidimensionais pontos de amostra com uma variável independente e uma variável dependente (convencionalmente, a x e y coordenadas de um sistema de coordenadas cartesianas ) e encontra uma função linear (um não-vertical linear ) que, mais exacta possível, prevê os valores da variável dependente como uma função da variável independente. O adjetivo simples refere-se ao fato de a variável de desfecho estar relacionada a um único preditor.
É comum fazer a estipulação adicional de que o método dos mínimos quadrados ordinários (OLS) deve ser usado: a precisão de cada valor predito é medida por seu resíduo quadrado (distância vertical entre o ponto do conjunto de dados e a linha ajustada), e o objetivo é fazer com que a soma desses desvios quadrados seja a menor possível. Outros métodos de regressão que podem ser usados no lugar de mínimos quadrados ordinários incluem mínimos desvios absolutos (minimizando a soma dos valores absolutos dos resíduos) e o estimador de Theil-Sen (que escolhe uma linha cuja inclinação é a mediana das inclinações determinadas por pares de pontos de amostragem). A regressão de Deming (mínimos quadrados totais) também encontra uma linha que se ajusta a um conjunto de pontos de amostra bidimensionais, mas (ao contrário de quadrados mínimos comuns, desvios absolutos mínimos e regressão de inclinação mediana) não é realmente uma instância de regressão linear simples, porque ele não separa as coordenadas em uma variável dependente e uma variável independente e pode retornar uma linha vertical como seu ajuste.
O restante do artigo assume uma regressão de mínimos quadrados ordinários. Nesse caso, a inclinação da linha ajustada é igual à correlação entre y e x corrigida pela razão dos desvios padrão dessas variáveis. A interceptação da linha ajustada é tal que a linha passa pelo centro de massa ( x , y ) dos pontos de dados.
Ajustando a linha de regressão
Considere a função do modelo
que descreve uma linha com inclinação β e interceptação y α . Em geral, essa relação pode não se manter exatamente para a população de valores das variáveis independentes e dependentes amplamente não observada; chamamos os desvios não observados da equação acima de erros . Suponha que observemos n pares de dados e os chamemos de {( x i , y i ), i = 1, ..., n }. Podemos descrever a relação subjacente entre y i e x i envolvendo este termo de erro ε i por
Essa relação entre os verdadeiros (mas não observados) parâmetros subjacentes α e β e os pontos de dados é chamada de modelo de regressão linear.
O objetivo é encontrar valores estimados e para os parâmetros α e β que forneceriam o "melhor" ajuste em algum sentido para os pontos de dados. Conforme mencionado na introdução, neste artigo o "melhor" ajuste será entendido como na abordagem dos mínimos quadrados : uma linha que minimiza a soma dos residuais quadrados (ver também Erros e residuais ) (diferenças entre os valores reais e previstos do variável dependente y ), cada um dos quais é dado por, para quaisquer valores de parâmetros candidatos e ,
Em outras palavras, e resolva o seguinte problema de minimização:
Ao expandir para obter uma expressão quadrática em e podemos derivar valores de e que minimizam a função objetivo Q (esses valores de minimização são denotados e ):
Aqui nós introduzimos
- e como a média de x i e y i , respectivamente
- r xy como o coeficiente de correlação da amostra entre x e y
- s x e s y como os desvios padrão da amostra não corrigida de x e y
- e como a variância da amostra e a covariância da amostra , respectivamente
Substituindo as expressões acima por e em
rendimentos
Isso mostra que r xy é a inclinação da linha de regressão dos pontos de dados padronizados (e que essa linha passa pela origem). Desde então, obtemos que se x é alguma medida ey é uma medida de acompanhamento do mesmo item, então esperamos que y (em média) esteja mais próximo da medida média do que estava do valor original de x. Um fenômeno conhecido como regressões em direção à média .
Generalizando a notação, podemos escrever uma barra horizontal sobre uma expressão para indicar o valor médio dessa expressão sobre o conjunto de amostras. Por exemplo:
Essa notação nos permite uma fórmula concisa para r xy :
O coeficiente de determinação ("R ao quadrado") é igual a quando o modelo é linear com uma única variável independente. Consulte o coeficiente de correlação de amostra para obter detalhes adicionais.
Explicação intuitiva
Multiplicando todos os membros da soma no numerador por: (não alterando assim):
Podemos ver que a inclinação (tangente do ângulo) da linha de regressão é a média ponderada disso é a inclinação (tangente do ângulo) da linha que conecta o i-ésimo ponto à média de todos os pontos, ponderada por porque o além disso, o ponto é o mais "importante", uma vez que pequenos erros em sua posição afetarão mais a inclinação que o conecta ao ponto central.
Explicação intuitiva
Dado com o ângulo que a linha forma com o eixo x positivo, temos
Explicação intuitiva, dado que cada um é fixo
Na formulação acima, observe que cada um é um valor constante ("adiantado conhecido"), enquanto o são variáveis aleatórias que dependem da função linear de e do termo aleatório . Essa suposição é usada para derivar o erro padrão da inclinação e mostrar que ela é imparcial .
Nesse enquadramento, quando não é realmente uma variável aleatória , que tipo de parâmetro a correlação empírica estima? A questão é que para cada valor i teremos: e . Uma possível interpretação de é imaginar que define uma variável aleatória retirada da distribuição empírica dos valores de x em nossa amostra. Por exemplo, se x tivesse 10 valores dos números naturais : [1,2,3 ..., 10], então podemos imaginar x como uma distribuição uniforme discreta . Sob essa interpretação, todos têm a mesma expectativa e alguma variação positiva. Com essa interpretação, podemos pensar em como o estimador da correlação de Pearson entre a variável aleatória y e a variável aleatória x (como acabamos de defini-la).
Regressão linear simples sem o termo de interceptação (regressor único)
Às vezes é apropriado para forçar a linha de regressão a passar pela origem, porque x e y estão a ser assumida proporcional. Para o modelo sem o termo de interceptação, y = βx , o estimador OLS para β simplifica para
Substituindo ( x - h , y - k ) no lugar de ( x , y ) dá a regressão por meio de ( h , k ) :
onde Cov e Var se referem à covariância e variância dos dados da amostra (não corrigido para viés).
A última forma acima demonstra como mover a linha para longe do centro de massa dos pontos de dados afeta a inclinação.
Propriedades numéricas
- A linha de regressão passa pelo centro de massa ponto, se o modelo inclui um termo de intercepto (ou seja, não forçada através da origem).
- A soma dos resíduos é zero se o modelo inclui um termo de interceptação:
- Os resíduos e x valores não estão correlacionados (se existe ou não uma expressão de intercepção no modelo), o que significa:
- A relação entre (o coeficiente de correlação para a população ) e as variâncias da população de ( ) e o termo de erro de ( ) é:
- Para valores extremos, isso é evidente. Desde então . E quando então .
Propriedades baseadas em modelo
A descrição das propriedades estatísticas dos estimadores a partir das estimativas de regressão linear simples requer o uso de um modelo estatístico . O que segue é baseado na suposição da validade de um modelo sob o qual as estimativas são ótimas. Também é possível avaliar as propriedades sob outras premissas, como não homogeneidade , mas isso é discutido em outro lugar.
Imparcialidade
Os estimadores e são imparciais .
Para formalizar essa afirmação, devemos definir uma estrutura em que esses estimadores sejam variáveis aleatórias. Consideramos os resíduos ε i como variáveis aleatórias extraídas independentemente de alguma distribuição com média zero. Em outras palavras, para cada valor de x , o valor correspondente de y é gerado como uma resposta média α + βx mais uma variável aleatória adicional ε chamada de termo de erro , igual a zero em média. Sob tal interpretação, os estimadores de mínimos quadrados e eles próprios serão variáveis aleatórias cujas médias serão iguais aos "valores verdadeiros" α e β . Esta é a definição de um estimador imparcial.
Intervalos de confiança
As fórmulas fornecidas na seção anterior permitem calcular as estimativas pontuais de α e β - ou seja, os coeficientes da linha de regressão para um determinado conjunto de dados. No entanto, essas fórmulas não nos dizem quão precisas são as estimativas, ou seja, quanto os estimadores e variam de amostra para amostra para o tamanho de amostra especificado. Os intervalos de confiança foram planejados para fornecer um conjunto plausível de valores às estimativas que alguém poderia ter se repetisse o experimento um grande número de vezes.
O método padrão de construção de intervalos de confiança para coeficientes de regressão linear se baseia na suposição de normalidade, que é justificada se:
- os erros na regressão são normalmente distribuídos (a chamada suposição de regressão clássica ), ou
- o número de observações n é suficientemente grande, caso em que o estimador é aproximadamente normalmente distribuído.
O último caso é justificado pelo teorema do limite central .
Suposição de normalidade
Sob a primeira suposição acima, a da normalidade dos termos de erro, o estimador do coeficiente de inclinação será ele próprio normalmente distribuído com média β e variância, onde σ 2 é a variância dos termos de erro (ver Provas envolvendo mínimos quadrados ordinários ). Ao mesmo tempo, a soma dos resíduos quadrados Q é distribuída proporcionalmente a χ 2 com n - 2 graus de liberdade e independentemente de . Isso nos permite construir um valor t
Onde
é o erro padrão do estimador .
Este t -valor tem um Student t -Distribuição com n - 2 graus de liberdade. Usando-o, podemos construir um intervalo de confiança para β :
no nível de confiança (1 - γ ) , onde é o quantil da distribuição t n −2 . Por exemplo, se γ = 0,05 , o nível de confiança é 95%.
Da mesma forma, o intervalo de confiança para o coeficiente de interceptação α é dado por
no nível de confiança (1 - γ ), onde
Os intervalos de confiança para α e β nos dão uma ideia geral de onde esses coeficientes de regressão têm maior probabilidade de estar. Por exemplo, na regressão da lei de Okun mostrada aqui, as estimativas pontuais são
Os intervalos de confiança de 95% para essas estimativas são
Para representar essa informação graficamente, na forma de bandas de confiança ao redor da linha de regressão, deve-se proceder com cuidado e levar em conta a distribuição conjunta dos estimadores. Pode-se mostrar que no nível de confiança (1 - γ ) a banda de confiança tem forma hiperbólica dada pela equação
Suposição assintótica
A segunda hipótese alternativa afirma que quando o número de pontos no conjunto de dados é "grande o suficiente", a lei dos grandes números e o teorema do limite central tornam-se aplicáveis, e então a distribuição dos estimadores é aproximadamente normal. Sob essa suposição, todas as fórmulas derivadas na seção anterior permanecem válidas, com a única exceção de que o quantil t * n −2 da distribuição t de Student é substituído pelo quantil q * da distribuição normal padrão . Ocasionalmente, a fração 1/n -2 é substituído por 1/n. Quando n é grande, essa mudança não altera os resultados de forma apreciável.
Exemplo numérico
Este conjunto de dados fornece as massas médias para mulheres em função de sua altura em uma amostra de mulheres americanas de 30 a 39 anos. Embora o artigo OLS argumente que seria mais apropriado executar uma regressão quadrática para esses dados, o modelo de regressão linear simples é aplicado aqui.
Altura (m), x i 1,47 1,50 1,52 1,55 1,57 1,60 1,63 1,65 1,68 1,70 1,73 1,75 1,78 1,80 1,83 Massa (kg), y i 52,21 53,12 54,48 55,84 57,20 58,57 59,93 61,29 63,11 64,47 66,28 68,10 69,92 72,19 74,46
1 | 1,47 | 52,21 | 2,1609 | 76,7487 | 2725,8841 |
2 | 1,50 | 53,12 | 2.2500 | 79,6800 | 2821,7344 |
3 | 1,52 | 54,48 | 2,3104 | 82,8096 | 2968.0704 |
4 | 1,55 | 55,84 | 2,4025 | 86,5520 | 3118,1056 |
5 | 1,57 | 57,20 | 2,4649 | 89,8040 | 3271,8400 |
6 | 1,60 | 58,57 | 2.5600 | 93,7120 | 3430,4449 |
7 | 1,63 | 59,93 | 2,6569 | 97,6859 | 3591,6049 |
8 | 1,65 | 61,29 | 2,7225 | 101,1285 | 3756.4641 |
9 | 1,68 | 63,11 | 2.8224 | 106.0248 | 3982,8721 |
10 | 1,70 | 64,47 | 2.8900 | 109.5990 | 4156.3809 |
11 | 1,73 | 66,28 | 2,9929 | 114,6644 | 4393,0384 |
12 | 1,75 | 68,10 | 3.0625 | 119,1750 | 4637,6100 |
13 | 1,78 | 69,92 | 3,1684 | 124,4576 | 4888,8064 |
14 | 1,80 | 72,19 | 3.2400 | 129,9420 | 5211.3961 |
15 | 1,83 | 74,46 | 3,3489 | 136,2618 | 5544,2916 |
24,76 | 931,17 | 41,0532 | 1548,2453 | 58498.5439 |
Existem n = 15 pontos neste conjunto de dados. Os cálculos manuais seriam iniciados encontrando-se as seguintes cinco somas:
Essas quantidades seriam usadas para calcular as estimativas dos coeficientes de regressão e seus erros padrão.
O quantil 0,975 da distribuição t de Student com 13 graus de liberdade é t * 13 = 2,1604 e, portanto, os intervalos de confiança de 95% para α e β são
O coeficiente de correlação produto-momento também pode ser calculado:
Este exemplo também demonstra que cálculos sofisticados não irão superar o uso de dados mal preparados. As alturas foram originalmente fornecidas em polegadas e foram convertidas para o centímetro mais próximo. Como a conversão introduziu um erro de arredondamento, essa não é uma conversão exata. As polegadas originais podem ser recuperadas por Arredondamento (x / 0,0254) e, em seguida, reconvertido em sistema métrico sem arredondamento: se isso for feito, os resultados se tornam
Assim, uma variação aparentemente pequena nos dados tem um efeito real.
Veja também
- Matriz de design # Regressão linear simples
- Encaixe de linha
- Estimativa de tendência linear
- Regressão linear segmentada
- Provas envolvendo mínimos quadrados ordinários - derivação de todas as fórmulas usadas neste artigo no caso multidimensional geral