Mínimos quadrados ordinários - Ordinary least squares

Em estatística , os mínimos quadrados ordinários ( OLS ) é um tipo de método de mínimos quadrados linear para estimar os parâmetros desconhecidos em um modelo de regressão linear . OLS escolhe os parâmetros de uma função linear de um conjunto de variáveis ​​explicativas pelo princípio dos mínimos quadrados : minimizando a soma dos quadrados das diferenças entre a variável dependente observada (valores da variável sendo observada) no conjunto de dados dado e aqueles previstos pela função linear da variável independente .

Geometricamente, isso é visto como a soma das distâncias quadradas, paralelas ao eixo da variável dependente, entre cada ponto de dados no conjunto e o ponto correspondente na superfície de regressão - quanto menores as diferenças, melhor o modelo se ajusta aos dados . O estimador resultante pode ser expresso por uma fórmula simples, especialmente no caso de uma regressão linear simples , na qual há um único regressor no lado direito da equação de regressão.

O estimador OLS é consistente quando os regressores são exógenos e - pelo teorema de Gauss-Markov - ótimo na classe de estimadores lineares não enviesados quando os erros são homocedásticos e serialmente não correlacionados . Nessas condições, o método de OLS fornece estimativa sem viés médio de variância mínima quando os erros têm variâncias finitas . Sob a suposição adicional de que os erros são normalmente distribuídos , OLS é o estimador de máxima verossimilhança .

Modelo linear

A lei de Okun em macroeconomia afirma que em uma economia o crescimento do PIB deve depender linearmente das mudanças na taxa de desemprego. Aqui, o método dos mínimos quadrados ordinários é usado para construir a linha de regressão que descreve esta lei.

Suponha que os dados consistam em observações . Cada observação inclui uma resposta escalar e um vetor coluna de parâmetros (regressores), ou seja ,. Em um modelo de regressão linear , a variável de resposta,, é uma função linear dos regressores:

ou em forma de vetor ,

onde , como introduzido anteriormente, é um vetor coluna da -ésima observação de todas as variáveis ​​explicativas; é um vetor de parâmetros desconhecidos; e o escalar representa variáveis ​​aleatórias não observadas ( erros ) da -ésima observação. explica as influências sobre as respostas de outras fontes além dos explicadores . Este modelo também pode ser escrito em notação de matriz como

onde e são vetores das variáveis ​​de resposta e dos erros das observações, e é uma matriz de regressores, também às vezes chamada de matriz de design , cuja linha é e contém as -ésimas observações em todas as variáveis ​​explicativas.

Como regra, o termo constante é sempre incluído no conjunto de regressores , digamos, considerando todos . O coeficiente correspondente a este regressor é denominado intercepto .

Os regressores não precisam ser independentes: pode haver qualquer relação desejada entre os regressores (desde que não seja uma relação linear). Por exemplo, podemos suspeitar que a resposta depende linearmente de um valor e de seu quadrado; nesse caso, incluiríamos um regressor cujo valor é apenas o quadrado de outro regressor. Nesse caso, o modelo seria quadrático no segundo regressor, mas mesmo assim é considerado um modelo linear porque o modelo ainda é linear nos parâmetros ( ).

Formulação de matriz / vetor

Considere um sistema sobredeterminado

de equações lineares em desconhecidos coeficientes , com . (Observação: para um modelo linear como acima, nem todos os elementos em contém informações sobre os pontos de dados. A primeira coluna é preenchida com uns ,. Apenas as outras colunas contêm dados reais. Portanto, aqui é igual ao número de regressores mais um. ) Isso pode ser escrito em forma de matriz como

Onde

Tal sistema geralmente não tem solução exata, então o objetivo é, em vez disso, encontrar os coeficientes que se encaixam nas equações "melhores", no sentido de resolver o problema de minimização quadrática

onde a função objetivo é dada por

Uma justificativa para a escolha deste critério é fornecida nas Propriedades a seguir. Este problema de minimização tem uma solução única, desde que as colunas da matriz sejam linearmente independentes , dada pela resolução das equações normais.

A matriz é conhecida como matriz de Gram e a matriz é conhecida como matriz de momento do regressando por regressores. Finalmente, é o vetor de coeficientes do hiperplano de mínimos quadrados , expresso como

ou

Estimativa

Suponha que b seja um valor "candidato" para o vetor de parâmetros β . A quantidade y i - x i T b , chamada de resíduo para a i -ésima observação, mede a distância vertical entre o ponto de dados ( x i , y i ) e o hiperplano y = x T b , e assim avalia o grau de ajuste entre os dados reais e o modelo. A soma dos resíduos quadrados ( SSR ) (também chamada de soma dos quadrados do erro ( ESS ) ou soma dos quadrados residuais ( RSS )) é uma medida do ajuste geral do modelo:

onde t indica a matriz transposta , e as linhas de X , que denotam os valores de todas as variáveis independentes associados com um determinado valor da variável dependente, são X i = x i t . O valor de b que minimiza essa soma é chamado de estimador OLS para β . A função S ( b ) é quadrática em b com Hessiano definido positivo e , portanto, esta função possui um mínimo global único em , que pode ser dado pela fórmula explícita: [prova]

O produto N = X T X é uma matriz de Gram e sua inversa, Q = N –1 , é a matriz cofator de β , intimamente relacionada à sua matriz de covariância , C β . A matriz ( X T X ) –1 X T = Q X T é chamada de matriz pseudoinversa de Moore-Penrose de X. Esta formulação destaca o ponto que a estimativa pode ser realizada se, e somente se, não houver multicolinearidade perfeita entre os variáveis ​​explicativas (que fariam com que a matriz grama não tivesse inversa).

Depois de estimarmos β , os valores ajustados (ou valores previstos ) da regressão serão

onde P = X ( X T X ) -1 X T é a matriz de projecção para o espaço V gerado por as colunas de X . Essa matriz P também é às vezes chamada de matriz hat porque "coloca um chapéu" na variável y . Outra matriz, intimamente relacionada a P, é a matriz aniquiladora M = I n - P ; esta é uma matriz de projecção ortogonal para o espaço para V . Ambas as matrizes P e M são simétricas e idempotentes (o que significa que P 2 = P e M 2 = M ) e se relacionam com a matriz de dados X por meio das identidades PX = X e MX = 0 . A matriz M cria os resíduos da regressão:

Usando esses resíduos, podemos estimar o valor de σ 2 usando a estatística qui-quadrada reduzida :

O denominador, n - p , são os graus de liberdade estatísticos . A primeira quantidade, s 2 , é a estimativa OLS para σ 2 , enquanto a segunda ,, é a estimativa MLE para σ 2 . Os dois estimadores são bastante semelhantes em grandes amostras; o primeiro estimador é sempre não enviesado , enquanto o segundo estimador é enviesado, mas tem um erro quadrático médio menor . Na prática, s 2 é usado com mais frequência, pois é mais conveniente para o teste de hipóteses. A raiz quadrada de s 2 é chamado de regressão o erro padrão , erro padrão da regressão , ou erro padrão da equação .

É comum para avaliar o bem-de-ajuste da regressão OLS comparando quanto a variação inicial na amostra pode ser reduzida pela regressão para X . O coeficiente de determinação R 2 é definido como uma razão entre a variância "explicada" e a variância "total" da variável dependente y , nos casos em que a soma dos quadrados da regressão é igual à soma dos quadrados dos resíduos:

onde TSS é a soma total dos quadrados para a variável dependente, e é um n × n matriz de uns. ( é uma matriz de centralização que é equivalente à regressão em uma constante; ela simplesmente subtrai a média de uma variável.) Para que R 2 seja significativo, a matriz X de dados em regressores deve conter um vetor coluna de uns para representar o constante cujo coeficiente é a interceptação da regressão. Nesse caso, R 2 será sempre um número entre 0 e 1, com valores próximos de 1 indicando um bom grau de ajuste.

A variância na previsão da variável independente como uma função da variável dependente é dada no artigo Mínimos quadrados polinomiais .

Modelo de regressão linear simples

Se a matriz de dados X contém apenas duas variáveis, uma constante e um regressor escalar x i , isso é chamado de "modelo de regressão simples". Este caso é frequentemente considerado nas aulas de estatística para iniciantes, pois fornece fórmulas muito mais simples, adequadas até mesmo para cálculos manuais. Os parâmetros são comumente denotados como ( α , β ) :

As estimativas de mínimos quadrados neste caso são dadas por fórmulas simples

Derivações alternativas

Na seção anterior, o estimador de mínimos quadrados foi obtido como um valor que minimiza a soma dos resíduos quadrados do modelo. No entanto, também é possível derivar o mesmo estimador de outras abordagens. Em todos os casos, a fórmula para o estimador OLS permanece a mesma: ^ β = ( X T X ) −1 X T y ; a única diferença está em como interpretamos esse resultado.

Projeção

A estimativa de OLS pode ser vista como uma projeção no espaço linear estendido pelos regressores. (Aqui, cada um de e refere-se a uma coluna da matriz de dados.)

Para os matemáticos, OLS é uma solução aproximada para um sistema sobredeterminado de equações lineares y , onde β é a incógnita. Assumindo que o sistema não pode ser resolvido exatamente (o número de equações n é muito maior do que o número de incógnitas p ), estamos procurando uma solução que possa fornecer a menor discrepância entre os lados direito e esquerdo. Em outras palavras, estamos procurando a solução que satisfaça

onde || · || é a norma L 2  padrão no espaço euclidiano n- dimensional R n . A quantidade predita é apenas uma certa combinação linear dos vetores de regressores. Assim, o vector residual y - terá o menor comprimento quando y é projectada perpendicularmente para o subespaço linear mediu por as colunas de X . O estimador OLS , neste caso, pode ser interpretado como os coeficientes de decomposição vector de ^ y = Py ao longo da base de X .

Em outras palavras, as equações de gradiente no mínimo podem ser escritas como:

Uma interpretação geométrica dessas equações é que o vetor de resíduos é ortogonal ao espaço da coluna de X , uma vez que o produto escalar é igual a zero para qualquer vetor conforme, v . Isso significa que é o menor de todos os vetores possíveis , ou seja, a variância dos resíduos é a mínima possível. Isso é ilustrado à direita.

Apresentando uma matriz K com a suposição de que uma matriz não é singular e K T X = 0 (cf. projeções ortogonais ), o vetor residual deve satisfazer a seguinte equação:

A equação e a solução dos mínimos quadrados lineares são descritos da seguinte forma:

Outra maneira de ver isso é considerar a linha de regressão como uma média ponderada das linhas que passam pela combinação de quaisquer dois pontos no conjunto de dados. Embora essa forma de cálculo seja mais cara em termos computacionais, ela fornece uma melhor intuição sobre OLS.

Probabilidade máxima

O estimador OLS é idêntico ao estimador de máxima verossimilhança (MLE) sob a suposição de normalidade para os termos de erro. [prova] Essa suposição de normalidade tem importância histórica, pois forneceu a base para os primeiros trabalhos em análise de regressão linear de Yule e Pearson . A partir das propriedades do MLE, podemos inferir que o estimador OLS é assintoticamente eficiente (no sentido de atingir o limite de Cramér-Rao para a variância) se a suposição de normalidade for satisfeita.

Método generalizado de momentos

No caso de iid , o estimador OLS também pode ser visto como um estimador GMM decorrente das condições de momento

Essas condições de momento afirmam que os regressores não devem estar correlacionados com os erros. Como x i é um p- vetor, o número de condições de momento é igual à dimensão do vetor de parâmetros β e, portanto, o sistema é identificado com exatidão. É o chamado caso clássico do GMM, em que o estimador independe da escolha da matriz de ponderação.

Observe que a suposição original de exogeneidade estrita E [ ε i  | x i ] = 0 implica um conjunto muito mais rico de condições de momento do que o declarado acima. Em particular, esta suposição implica que para qualquer função vetorial ƒ , a condição de momento E [ ƒ ( x i ) · ε i ] = 0 será válida. No entanto, pode ser mostrado usando o teorema de Gauss-Markov que a escolha ótima da função ƒ é tomar ƒ ( x ) = x , o que resulta na equação de momento postada acima.

Propriedades

Premissas

Existem várias estruturas diferentes nas quais o modelo de regressão linear pode ser lançado para tornar a técnica OLS aplicável. Cada uma dessas configurações produz as mesmas fórmulas e os mesmos resultados. A única diferença é a interpretação e os pressupostos que devem ser impostos para que o método dê resultados significativos. A escolha da estrutura aplicável depende principalmente da natureza dos dados em mãos e da tarefa de inferência que deve ser realizada.

Uma das linhas de diferença na interpretação é tratar os regressores como variáveis ​​aleatórias ou como constantes predefinidas. No primeiro caso ( desenho aleatório ), os regressores x i são aleatórios e amostrados junto com os y i de alguma população , como em um estudo observacional . Esta abordagem permite um estudo mais natural das propriedades assintóticas dos estimadores. Na outra interpretação ( projeto fixo ), os regressores X são tratados como constantes conhecidas definidas por um projeto e y é amostrado condicionalmente nos valores de X como em um experimento . Para fins práticos, esta distinção é muitas vezes sem importância, uma vez que a estimativa e inferência é realizada enquanto condicionado em X . Todos os resultados declarados neste artigo estão dentro da estrutura de design aleatório.

Modelo de regressão linear clássico

O modelo clássico foca na estimativa e inferência de "amostra finita", o que significa que o número de observações n é fixo. Isso contrasta com as outras abordagens, que estudam o comportamento assintótico de OLS, e nas quais o número de observações pode crescer até o infinito.

  • Especificação correta . A forma funcional linear deve coincidir com a forma do processo real de geração de dados.
  • Exogeneidade estrita . Os erros na regressão devem ter média condicional zero:
A consequência imediata da suposição de exogeneidade é que os erros têm média zero: E [ ε ] = 0 , e que os regressores não estão correlacionados com os erros: E [ X T ε ] = 0 .
A suposição de exogeneidade é crítica para a teoria OLS. Se for verdade, as variáveis ​​do regressor são chamadas de exógenas . Do contrário, os regressores correlacionados com o termo de erro são chamados de endógenos e as estimativas OLS tornam-se inválidas. Nesse caso, o método das variáveis ​​instrumentais pode ser usado para realizar a inferência.
  • Sem dependência linear . Os regressores em X devem ser todos linearmente independentes . Matematicamente, isso significa que a matriz X deve ter classificação de coluna completa quase com certeza:
Normalmente, também é assumido que os regressores têm momentos finitos até pelo menos o segundo momento. Então a matriz Q xx = E [ X T X  /  n ] é finita e semi-definida positiva.
Quando essa suposição é violada, os regressores são chamados de linearmente dependentes ou perfeitamente multicolineares . Nesse caso, o valor do coeficiente de regressão β não pode ser aprendido, embora a previsão dos valores de y ainda seja possível para novos valores dos regressores que se encontram no mesmo subespaço linearmente dependente.
  • Erros esféricos :
onde I n é a matriz identidade na dimensão n , e σ 2 é um parâmetro que determina a variância de cada observação. Este σ 2 é considerado um parâmetro incômodo no modelo, embora normalmente também seja estimado. Se essa suposição for violada, as estimativas OLS ainda serão válidas, mas não mais eficientes.
É comum dividir essa suposição em duas partes:
  • Homocedasticidade : E [  ε i 2  | X  ] = σ 2 , o que significa que o termo de erro possui a mesma variância σ 2 em cada observação. Quando esse requisito é violado, isso é chamado de heterocedasticidade ; nesse caso, um estimador mais eficiente seria os mínimos quadrados ponderados . Se os erros têm variância infinita, então as estimativas OLS também terão variância infinita (embora pela lei dos grandes números eles tendam para os valores verdadeiros, desde que os erros tenham média zero). Neste caso,técnicas de estimativa robustas são recomendadas.
  • Sem autocorrelação : os erros não estão correlacionados entre as observações: E [  ε i ε j  | X  ] = 0 para ij . Esta suposição pode ser violada no contexto de dados de série temporal, dados de painel , amostras de cluster, dados hierárquicos, dados de medidas repetidas, dados longitudinais e outros dados com dependências. Nesses casos, os mínimos quadrados generalizados oferecem uma alternativa melhor do que o OLS. Outra expressão para autocorrelação é a correlação serial .
  • Normalidade . Às vezes, também é assumido que os erros têm distribuição normal condicional aos regressores:
Esta suposição não é necessária para a validade do método OLS, embora certas propriedades adicionais de amostra finita possam ser estabelecidas caso isso aconteça (especialmente na área de teste de hipóteses). Além disso, quando os erros são normais, o estimador OLS é equivalente ao estimador de máxima verossimilhança (MLE) e, portanto, é assintoticamente eficiente na classe de todos os estimadores regulares . É importante ressaltar que a suposição de normalidade se aplica apenas aos termos de erro; ao contrário de um conceito errôneo popular, a variável de resposta (dependente) não precisa ser distribuída normalmente.

Independente e distribuído de forma idêntica (iid)

Em algumas aplicações, especialmente com dados transversais , uma suposição adicional é imposta - que todas as observações são independentes e distribuídas de forma idêntica. Isso significa que todas as observações são tiradas de uma amostra aleatória, o que torna todas as suposições listadas anteriormente mais simples e fáceis de interpretar. Além disso, este framework permite estabelecer resultados assintóticos (como o tamanho da amostra n  → ∞ ), que são entendidos como uma possibilidade teórica de buscar novas observações independentes do processo de geração de dados . A lista de suposições neste caso é:

  • observações iid : ( x i , y i ) é independente de, e tem a mesma distribuição que, ( x j , y j ) para todo i ≠ j ;
  • sem multicolinearidade perfeita : Q xx = E [  x i  x i T  ] é uma matriz definida positiva ;
  • exogeneidade : E [  ε i  | x i  ] = 0;
  • homocedasticidade : Var [  ε i  | x i  ] = σ 2 .

Modelo de série temporal

Propriedades de amostra finitas

Primeiro de tudo, sob a estrita exogeneidade suposição os MQO estimadores e é 2 são imparcial , o que significa que seus valores esperados coincidir com os verdadeiros valores dos parâmetros: [prova]

Se a exogeneidade estrita não for mantida (como é o caso de muitos modelos de séries temporais , onde a exogeneidade é assumida apenas em relação aos choques passados, mas não aos futuros), então esses estimadores serão enviesados ​​em amostras finitas.

A matriz de variância-covariância (ou simplesmente matriz de covariância ) de é igual a

Em particular, o erro padrão de cada coeficiente é igual à raiz quadrada do j- ésimo elemento da diagonal dessa matriz. A estimativa desse erro padrão é obtida substituindo-se a incógnita σ 2 por sua estimativa s 2 . Assim,

Também pode ser facilmente mostrado que o estimador não está correlacionado com os resíduos do modelo:

O teorema de Gauss-Markov afirma que, sob a suposição de erros esféricos (ou seja, os erros devem ser não correlacionados e homocedásticos ), o estimador é eficiente na classe dos estimadores lineares não enviesados. Isso é chamado de melhor estimador linear não enviesado (AZUL). A eficiência deve ser entendida como se fossemos encontrar algum outro estimador que seria linear em y e não enviesado, então

no sentido de que esta é uma matriz definida não negativa . Este teorema estabelece otimalidade apenas na classe de estimadores lineares não enviesados, o que é bastante restritivo. Dependendo da distribuição dos termos de erro ε , outros estimadores não lineares podem fornecer resultados melhores do que OLS.

Assumindo normalidade

As propriedades listadas até agora são todas válidas, independentemente da distribuição subjacente dos termos de erro. No entanto, se você estiver disposto a assumir que a suposição de normalidade é válida (ou seja, que ε ~ N (0, σ 2 I n ) ), então propriedades adicionais dos estimadores OLS podem ser declaradas.

O estimador é normalmente distribuído, com média e variância conforme dados anteriormente:

onde Q é a matriz cofator . Este estimador atinge o limite de Cramér – Rao para o modelo e, portanto, é ótimo na classe de todos os estimadores não enviesados. Observe que, ao contrário do teorema de Gauss-Markov , este resultado estabelece a otimização entre os estimadores lineares e não lineares, mas apenas no caso de termos de erro normalmente distribuídos.

O estimador s 2 será proporcional à distribuição qui-quadrado :

A variância deste estimador é igual a 2 σ 4 / ( n  -  p ) , que não atinge o limite de Cramér – Rao de 2 σ 4 / n . Porém, foi mostrado que não existem estimadores não enviesados ​​de σ 2 com variância menor que a do estimador s 2 . Se estivermos dispostos a permitir estimadores enviesados ​​e considerar a classe de estimadores que são proporcionais à soma dos resíduos quadrados (SSR) do modelo, então o melhor estimador (no sentido do erro quadrático médio ) nesta classe será ~ σ 2 = SSR  /  ( n  -  p  + 2) , que ainda bate o limite de Cramér-Rao no caso de haver apenas um regressor ( p = 1 ).

Além disso, os estimadores e s 2 são independentes , o fato de que vem a ser útil quando a construção de T e F-testes para a regressão.

Observações influentes

Como foi mencionado antes, o estimador é linear em y , o que significa que representa uma combinação linear das variáveis ​​dependentes y i . Os pesos nesta combinação linear são funções dos regressores X e geralmente são desiguais. As observações com pesos elevados são chamadas de influentes porque têm um efeito mais pronunciado sobre o valor do estimador.

Para analisar quais observações são influentes, removemos uma j- ésima observação específica e consideramos o quanto as quantidades estimadas irão mudar (semelhante ao método jackknife ). Pode-se mostrar que a mudança no estimador OLS para β será igual a

onde h j = x j T  ( X T X ) −1 x j é o j -ésimo elemento da diagonal da matriz hat P e x j é o vetor de regressores correspondente à j -ésima observação. Da mesma forma, a mudança no valor previsto para j -ésima observação resultante da omissão dessa observação do conjunto de dados será igual a

A partir das propriedades da matriz hat, 0 ≤ h j ≤ 1 , e eles somam p , de modo que em média h jp / n . Essas quantidades h j são chamadas de alavancagens e as observações com alto h j são chamadas de pontos de alavancagem . Normalmente as observações com alta alavancagem devem ser escrutinadas com mais cuidado, caso sejam errôneas, ou discrepantes, ou de alguma outra forma atípicas do resto do conjunto de dados.

Regressão particionada

Às vezes, as variáveis ​​e os parâmetros correspondentes na regressão podem ser divididos logicamente em dois grupos, de modo que a regressão tome forma

onde X 1 e X 2 têm dimensões n × p 1 , n × p 2 e β 1 , β 2 são vetores p 1 × 1 e p 2 × 1, com p 1 + p 2 = p .

O teorema de Frisch-Waugh-Lovell afirma que nesta regressão os resíduos e a estimativa de OLS serão numericamente idênticos aos resíduos e a estimativa de OLS para β 2 na seguinte regressão:

onde M 1 é a matriz aniquiladora para regressores X 1 .

O teorema pode ser usado para estabelecer uma série de resultados teóricos. Por exemplo, ter uma regressão com uma constante e outro regressor é equivalente a subtrair as médias da variável dependente e do regressor e, em seguida, executar a regressão para as variáveis ​​de-médias, mas sem o termo constante.

Estimativa restrita

Suponha que seja conhecido que os coeficientes na regressão satisfazem um sistema de equações lineares

onde Q é uma matriz p × q de classificação completa e c é um vetor q × 1 de constantes conhecidas, onde q <p . Neste caso mínimos quadrados estimativa é equivalente a minimizar a soma dos quadrados dos resíduos do modelo sujeito à restrição A . O estimador de mínimos quadrados restritos (CLS) pode ser dado por uma fórmula explícita:

Esta expressão para o estimador restrito é válida desde que a matriz X T X seja invertível. Foi assumido desde o início deste artigo que esta matriz é de rank completo, e foi notado que quando a condição de rank falha, β não será identificável. No entanto, pode acontecer que a adição da restrição A torne β identificável, caso em que gostaríamos de encontrar a fórmula para o estimador. O estimador é igual a

onde R é uma matriz p × ( p  -  q ) tal que a matriz [ QR ] não é singular e R T Q = 0 . Essa matriz sempre pode ser encontrada, embora geralmente não seja única. A segunda fórmula coincide com a primeira no caso em que X T X seja invertível.

Grandes propriedades de amostra

Os estimadores de mínimos quadrados são estimativas pontuais dos parâmetros do modelo de regressão linear β . No entanto, geralmente também queremos saber quão próximas essas estimativas podem estar dos verdadeiros valores dos parâmetros. Em outras palavras, queremos construir as estimativas de intervalo .

Uma vez que não fizemos nenhuma suposição sobre a distribuição do termo de erro ε i , é impossível inferir a distribuição dos estimadores e . No entanto, podemos aplicar o teorema do limite central para derivar suas propriedades assintóticas conforme o tamanho da amostra n vai para o infinito. Embora o tamanho da amostra seja necessariamente finito, é costume assumir que n é "grande o suficiente" para que a distribuição verdadeira do estimador OLS esteja próxima de seu limite assintótico.

Podemos mostrar que, sob as suposições do modelo, o estimador de mínimos quadrados para β é consistente (ou seja, converge em probabilidade para β ) e assintoticamente normal: [prova]

Onde

Intervalos

Usando esta distribuição assintótica, intervalos de confiança bilateral aproximados para o j- ésimo componente do vetor podem ser construídos como

  no nível de confiança 1 -  α ,

onde q denota a função quantil da distribuição normal padrão, e [·] jj é o j -ésimo elemento da diagonal de uma matriz.

Da mesma forma, o estimador de mínimos quadrados para σ 2 também é consistente e assintoticamente normal (desde que o quarto momento de ε i exista) com distribuição limitante

Essas distribuições assintóticas podem ser usadas para predição, teste de hipóteses, construção de outros estimadores, etc. Como exemplo, considere o problema da predição. Suponha que haja algum ponto dentro do domínio de distribuição dos regressores, e alguém queira saber qual seria a variável de resposta naquele ponto. A resposta média é a quantidade , enquanto a resposta prevista é . Claramente, a resposta prevista é uma variável aleatória, sua distribuição pode ser derivada daquela de :

que permite construir intervalos de confiança para a resposta média a ser construída:

  no nível de confiança 1 -  α .

Testando hipóteses

Dois testes de hipótese são particularmente amplamente usados. Em primeiro lugar, queremos saber se a equação de regressão estimada é melhor do que simplesmente prever que todos os valores da variável resposta são iguais à média da amostra (se não, diz-se que não tem poder explicativo). A hipótese nula de não valor explicativo da regressão estimada é testado utilizando um teste de F . Se o valor F calculado for considerado grande o suficiente para exceder seu valor crítico para o nível de significância pré-escolhido, a hipótese nula é rejeitada e a hipótese alternativa , de que a regressão tem poder explicativo, é aceita. Caso contrário, a hipótese nula de nenhum poder explicativo é aceita.

Em segundo lugar, para cada variável explicativa de interesse, deseja-se saber se seu coeficiente estimado difere significativamente de zero - isto é, se essa variável explicativa específica de fato tem poder explicativo para prever a variável resposta. Aqui, a hipótese nula é que o coeficiente verdadeiro é zero. Essa hipótese é testada pelo cálculo da estatística t do coeficiente , como a razão entre a estimativa do coeficiente e seu erro padrão . Se a estatística t for maior que um valor predeterminado, a hipótese nula é rejeitada e a variável tem poder explicativo, com seu coeficiente significativamente diferente de zero. Caso contrário, a hipótese nula de um valor zero do coeficiente verdadeiro é aceita.

Além disso, o teste de Chow é usado para testar se duas subamostras têm os mesmos valores de coeficiente verdadeiro subjacente. A soma dos resíduos quadrados das regressões em cada um dos subconjuntos e no conjunto de dados combinados são comparados calculando uma estatística F; se exceder um valor crítico, a hipótese nula de nenhuma diferença entre os dois subconjuntos é rejeitada; caso contrário, é aceito.

Exemplo com dados reais

Gráfico de dispersão dos dados, a relação é ligeiramente curva, mas quase linear

O conjunto de dados a seguir fornece alturas e pesos médios para mulheres americanas de 30 a 39 anos (fonte: The World Almanac and Book of Facts, 1975 ).

Altura (m) 1,47 1,50 1,52 1,55 1,57 1,60 1,63 1,65 1,68 1,70 1,73 1,75 1,78 1,80 1,83
Peso (kg) 52,21 53,12 54,48 55,84 57,20 58,57 59,93 61,29 63,11 64,47 66,28 68,10 69,92 72,19 74,46

Quando apenas uma variável dependente está sendo modelada, um gráfico de dispersão sugere a forma e a força da relação entre a variável dependente e os regressores. Também pode revelar valores discrepantes, heterocedasticidade e outros aspectos dos dados que podem complicar a interpretação de um modelo de regressão ajustado. O gráfico de dispersão sugere que a relação é forte e pode ser aproximada como uma função quadrática. OLS pode lidar com relacionamentos não lineares, introduzindo o regressor HEIGHT 2 . O modelo de regressão então se torna um modelo linear múltiplo:

Regressão ajustada

O resultado dos pacotes estatísticos mais populares será semelhante a este:

Método Mínimos quadrados
Variável dependente PESO
Observações 15

Parâmetro Valor Erro padrão estatística t valor p

128,8128 16,3083 7,8986 0,0000
–143,1620 19,8332 –7,2183 0,0000
61,9603 6,0084 10,3122 0,0000

R 2 0,9989 SE de regressão 0,2516
R 2 ajustado 0,9987 Soma do modelo sq. 692,61
Log probabilidade 1.0890 Soma residual de sq. 0,7595
Estatística Durbin – Watson. 2,1013 Soma total de sq. 693,37
Critério de Akaike 0,2548 Estatística F 5471,2
Critério de Schwarz 0,3964 valor p (F-stat) 0,0000

Nesta tabela:

  • A coluna Valor fornece as estimativas de quadrados mínimos dos parâmetros β j
  • A coluna de erro padrão mostra os erros padrão de cada estimativa de coeficiente:
  • As colunas estatística t e valor p estão testando se algum dos coeficientes pode ser igual a zero. A estatística t é calculada simplesmente como . Se os erros ε seguem uma distribuição normal, t segue uma distribuição de Student-t. Em condições mais fracas, t é assintoticamente normal. Valores grandes de t indicam que a hipótese nula pode ser rejeitada e que o coeficiente correspondente não é zero. A segunda coluna, valor p , expressa os resultados do teste de hipótese como um nível de significância . Convencionalmente, os valores de p menores do que 0,05 são tomados como evidência de que o coeficiente da população é diferente de zero.
  • R-quadrado é o coeficiente de determinação que indica a adequação da regressão. Essa estatística será igual a um se o ajuste for perfeito e a zero quando os regressores X não tiverem qualquer poder explicativo. Esta é uma estimativa tendenciosa da população R-quadrada e nunca diminuirá se regressores adicionais forem adicionados, mesmo se eles forem irrelevantes.
  • O R-quadrado ajustado é uma versão ligeiramente modificada de , projetada para penalizar pelo número excessivo de regressores que não aumentam o poder explicativo da regressão. Essa estatística é sempre menor do que , pode diminuir à medida que novos regressores são adicionados e até mesmo ser negativa para modelos de ajuste incorreto:
  • A probabilidade de log é calculada assumindo que os erros seguem uma distribuição normal. Mesmo que a suposição não seja muito razoável, essa estatística ainda pode ser usada na realização de testes LR.
  • A estatística Durbin – Watson testa se há alguma evidência de correlação serial entre os resíduos. Como regra geral, o valor menor que 2 será uma evidência de correlação positiva.
  • O critério de informação de Akaike e o critério de Schwarz são ambos usados ​​para a seleção do modelo. Geralmente, ao comparar dois modelos alternativos, valores menores de um desses critérios indicarão um modelo melhor.
  • O erro padrão da regressão é uma estimativa de σ , erro padrão do termo de erro.
  • Soma total dos quadrados , soma modelo de quadrado , e soma dos quadrados dos resíduos nos dizer o quanto da variação inicial na amostra foram explicados pela regressão.
  • A estatística F tenta testar a hipótese de que todos os coeficientes (exceto o intercepto) são iguais a zero. Essa estatística tem distribuição F ( p – 1 , n – p ) sob a hipótese nula e suposição de normalidade, e seu valor de p indica a probabilidade de que a hipótese seja realmente verdadeira. Observe que, quando os erros não são normais, essa estatística se torna inválida e outros testes, como o teste de Wald ou o teste LR, devem ser usados.
Parcela de resíduos

A análise de mínimos quadrados comuns geralmente inclui o uso de gráficos de diagnóstico projetados para detectar desvios dos dados da forma assumida do modelo. Estes são alguns dos gráficos de diagnóstico comuns:

  • Resíduos contra as variáveis ​​explicativas no modelo. Uma relação não linear entre essas variáveis ​​sugere que a linearidade da função média condicional pode não se manter. Diferentes níveis de variabilidade nos resíduos para diferentes níveis das variáveis ​​explicativas sugere possível heterocedasticidade.
  • Resíduos contra variáveis ​​explicativas que não estão no modelo. Qualquer relação dos resíduos com essas variáveis ​​sugeriria considerar essas variáveis ​​para inclusão no modelo.
  • Resíduos em relação aos valores ajustados ,.
  • Resíduos contra o resíduo anterior. Este gráfico pode identificar correlações seriais nos resíduos.

Uma consideração importante ao realizar inferência estatística usando modelos de regressão é como os dados foram amostrados. Neste exemplo, os dados são médias em vez de medições de mulheres individualmente. O ajuste do modelo é muito bom, mas isso não significa que o peso de uma mulher individual possa ser previsto com alta precisão com base apenas em sua altura.

Sensibilidade ao arredondamento

Este exemplo também demonstra que os coeficientes determinados por esses cálculos são sensíveis à forma como os dados são preparados. As alturas foram originalmente arredondadas para a polegada mais próxima e foram convertidas e arredondadas para o centímetro mais próximo. Como o fator de conversão é de uma polegada para 2,54 cm, esta não é uma conversão exata. As polegadas originais podem ser recuperadas por Arredondamento (x / 0,0254) e depois reconvertidas para o sistema métrico sem arredondamento. Se isso for feito, os resultados serão:

Const Altura Altura 2
Convertido em sistema métrico com arredondamento. 128,8128 -143,162 61.96033
Convertido em sistema métrico sem arredondamento. 119.0205 -131,5076 58,5046
Resíduos para um ajuste quadrático para dados convertidos correta e incorretamente.

O uso de qualquer uma dessas equações para prever o peso de uma mulher de 5 '6 "(1,6764 m) fornece valores semelhantes: 62,94 kg com arredondamento vs. 62,98 kg sem arredondamento. Assim, uma variação aparentemente pequena nos dados tem um efeito real sobre os coeficientes mas um pequeno efeito nos resultados da equação.

Embora isso possa parecer inócuo no meio do intervalo de dados, pode se tornar significativo nos extremos ou no caso em que o modelo ajustado é usado para projetar fora do intervalo de dados ( extrapolação ).

Isso destaca um erro comum: este exemplo é um abuso de OLS que inerentemente requer que os erros na variável independente (neste caso, altura) sejam zero ou pelo menos insignificantes. O arredondamento inicial para a polegada mais próxima mais quaisquer erros de medição reais constituem um erro finito e não desprezível. Como resultado, os parâmetros ajustados não são as melhores estimativas que se presume serem. Embora não seja totalmente espúrio, o erro na estimativa dependerá do tamanho relativo dos erros x e y .

Outro exemplo com menos dados reais

Declaração do problema

Podemos usar o mecanismo de mínimos quadrados para descobrir a equação de uma órbita de dois corpos em coordenadas de base polar. A equação normalmente usada é onde está o raio de quão longe o objeto está de um dos corpos. Na equação, os parâmetros e são usados ​​para determinar o caminho da órbita. Medimos os seguintes dados.

(em graus) 43 45 52 93 108 116
4.7126 4.5542 4.0419 2,2187 1,8910 1,7599

Precisamos encontrar a aproximação de mínimos quadrados de e para os dados fornecidos.

Solução

Primeiro, precisamos representar eep de forma linear. Portanto, vamos reescrever a equação como . Agora podemos usar este formulário para representar nossos dados de observação como:

onde é e é e é construído pela primeira coluna sendo o coeficiente de e a segunda coluna sendo o coeficiente de e são os valores para o respectivo so e

Na solução, obtemos

então e

Veja também

Referências

Leitura adicional

  • Dougherty, Christopher (2002). Introdução à Econometria (2ª ed.). Nova York: Oxford University Press. pp. 48-113. ISBN 0-19-877643-8.
  • Gujarati, Damodar N .; Porter, Dawn C. (2009). Basic Econometics (Quinta ed.). Boston: McGraw-Hill Irwin. pp. 55–96. ISBN 978-0-07-337577-9.
  • Heij, Christiaan; Boer, Paul; Franses, Philip H .; Kloek, Teun; van Dijk, Herman K. (2004). Métodos Econométricos com Aplicações em Negócios e Economia (1ª ed.). Oxford: Oxford University Press. pp. 76-115. ISBN 978-0-19-926801-6.
  • Hill, R. Carter; Griffiths, William E .; Lim, Guay C. (2008). Principles of Econometrics (3ª ed.). Hoboken, NJ: John Wiley & Sons. pp. 8–47. ISBN 978-0-471-72360-8.
  • Wooldridge, Jeffrey (2008). "O modelo de regressão simples" . Econometria introdutória: uma abordagem moderna (4ª ed.). Mason, OH: Cengage Learning. pp. 22–67. ISBN 978-0-324-58162-1.