Soma de quadrados de falta de ajuste - Lack-of-fit sum of squares
Em estatísticas , uma soma dos quadrados devido à falta de ajuste , ou mais concisamente uma soma de falta de ajuste de quadrados , é um dos componentes de uma partição da soma dos quadrados dos resíduos numa análise de variância , utilizado no numerador em um teste F da hipótese nula que diz que um modelo proposto se ajusta bem. O outro componente é a soma dos quadrados dos erros puros .
A soma dos quadrados do erro puro é a soma dos desvios quadrados de cada valor da variável dependente do valor médio sobre todas as observações que compartilham seu (s) valor (es) de variável independente . Esses são erros que nunca poderiam ser evitados por qualquer equação preditiva que atribuísse um valor previsto para a variável dependente como uma função do (s) valor (es) da (s) variável (is) independente (s). O restante da soma residual dos quadrados é atribuído à falta de ajuste do modelo, uma vez que seria matematicamente possível eliminar totalmente esses erros.
Esboço da ideia
Para que a soma dos quadrados por falta de ajuste difira da soma dos quadrados dos resíduos , deve haver mais de um valor da variável de resposta para pelo menos um dos valores do conjunto de variáveis preditoras. Por exemplo, considere ajustar uma linha
pelo método dos mínimos quadrados . Toma-se como estimativas de α e β os valores que minimizam a soma dos quadrados dos resíduos, ou seja, a soma dos quadrados das diferenças entre o valor y observado e o valor y ajustado . Para ter uma soma de quadrados sem ajuste que difere da soma residual de quadrados, deve-se observar mais de um valor y para cada um ou mais dos valores x . Em seguida, particiona-se a "soma dos quadrados devido ao erro", ou seja, a soma dos quadrados dos resíduos, em dois componentes:
- soma dos quadrados devido ao erro = (soma dos quadrados devido ao erro "puro") + (soma dos quadrados devido à falta de ajuste).
A soma dos quadrados devido ao erro "puro" é a soma dos quadrados das diferenças entre cada valor y observado e a média de todos os valores y correspondentes ao mesmo valor x .
A soma dos quadrados devido à falta de ajuste é a soma ponderada dos quadrados das diferenças entre cada média dos valores y correspondentes ao mesmo valor x e o valor y ajustado correspondente , o peso em cada caso sendo simplesmente o número de observados valores y para esse valor x . Como é uma propriedade da regressão de mínimos quadrados que o vetor cujos componentes são "erros puros" e o vetor de componentes de falta de ajuste sejam ortogonais entre si, a seguinte igualdade é válida:
Conseqüentemente, a soma residual dos quadrados foi completamente decomposta em dois componentes.
Detalhes matemáticos
Considere ajustar uma linha com uma variável preditora. Defina i como um índice de cada um dos n valores distintos de x , j como um índice das observações da variável de resposta para um determinado valor de x e n i como o número de valores de y associados ao i ésimo valor de x . O valor de cada observação variável de resposta pode ser representado por
Deixar
ser as estimativas de mínimos quadrados dos parâmetros não observáveis α e β com base nos valores observados de x i e Y i j .
Deixar
ser os valores ajustados da variável de resposta. Então
são os resíduos , que são estimativas observáveis dos valores não observáveis do termo de erro ε ij . Devido à natureza do método dos mínimos quadrados, todo o vetor de resíduos, com
componentes escalares, necessariamente satisfaz as duas restrições
Portanto, é restrito a se situar em um subespaço ( N - 2) -dimensional de R N , ou seja, há N - 2 " graus de liberdade para erro".
Agora deixe
ser a média de todos os valores de Y associados ao i- ésimo valor de x .
Dividimos a soma dos quadrados devido ao erro em dois componentes:
Distribuições de probabilidade
Soma dos quadrados
Suponha que os termos de erro ε i j sejam independentes e normalmente distribuídos com valor esperado 0 e variância σ 2 . Tratamos x i como constante em vez de aleatório. Então, as variáveis de resposta Y i j são aleatórias apenas porque os erros ε i j são aleatórios.
Pode-se demonstrar que se o modelo linear estiver correto, então a soma dos quadrados devido ao erro dividida pela variância do erro,
tem uma distribuição qui-quadrada com N - 2 graus de liberdade.
Além disso, dado o número total de observações N , o número de níveis da variável independente n e o número de parâmetros no modelo p :
- A soma dos quadrados devido ao erro puro, dividida pela variância do erro σ 2 , tem uma distribuição qui-quadrada com N - n graus de liberdade;
- A soma dos quadrados devido à falta de ajuste, dividida pela variância do erro σ 2 , tem uma distribuição qui-quadrada com n - p graus de liberdade (aqui p = 2 porque há dois parâmetros no modelo de linha reta);
- As duas somas de quadrados são probabilisticamente independentes.
A estatística de teste
Segue-se então que a estatística
tem uma distribuição F com o número correspondente de graus de liberdade no numerador e no denominador, desde que o modelo esteja correto. Se o modelo estiver errado, então a distribuição de probabilidade do denominador ainda é conforme declarado acima, e o numerador e o denominador ainda são independentes. Mas o numerador tem uma distribuição qui-quadrada não central e, conseqüentemente, o quociente como um todo tem uma distribuição F não central .
Usamos essa estatística F para testar a hipótese nula de que o modelo linear está correto. Uma vez que a distribuição F não central é estocasticamente maior do que a distribuição F (central), rejeita-se a hipótese nula se a estatística F for maior do que o valor F crítico. Os corresponde valor crítico para a função de distribuição cumulativa da distribuição F com x igual para o desejado nível de confiança , e graus de liberdade d 1 = ( n - p ) e d 2 = ( N - N ).
Pode-se demonstrar que as suposições de distribuição normal de erros e independência implicam que esse teste de falta de ajuste é o teste de razão de verossimilhança dessa hipótese nula.