Soma de quadrados de falta de ajuste - Lack-of-fit sum of squares

Em estatísticas , uma soma dos quadrados devido à falta de ajuste , ou mais concisamente uma soma de falta de ajuste de quadrados , é um dos componentes de uma partição da soma dos quadrados dos resíduos numa análise de variância , utilizado no numerador em um teste F da hipótese nula que diz que um modelo proposto se ajusta bem. O outro componente é a soma dos quadrados dos erros puros .

A soma dos quadrados do erro puro é a soma dos desvios quadrados de cada valor da variável dependente do valor médio sobre todas as observações que compartilham seu (s) valor (es) de variável independente . Esses são erros que nunca poderiam ser evitados por qualquer equação preditiva que atribuísse um valor previsto para a variável dependente como uma função do (s) valor (es) da (s) variável (is) independente (s). O restante da soma residual dos quadrados é atribuído à falta de ajuste do modelo, uma vez que seria matematicamente possível eliminar totalmente esses erros.

Esboço da ideia

Para que a soma dos quadrados por falta de ajuste difira da soma dos quadrados dos resíduos , deve haver mais de um valor da variável de resposta para pelo menos um dos valores do conjunto de variáveis preditoras. Por exemplo, considere ajustar uma linha

{\ displaystyle y = \ alpha x + \ beta \,}

pelo método dos mínimos quadrados . Toma-se como estimativas de α e β os valores que minimizam a soma dos quadrados dos resíduos, ou seja, a soma dos quadrados das diferenças entre o valor y observado e o valor y ajustado . Para ter uma soma de quadrados sem ajuste que difere da soma residual de quadrados, deve-se observar mais de um valor y para cada um ou mais dos valores x . Em seguida, particiona-se a "soma dos quadrados devido ao erro", ou seja, a soma dos quadrados dos resíduos, em dois componentes:

soma dos quadrados devido ao erro = (soma dos quadrados devido ao erro "puro") + (soma dos quadrados devido à falta de ajuste).

A soma dos quadrados devido ao erro "puro" é a soma dos quadrados das diferenças entre cada valor y observado e a média de todos os valores y correspondentes ao mesmo valor x .

A soma dos quadrados devido à falta de ajuste é a soma ponderada dos quadrados das diferenças entre cada média dos valores y correspondentes ao mesmo valor x e o valor y ajustado correspondente , o peso em cada caso sendo simplesmente o número de observados valores y para esse valor x . Como é uma propriedade da regressão de mínimos quadrados que o vetor cujos componentes são "erros puros" e o vetor de componentes de falta de ajuste sejam ortogonais entre si, a seguinte igualdade é válida:

{\ displaystyle {\ begin {alinhados} & \ sum ({\ text {valor observado}} - {\ text {valor ajustado}}) ^ {2} && {\ text {(erro)}} \\ & \ qquad = \ sum ({\ text {valor observado}} - {\ text {média local}}) ^ {2} && {\ text {(erro puro)}} \\ & \ qquad \ qquad {} + \ sum { \ text {peso}} \ times ({\ text {média local}} - {\ text {valor ajustado}}) ^ {2} && {\ text {(falta de ajuste)}} \ end {alinhado}}}

Conseqüentemente, a soma residual dos quadrados foi completamente decomposta em dois componentes.

Detalhes matemáticos

Considere ajustar uma linha com uma variável preditora. Defina i como um índice de cada um dos n valores distintos de x , j como um índice das observações da variável de resposta para um determinado valor de x e n _i como o número de valores de y associados ao i ^ésimo valor de x . O valor de cada observação variável de resposta pode ser representado por

{\ displaystyle Y_ {ij} = \ alpha x_ {i} + \ beta + \ varepsilon _ {ij}, \ qquad i = 1, \ dots, n, \ quad j = 1, \ dots, n_ {i}. }

Deixar

{\ displaystyle {\ widehat {\ alpha}}, {\ widehat {\ beta}} \,}

ser as estimativas de mínimos quadrados dos parâmetros não observáveis α e β com base nos valores observados de x _i e Y _{i j} .

Deixar

{\ displaystyle {\ widehat {Y}} _ {i} = {\ widehat {\ alpha}} x_ {i} + {\ widehat {\ beta}} \,}

ser os valores ajustados da variável de resposta. Então

{\ displaystyle {\ widehat {\ varepsilon}} _ {ij} = Y_ {ij} - {\ widehat {Y}} _ {i} \,}

são os resíduos , que são estimativas observáveis dos valores não observáveis do termo de erro ε _ij . Devido à natureza do método dos mínimos quadrados, todo o vetor de resíduos, com

{\ displaystyle N = \ sum _ {i = 1} ^ {n} n_ {i}}

componentes escalares, necessariamente satisfaz as duas restrições

{\ displaystyle \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} {\ widehat {\ varepsilon}} _ {ij} = 0 \,}

{\ displaystyle \ sum _ {i = 1} ^ {n} \ left (x_ {i} \ sum _ {j = 1} ^ {n_ {i}} {\ widehat {\ varepsilon}} _ {ij} \ direita) = 0. \,}

Portanto, é restrito a se situar em um subespaço ( N - 2) -dimensional de R ^N , ou seja, há N - 2 " graus de liberdade para erro".

Agora deixe

{\ displaystyle {\ overline {Y}} _ {i \ bullet} = {\ frac {1} {n_ {i}}} \ sum _ {j = 1} ^ {n_ {i}} Y_ {ij}}

ser a média de todos os valores de Y associados ao i- ^ésimo valor de x .

Dividimos a soma dos quadrados devido ao erro em dois componentes:

{\ displaystyle {\ begin {alinhado} & \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} {\ widehat {\ varepsilon}} _ {ij} ^ {\, ​​2} = \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} \ left (Y_ {ij} - {\ widehat {Y}} _ { i} \ right) ^ {2} \\ & = \ underbrace {\ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} \ left (Y_ {ij} - {\ overline {Y}} _ {i \ bullet} \ right) ^ {2}} _ {\ text {(soma dos quadrados devido a erro puro)}} + \ underbrace {\ sum _ {i = 1} ^ {n} n_ {i} \ left ({\ overline {Y}} _ {i \ bullet} - {\ widehat {Y}} _ {i} \ right) ^ {2}.} _ {\ text { (soma dos quadrados devido à falta de ajuste)}} \ end {alinhado}}}

Distribuições de probabilidade

Soma dos quadrados

Suponha que os termos de erro ε _{i j} sejam independentes e normalmente distribuídos com valor esperado 0 e variância σ ² . Tratamos x _i como constante em vez de aleatório. Então, as variáveis de resposta Y _{i j} são aleatórias apenas porque os erros ε _{i j} são aleatórios.

Pode-se demonstrar que se o modelo linear estiver correto, então a soma dos quadrados devido ao erro dividida pela variância do erro,

{\ displaystyle {\ frac {1} {\ sigma ^ {2}}} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} {\ widehat {\ varejpsilon}} _ {ij} ^ {\, 2}}

tem uma distribuição qui-quadrada com N - 2 graus de liberdade.

Além disso, dado o número total de observações N , o número de níveis da variável independente n e o número de parâmetros no modelo p :

A soma dos quadrados devido ao erro puro, dividida pela variância do erro σ ² , tem uma distribuição qui-quadrada com N - n graus de liberdade;
A soma dos quadrados devido à falta de ajuste, dividida pela variância do erro σ ² , tem uma distribuição qui-quadrada com n - p graus de liberdade (aqui p = 2 porque há dois parâmetros no modelo de linha reta);
As duas somas de quadrados são probabilisticamente independentes.

A estatística de teste

Segue-se então que a estatística

{\ displaystyle {\ begin {alinhado} F & = {\ frac {{\ text {soma de quadrados de falta de ajuste}} / {\ text {graus de liberdade}}} {{\ text {soma de erro puro de quadrados}} / {\ text {graus de liberdade}}}} \\ [8pt] & = {\ frac {\ left. \ sum _ {i = 1} ^ {n} n_ {i} \ left ({\ overline {Y}} _ {i \ bullet} - {\ widehat {Y}} _ {i} \ right) ^ {2} \ right / (np)} {\ left. \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} \ left (Y_ {ij} - {\ overline {Y}} _ {i \ bullet} \ right) ^ {2} \ right / ( Nn)}} \ end {alinhado}}}

tem uma distribuição F com o número correspondente de graus de liberdade no numerador e no denominador, desde que o modelo esteja correto. Se o modelo estiver errado, então a distribuição de probabilidade do denominador ainda é conforme declarado acima, e o numerador e o denominador ainda são independentes. Mas o numerador tem uma distribuição qui-quadrada não central e, conseqüentemente, o quociente como um todo tem uma distribuição F não central .

Usamos essa estatística F para testar a hipótese nula de que o modelo linear está correto. Uma vez que a distribuição F não central é estocasticamente maior do que a distribuição F (central), rejeita-se a hipótese nula se a estatística F for maior do que o valor F crítico. Os corresponde valor crítico para a função de distribuição cumulativa da distribuição F com x igual para o desejado nível de confiança , e graus de liberdade d ₁ = ( n - p ) e d ₂ = ( N - N ).

Pode-se demonstrar que as suposições de distribuição normal de erros e independência implicam que esse teste de falta de ajuste é o teste de razão de verossimilhança dessa hipótese nula.

Languages

In other projects

Soma de quadrados de falta de ajuste - Lack-of-fit sum of squares

Conteúdo

Esboço da ideia

Detalhes matemáticos

Distribuições de probabilidade

Soma dos quadrados

A estatística de teste

Veja também

Notas