Erro quadrático médio - Mean squared error

Em estatística , o erro quadrático médio ( MSE ) ou desvio quadrático médio ( MSD ) de um estimador (de um procedimento para estimar uma quantidade não observada) mede a média dos quadrados dos erros - isto é, a diferença quadrática média entre o estimado valores e o valor real. MSE é uma função de risco , correspondendo ao valor esperado da perda quadrática do erro. O fato de o MSE ser quase sempre estritamente positivo (e não zero) é devido à aleatoriedade ou porque o estimador não leva em conta as informações que poderiam produzir uma estimativa mais precisa.

O MSE é uma medida da qualidade de um estimador. Como é derivado do quadrado da distância euclidiana , é sempre um valor positivo com o erro diminuindo à medida que o erro se aproxima de zero.

O MSE é o segundo momento (sobre a origem) do erro e, portanto, incorpora tanto a variância do estimador (quão amplamente distribuídas as estimativas estão de uma amostra de dados para outra) e seu viés (quão longe está o valor médio estimado do valor verdadeiro). Para um estimador imparcial , o MSE é a variância do estimador. Como a variância, MSE tem as mesmas unidades de medida que o quadrado da quantidade sendo estimada. Em uma analogia ao desvio padrão , tirar a raiz quadrada de MSE produz o erro de raiz quadrada média ou desvio médio quadrático (RMSE ou RMSD), que tem as mesmas unidades que a quantidade sendo estimada; para um estimador imparcial, o RMSE é a raiz quadrada da variância , conhecida como erro padrão .

Definição e propriedades básicas

O MSE avalia a qualidade de um preditor (ou seja, uma função que mapeia entradas arbitrárias para uma amostra de valores de alguma variável aleatória ), ou de um estimador (ou seja, uma função matemática que mapeia uma amostra de dados para uma estimativa de um parâmetro de a população da qual os dados são amostrados). A definição de um MSE difere de acordo com a descrição de um preditor ou estimador.

Predictor

Se um vetor de predições é gerado a partir de uma amostra de pontos de dados em todas as variáveis, e é o vetor de valores observados da variável sendo predita, sendo os valores preditos (por exemplo, como de um ajuste de mínimos quadrados ), então o dentro MSE de amostra do preditor é calculado como

Em outras palavras, o MSE é a média dos quadrados dos erros . Esta é uma quantidade facilmente computável para uma amostra específica (e, portanto, é dependente da amostra).

Em notação de matriz ,

onde está e está a matriz.

O MSE também pode ser calculado em q pontos de dados que não foram usados ​​na estimativa do modelo, seja porque foram retidos para esse propósito ou porque esses dados foram obtidos recentemente. Neste processo (conhecido como validação cruzada ), o MSE é frequentemente chamado de erro de previsão médio quadrático e é calculado como

Estimador

O MSE de um estimador em relação a um parâmetro desconhecido é definido como

Esta definição depende do parâmetro desconhecido, mas o MSE é a priori uma propriedade de um estimador. O MSE poderia ser uma função de parâmetros desconhecidos, caso em que qualquer estimador do MSE com base nas estimativas desses parâmetros seria uma função dos dados (e, portanto, uma variável aleatória). Se o estimador é derivado como uma estatística de amostra e é usado para estimar algum parâmetro da população, então a expectativa é com relação à distribuição amostral da estatística de amostra.

O MSE pode ser escrito como a soma da variância do estimador e a polarização quadrada do estimador, fornecendo uma maneira útil de calcular o MSE e implicando que, no caso de estimadores não enviesados, o MSE e a variância são equivalentes.

Prova de variação e relação de preconceito

Alternativamente, temos

Uma prova ainda mais curta, usando a fórmula bem conhecida que, para uma variável aleatória (e em particular para ) , é:

Mas no caso de modelagem real, MSE pode ser descrito como a adição de variância do modelo, viés do modelo e incerteza irredutível. De acordo com a relação, o MSE dos estimadores poderia ser usado simplesmente para a comparação da eficiência , que inclui as informações de variância e viés do estimador. Isso é chamado de critério MSE.

Em regressão

Na análise de regressão , a plotagem é uma maneira mais natural de visualizar a tendência geral de todos os dados. A média da distância de cada ponto até o modelo de regressão previsto pode ser calculada e mostrada como o erro quadrático médio. O quadrado é fundamental para reduzir a complexidade com sinais negativos. Para minimizar o MSE, o modelo poderia ser mais preciso, o que significaria que o modelo está mais próximo dos dados reais. Um exemplo de uma regressão linear usando esse método é o método dos mínimos quadrados - que avalia a adequação do modelo de regressão linear para modelar um conjunto de dados bivariado , mas cuja limitação está relacionada à distribuição conhecida dos dados.

O termo erro quadrático médio é algumas vezes usado para se referir à estimativa não enviesada da variância do erro: a soma residual dos quadrados dividida pelo número de graus de liberdade . Esta definição para uma quantidade calculada conhecida difere da definição acima para o MSE calculado de um preditor, em que um denominador diferente é usado. O denominador é o tamanho da amostra reduzido pelo número de parâmetros do modelo estimados a partir dos mesmos dados, ( n - p ) para p regressores ou ( n - p -1) se uma interceptação for usada (ver erros e resíduos nas estatísticas para mais detalhes ) Embora o MSE (conforme definido neste artigo) não seja um estimador imparcial da variância do erro, ele é consistente , dada a consistência do preditor.

Na análise de regressão, "erro quadrático médio", muitas vezes referido como erro quadrático médio de predição ou " erro quadrático médio fora da amostra", também pode se referir ao valor médio dos desvios quadrados das previsões dos valores verdadeiros, ao longo um espaço de teste fora da amostra , gerado por um modelo estimado sobre um espaço de amostra específico . Esta também é uma quantidade conhecida e calculada e varia por amostra e por espaço de teste fora da amostra.

Exemplos

Significar

Suponha que temos uma amostra aleatória de tamanho de uma população ,. Suponha que as unidades de amostra foram escolhidas com reposição . Ou seja, as unidades são selecionadas uma de cada vez, e as unidades previamente selecionadas continuam elegíveis para seleção em todos os sorteios. O estimador usual para o é a média da amostra

que tem um valor esperado igual à média verdadeira (portanto, é imparcial) e um erro quadrático médio de

onde está a variância da população .

Para uma distribuição gaussiana , este é o melhor estimador não enviesado (ou seja, aquele com o MSE mais baixo entre todos os estimadores não enviesados), mas não, digamos, para uma distribuição uniforme .

Variância

O estimador usual para a variância é a variância da amostra corrigida :

Isso é imparcial (seu valor esperado é ), portanto, também chamado de variância de amostra imparcial, e seu MSE é

onde é o quarto momento central da distribuição ou população, e é o excesso de curtose .

No entanto, pode-se usar outros estimadores para os quais são proporcionais a , e uma escolha apropriada pode sempre fornecer um erro quadrático médio mais baixo. Se definirmos

então calculamos:

Isso é minimizado quando

Para uma distribuição Gaussiana , onde , isso significa que o MSE é minimizado ao dividir a soma por . O excesso de curtose mínimo é , que é alcançado por uma distribuição de Bernoulli com p  = 1/2 (um cara ou coroa), e o MSE é minimizado para Portanto, independentemente da curtose, obtemos uma estimativa "melhor" (no sentido de ter um MSE inferior) diminuindo um pouco o estimador imparcial; este é um exemplo simples de um estimador de encolhimento : um "encolhe" o estimador para zero (reduz o estimador imparcial).

Além disso, embora a variância da amostra corrigida seja o melhor estimador não enviesado (erro quadrático médio mínimo entre estimadores não enviesados) de variância para distribuições gaussianas, se a distribuição não for gaussiana, então, mesmo entre os estimadores não enviesados, o melhor estimador não enviesado da variância pode não ser

distribuição gaussiana

A tabela a seguir fornece vários estimadores dos parâmetros verdadeiros da população, μ e σ 2 , para o caso gaussiano.

Valor real Estimador Erro quadrático médio
= o estimador não enviesado da média da população ,
= o estimador imparcial da variância da população ,
= o estimador enviesado da variância da população ,
= o estimador enviesado da variância da população ,

Interpretação

Um MSE de zero, o que significa que o estimador prevê observações do parâmetro com precisão perfeita, é ideal (mas normalmente não é possível).

Os valores de MSE podem ser usados ​​para fins comparativos. Dois ou mais modelos estatísticos podem ser comparados usando seus MSEs - como uma medida de quão bem eles explicam um determinado conjunto de observações: Um estimador imparcial (estimado a partir de um modelo estatístico) com a menor variação entre todos os estimadores imparciais é o melhor estimador imparcial ou MVUE (Estimador imparcial de variação mínima).

As técnicas de análise de variância e regressão linear estimam o MSE como parte da análise e usam o MSE estimado para determinar a significância estatística dos fatores ou preditores em estudo. O objetivo do desenho experimental é construir experimentos de tal forma que, quando as observações forem analisadas, o MSE seja próximo de zero em relação à magnitude de pelo menos um dos efeitos estimados do tratamento.

Na análise de variância unilateral, o MSE pode ser calculado pela divisão da soma dos erros quadrados e o grau de liberdade. Além disso, o valor f é a razão entre o tratamento quadrático médio e o MSE.

MSE também é usado em várias técnicas de regressão stepwise como parte da determinação de quantos preditores de um conjunto candidato incluir em um modelo para um determinado conjunto de observações.

Formulários

Função de perda

A perda de erro quadrático é uma das funções de perda mais amplamente usadas em estatística, embora seu uso difundido decorra mais da conveniência matemática do que de considerações de perda real em aplicativos. Carl Friedrich Gauss , que introduziu o uso do erro quadrático médio, estava ciente de sua arbitrariedade e estava de acordo com as objeções a ele nesses termos. Os benefícios matemáticos do erro quadrático médio são particularmente evidentes em seu uso na análise do desempenho da regressão linear , pois permite particionar a variação em um conjunto de dados em variação explicada pelo modelo e variação explicada pela aleatoriedade.

Crítica

O uso do erro quadrático médio sem questionamento foi criticado pelo teórico da decisão James Berger . O erro quadrático médio é o negativo do valor esperado de uma função de utilidade específica , a função de utilidade quadrática, que pode não ser a função de utilidade apropriada para usar em um determinado conjunto de circunstâncias. Existem, no entanto, alguns cenários em que o erro quadrático médio pode servir como uma boa aproximação para uma função de perda que ocorre naturalmente em um aplicativo.

Assim como a variância , o erro quadrático médio tem a desvantagem de pesar muito os valores discrepantes . Isso é o resultado do quadrado de cada termo, que efetivamente pondera os erros grandes mais fortemente do que os pequenos. Essa propriedade, indesejável em muitas aplicações, tem levado os pesquisadores a utilizar alternativas como o erro médio absoluto , ou aquelas baseadas na mediana .

Veja também

Notas

Referências