Desvio médio quadrático - Root-mean-square deviation
Estatisticas |
---|
O desvio médio quadrático ( RMSD ) ou erro quadrático médio ( RMSE ) é uma medida frequentemente usada das diferenças entre os valores (valores de amostra ou população) previstos por um modelo ou um estimador e os valores observados. O RMSD representa a raiz quadrada do segundo momento amostral das diferenças entre os valores previstos e os valores observados ou a média quadrática dessas diferenças. Esses desvios são chamados de resíduos quando os cálculos são realizados sobre a amostra de dados que foi usada para estimativa e são chamados de erros (ou erros de predição) quando calculados fora da amostra. O RMSD serve para agregar as magnitudes dos erros nas previsões para vários pontos de dados em uma única medida de poder preditivo. RMSD é uma medida de precisão para comparar erros de previsão de diferentes modelos para um determinado conjunto de dados e não entre conjuntos de dados, pois depende da escala.
O RMSD é sempre não negativo e um valor 0 (quase nunca alcançado na prática) indicaria um ajuste perfeito aos dados. Em geral, um RMSD mais baixo é melhor do que um mais alto. No entanto, as comparações entre diferentes tipos de dados seriam inválidas porque a medida depende da escala dos números usados.
RMSD é a raiz quadrada da média dos erros quadrados. O efeito de cada erro no RMSD é proporcional ao tamanho do erro quadrático; portanto, erros maiores têm um efeito desproporcionalmente grande no RMSD. Conseqüentemente, o RMSD é sensível a outliers.
Fórmula
O RMSD de um estimador em relação a um parâmetro estimado é definido como a raiz quadrada do erro quadrático médio :
Para um estimador imparcial , o RMSD é a raiz quadrada da variância, conhecida como desvio padrão .
O RMSD de valores previstos para tempos t de uma variável dependente de regressão com variáveis observadas ao longo de T vezes, é calculado para T previsões diferentes como a raiz quadrada da média dos quadrados dos desvios:
(Para regressões em dados de seção transversal , o subscrito t é substituído por i e T é substituído por n .)
Em algumas disciplinas, o RMSD é usado para comparar diferenças entre duas coisas que podem variar, nenhuma das quais é aceita como o "padrão". Por exemplo, ao medir a diferença média entre duas séries temporais e , a fórmula torna-se
Normalização
A normalização do RMSD facilita a comparação entre conjuntos de dados ou modelos com escalas diferentes. Embora não haja meios consistentes de normalização na literatura, as escolhas comuns são a média ou o intervalo (definido como o valor máximo menos o valor mínimo) dos dados medidos:
- ou .
Esse valor é comumente referido como erro ou desvio quadrático médio normalizado (NRMSD ou NRMSE) e frequentemente expresso como uma porcentagem, onde valores mais baixos indicam menos variância residual. Em muitos casos, especialmente para amostras menores, o intervalo da amostra provavelmente será afetado pelo tamanho da amostra, o que dificultaria as comparações.
Outro método possível para tornar o RMSD uma medida de comparação mais útil é dividir o RMSD pelo intervalo interquartil . Ao dividir o RMSD com o IQR, o valor normalizado torna-se menos sensível para valores extremos na variável de destino.
- Onde
com e onde CDF −1 é a função de quantil .
Ao normalizar pelo valor médio das medições, o termo coeficiente de variação do RMSD, CV (RMSD) pode ser usado para evitar ambigüidade. Isso é análogo ao coeficiente de variação com o RMSD tomando o lugar do desvio padrão .
Erro médio absoluto
Alguns pesquisadores recomendaram o uso do erro médio absoluto (MAE) em vez do desvio quadrático médio. O MAE possui vantagens na interpretabilidade sobre o RMSD. MAE é a média dos valores absolutos dos erros. O MAE é fundamentalmente mais fácil de entender do que a raiz quadrada da média dos erros quadrados. Além disso, cada erro influencia o MAE em proporção direta ao valor absoluto do erro, o que não é o caso do RMSD.
Formulários
- Em meteorologia , para ver com que eficácia um modelo matemático prevê o comportamento da atmosfera .
- Em bioinformática , o desvio quadrático médio das posições atômicas é a medida da distância média entre os átomos de proteínas sobrepostas .
- Na concepção de fármacos com base estrutura , o RMSD é uma medida da diferença entre uma conformação cristalina do ligando de conformação e um encaixe de predição.
- Em economia , o RMSD é usado para determinar se um modelo econômico se encaixa nos indicadores econômicos . Alguns especialistas argumentaram que o RMSD é menos confiável do que o erro relativo absoluto.
- Em psicologia experimental , o RMSD é usado para avaliar quão bem os modelos matemáticos ou computacionais de comportamento explicam o comportamento empiricamente observado.
- No GIS , o RMSD é uma medida usada para avaliar a precisão da análise espacial e sensoriamento remoto.
- Em hidrogeologia , RMSD e NRMSD são usados para avaliar a calibração de um modelo de água subterrânea.
- Na ciência da imagem , o RMSD faz parte da relação sinal-ruído de pico , uma medida usada para avaliar o desempenho de um método para reconstruir uma imagem em relação à imagem original.
- Na neurociência computacional , o RMSD é usado para avaliar o quão bem um sistema aprende um determinado modelo.
- Na espectroscopia de ressonância magnética nuclear de proteínas , o RMSD é usado como uma medida para estimar a qualidade do feixe de estruturas obtido.
- As inscrições para o Prêmio Netflix foram julgadas usando o RMSD dos valores "verdadeiros" não divulgados do conjunto de dados de teste.
- Na simulação do consumo de energia de edifícios, o RMSE e o CV (RMSE) são usados para calibrar modelos para medir o desempenho do edifício.
- Na cristalografia de raios-X , RMSD (e RMSZ) é usado para medir o desvio das coordenadas moleculares internas que se desviam dos valores da biblioteca de restrições.
Veja também
- Raiz quadrada média
- Erro médio absoluto
- Desvio médio absoluto
- Desvio médio sinalizado
- Desvio médio quadrado
- Desvios quadrados
- Erros e resíduos nas estatísticas
Referências
- ^ Hyndman, Rob J .; Koehler, Anne B. (2006). "Outra olhada nas medidas de precisão das previsões". International Journal of Forecasting . 22 (4): 679–688. CiteSeerX 10.1.1.154.9771 . doi : 10.1016 / j.ijforecast.2006.03.001 .
- ^ a b Pôncio, Robert; Thontteh, Olufunmilayo; Chen, Hao (2008). "Componentes de informação para comparação de resolução múltipla entre mapas que compartilham uma variável real". Estatísticas Ecológicas Ambientais . 15 (2): 111–142. doi : 10.1007 / s10651-007-0043-y .
- ^ Willmott, Cort; Matsuura, Kenji (2006). “Sobre o uso de medidas de erro dimensionadas para avaliar o desempenho de interpoladores espaciais”. International Journal of Geographical Information Science . 20 : 89–102. doi : 10.1080 / 13658810500286976 .
- ^ "Wiki do Programa de Pesquisa das Entradas Costeiras (CIRP) - Estatísticas" . Retirado em 4 de fevereiro de 2015 .
- ^ "FAQ: Qual é o coeficiente de variação?" . Página visitada em 19 de fevereiro de 2019 .
- ^ Armstrong, J. Scott; Collopy, Fred (1992). "Medidas de erro para generalizar sobre métodos de previsão: comparações empíricas" (PDF) . International Journal of Forecasting . 8 (1): 69–80. CiteSeerX 10.1.1.423.508 . doi : 10.1016 / 0169-2070 (92) 90008-w .
- ^ Anderson, MP; Woessner, WW (1992). Modelagem Aplicada de Água Subterrânea: Simulação de Fluxo e Transporte Advective (2ª ed.). Academic Press.
- ^ Modelo de rede neural do conjunto
- ^ ANSI / BPI-2400-S-2012: Prática padrão para qualificação padronizada de previsões de economia de energia para toda a casa por calibração para o histórico de uso de energia