MSE e RMSE são duas métricas associadas e muito utilizadas para avaliar o desempenho de modelos de previsões numéricas. De maneira geral, é dito que essas métricas penalizam erros grandes e são sensíveis a outliers. Vou explicar aqui porque isso acontece.
Definição de MSE e RMSE
Irei inicialmente definir o que é o MSE e o RMSE.
O MSE (Mean Squared Error) calcula a média dos erros ao quadrado entre valores previstos e reais. Ele é calculado pela equação a seguir.
Onde:
- yiy_i = valor real
- y^i\hat{y}_i = valor previsto pelo modelo
- nn = número de amostras
Sua importância é devido:
- Penaliza grandes erros devido ao termo quadrático.
- Muito usado durante o treinamento do modelo como função de custo (loss function).
- Útil para comparar modelos em termos relativos (qual erra menos no quadrado).
O RMSE (Root Mean Squared Error) é simplesmente a raiz quadrada do MSE, podendo ser representado pelas duas equações a seguir:
ou,
Sua importância é devido:
- Retorna o erro na mesma unidade da variável prevista.
- Facilita a interpretação prática (ex.: erro médio de 12 metros).
- Mantém a propriedade de penalizar grandes erros, herdada do MSE.
- É mais comunicável para relatórios técnicos e tomada de decisão.
Perceba que o cálculo do RMSE exige uma operação a mais do que do MSE (é preciso fazer o cálculo da raiz quadrada do MSE). Sendo assim, para treinar o modelo é melhor computacionalmente utilizar o MSE.
Exemplo 1 – o básico
Suponha um modelo que prevê distância percorrida em metros. A tabela abaixo mostra os valores reais esperado e o previsto por um modelo.
| Amostra | Real (m) | Previsto (m) | Erro | Erro² |
|---|---|---|---|---|
| 1 | 10 | 9 | 1 | 1 |
| 2 | 12 | 13 | -1 | 1 |
| 3 | 15 | 14 | 1 | 1 |
| 4 | 14 | 15 | -1 | 1 |
| 5 | 18 | 16 | 2 | 4 |
| 6 | 20 | 23 | -3 | 9 |
O erro médio encontrado é de 1,5 metros conforme cálculo do MAE abaixo. Lembrando que a equação utiliza o módulo do erro e com isso os valores negativos tornam-se positivos. O resultado mostra que o modelo erra em média 1,5 metros por previsão.
O erro médio ao quadrado do modelo é de 2,83 m². Não é intuitivo, mas mostra forte penalização nos erros maiores. Ele não é intuitivo porque pode parecer que ele erra em torno de 2,83 metros cada previsão, mas no geral ele teve previsões melhores do que isso.
A partir do RMSE é feito um ajuste no erro para tornar a interpretação melhor. Veja que RMSE do exemplo resulta em 1,68 metros, próximo ao valor do MAE, mas penalizando o modelo no erro maior de previsão que ele teve.
Em termos de diagnóstico do modelo:
- O modelo erra tipicamente 1.5 m
- Mas errou até 3 m, o que impacta o RMSE.
Exemplo 2 – adição de um outlier
Considere agora o exemplo anterior, mas com a alteração da previsão da última amostra, de forma a adicionar um outlier.
| Amostra | Real (m) | Previsto (m) | Erro | Erro² |
|---|---|---|---|---|
| 1 | 10 | 9 | 1 | 1 |
| 2 | 12 | 13 | -1 | 1 |
| 3 | 15 | 14 | 1 | 1 |
| 4 | 14 | 15 | -1 | 1 |
| 5 | 18 | 16 | 2 | 4 |
| 6 | 20 | 35 | -15 | 255 |
As métricas calculas são:
Enquanto o MAE aumentou 2,6 vezes o valor devido ao outlier (um crescimento linear), o aumento do MSE aumentou 19 vezes, mostrando que essa métrica é extremamente sensível ao outlier.
Em termos de diagnóstico do modelo:
- O modelo parece razoável no MAE.
- Parece ruim no RMSE (tipicamente o erro é bem menor).
- Parece péssimo no MSE (o valor de erro é maior do que os valores que deveriam ser previstos).
Preciso mostrar MSE e RMSE na avaliação do meu modelo?
Se o MSE e o RMSE não adicionam nova informação estatística na avaliação do modelo (como RMSE é a raiz quadrada do MSE eles são matematicamente dependentes), pode surgir o questionamento se mostrar os dois em uma publicação é realmente necessário. O fato é que não é estritamente necessário mostrar MSE e RMSE juntos, mas em muitos contextos técnicos e acadêmicos é recomendável porque eles oferecem duas visões complementares do mesmo erro: uma matemática (MSE) e outra interpretável (RMSE).
Além de uma visão complementar (precisão estatística + significado físico do erro), a publicação das duas métricas permite a comparação diretamente com trabalhos que reportam apenas um deles.
Mas se não for para fins de comparação com outros trabalhos e sim para entender o resultado do modelo sendo avaliado, apenas o RMSE é necessário (utiliza-se o MSE durante desenvolvimento/treinamento do modelo e depois o RMSE para verificar interpretar o resultado).