Alex_McAvoy

想要成为渔夫的猎手

回归问题的评价指标(一)

【概述】

监督学习三要素 中介绍过损失函数(Loss Function)期望风险(Expected Risk)经验风险(Empirical Risk)

损失函数是定义在单个样本上的,计算的是一个样本的误差,即:

期望风险是理论上模型 $f(X;\boldsymbol{\theta})$ 关于联合分布 $P(X,Y)$ 的平均意义下的损失,即:

经验风险(Empirical Risk)是关于测试集的平均损失,即:

考虑到辛钦大数定律,当测试集的样本容量 $N$ 趋于无穷时,训练集的损失函数的平均损失依概率收敛到真实分布的期望风险,因此可用经验风险来估计期望风险

而机器学习的最终目的是采用结构风险最小化策略,对目标函数(Object Function)进行优化,即:

那么在回归问题中,进行模型评估时,除考虑正则化项 $\lambda J(f)$ 外,还需考虑经验风险 $R_{emp}(f)$

一般来说,常见的评估指标有:均方误差(Mean Square Error,MSE)、均方根误差(Root Mean Square Error,RMSE)、平均绝对误差(Mean Absolute Error,MAE)

【均方误差 MSE】

均方误差(Mean Square Error,MSE)是预测值 $\hat{y_i}$ 与真实值 $y_i$ 差值的平方和的平均数

对于回归问题,假设测试集 $T=\{(\mathbf{x_1},y_1),(\mathbf{x_2},y_2),…,(\mathbf{x_N},y_N)\}$ ,对于给定的输入 $\mathbf{x_i}$,由决策函数 $f(X;\boldsymbol{\theta})$ 给出预测值 $\hat{y}=f(\mathbf{x_i};\boldsymbol{\theta})$

当采用平方损失函数时:

那么在进行模型评估时,此时经验风险 $R_{emp}(f)$ 被称为 MSE,即:

MSE 对应了欧氏距离(Euclidean Distance),常用于线性回归分析中,即基于 MSE 最小化来进行模型求解,试图寻找一条直线,使得所有样本到直线上的欧氏距离最小

【均方根误差 RMSE】

均方根误差(Root Mean Square Error,RMSE)是 MSE 的平方根,也用于衡量真实值 $y_i$ 与预测值 $\hat{y_i}$ 间的偏差

RMSE 实质与 MSE 相同,只是用于数据更好的描述

举例来说,当做房价预测时,每平方以万元为单位,那么预测结果也是万元,若采用 MSE 作为模型的评估标准,单位就是千万级别的,不太好描述模型效果,而采用 RMSE 作为评估标准,误差的结果就与数据是同一个级别的

【平均绝对误差 MAE】

平均绝对误差(Mean Absolute Error,MAE)是真实值 $y_i$ 与预测值 $\hat{y_i}$ 差值的绝对值的平均数

对于回归问题,假设测试集 $T=\{(\mathbf{x_1},y_1),(\mathbf{x_2},y_2),…,(\mathbf{x_N},y_N)\}$ ,对于给定的输入 $\mathbf{x_i}$,由决策函数 $f(X;\boldsymbol{\theta})$ 给出预测值 $\hat{y}=f(\mathbf{x_i};\boldsymbol{\theta})$

当采用绝对值损失函数时:

那么在进行模型评估时,经验风险 $R_{emp}(f)$ 被称为 MAE,即:

MAE 是绝对误差的平均值,能够更好地反映预测值误差的实际情况

感谢您对我的支持,让我继续努力分享有用的技术与知识点!