【概述】
评价指标可以说明模型的性能,辨别模型的结果,在建立一个模型后,计算指标,从指标获取反馈,再继续改进模型,直到达到理想的效果,因此,在预测之前检查模型的评估指标至关重要,不应在建立一个模型后,就直接将模型应用到看不见的数据上
对于分类问题来说,其根据所分类别的个数,可分为二分类问题、多分类问题
在二分类问题中,使用的评价指标有:误差率(Error Rate)、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 分数(F1 score)、$F_\beta$ 分数($F_\beta$ score)、PR 曲线、ROC 曲线、AUC、代价敏感错误率(Cost-sensitive Error Rate)、代价曲线(Cost Curve)等
在多分类问题中,使用的评价指标有: 宏精确率(macro-P)、宏召回率(macro-R)、宏 F1(macro-F1) 、微精确率(micro-P)、微召回率(micro-R)、微F1(micro-F1)等
本文将详细介绍多分类问题中的评价指标
【混淆矩阵】
在 分类问题的评价指标(一) 中介绍了混淆矩阵,对于多分类问题,每两两类别组都会对应一个混淆矩阵,此时,$n$ 个类别即有 $\frac{n(n-1)}{2}$ 个混淆矩阵
如下图所示,总共有 $1$、$2$、$3$、$4$ 四种类别,则共有 $6$ 个混淆矩阵
此外,还可以将 $n$ 个类别对应的 $\frac{n(n-1)}{2}$ 个混淆矩阵写为一个 $n\times n$ 的矩阵
【宏精确率、宏召回率、宏 F1 分数】
最直接的评估方法是在各混淆矩阵上分别计算出精确率与召回率,记为:$(P_1,R_1),(P_2,R_2),…,(P_n,R_n)$,之后再计算平均值,这样就得到了宏精确率(macro-P)和宏召回率(macro-R),即:
进一步,利用 macro-P 和 macro-R,带入 F1 分数的公式中,即可得到宏 F1 得分(macro-F1),即:
化简即得:
【微精确率、微召回率、微 F1 分数】
除上述的将各混淆矩阵的精确率、召回率分别计算后求平均外,还可先将各混淆矩阵的对应元素进行平均,得到 TP、FP、TN、FN 的平均值,再基于平均值计算微精确率(micro-P)、微召回率(micro-R)
将 TP、FP、TN、FN 的平均值记为:$\overline{TP}$、$\overline{FP}$、$\overline{TN}$、$\overline{FN}$
则微精确率和微召回率为:
进一步,利用 micro-P 和 micro-R,带入 F1 分数的公式中,即可得到微 F1 得分(micro-F1),即:
化简即得: