【概述】

评价指标可以说明模型的性能，辨别模型的结果，在建立一个模型后，计算指标，从指标获取反馈，再继续改进模型，直到达到理想的效果，因此，在预测之前检查模型的评估指标至关重要，不应在建立一个模型后，就直接将模型应用到看不见的数据上

对于分类问题来说，其根据所分类别的个数，可分为二分类问题、多分类问题

在二分类问题中，使用的评价指标有：误差率（Error Rate）、准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1 分数（F1 score）、$F_\beta$ 分数（$F_\beta$ score）、PR 曲线、ROC 曲线、AUC、代价敏感错误率（Cost-sensitive Error Rate）、代价曲线（Cost Curve）等

在多分类问题中，使用的评价指标有：宏精确率（macro-P）、宏召回率（macro-R）、宏 F1（macro-F1）、微精确率（micro-P）、微召回率（micro-R）、微F1（micro-F1）等

本文将详细介绍多分类问题中的评价指标

【混淆矩阵】

在分类问题的评价指标（一）中介绍了混淆矩阵，对于多分类问题，每两两类别组都会对应一个混淆矩阵，此时，$n$ 个类别即有 $\frac{n(n-1)}{2}$ 个混淆矩阵

如下图所示，总共有 $1$、$2$、$3$、$4$ 四种类别，则共有 $6$ 个混淆矩阵

此外，还可以将 $n$ 个类别对应的 $\frac{n(n-1)}{2}$ 个混淆矩阵写为一个 $n\times n$ 的矩阵

【宏精确率、宏召回率、宏 F1 分数】

最直接的评估方法是在各混淆矩阵上分别计算出精确率与召回率，记为：$(P_1,R_1),(P_2,R_2),…,(P_n,R_n)$，之后再计算平均值，这样就得到了宏精确率（macro-P）和宏召回率（macro-R），即：

$\begin{gather} P_{macro} = \frac{1}{n} \sum_{i=1}^n P_i \notag \\ R_{macro} = \frac{1}{n} \sum_{i=1}^n R_i \notag \end{gather}$

进一步，利用 macro-P 和 macro-R，带入 F1 分数的公式中，即可得到宏 F1 得分（macro-F1），即：

$\frac{2}{F1_{macro}}=\frac{1}{P_{macro}}+\frac{1}{R_{macro}}$

化简即得：

$F1_{macro}=\frac{2\cdot P_{macro}\cdot R_{macro}}{P_{macro}+R_{macro}}$

【微精确率、微召回率、微 F1 分数】

除上述的将各混淆矩阵的精确率、召回率分别计算后求平均外，还可先将各混淆矩阵的对应元素进行平均，得到 TP、FP、TN、FN 的平均值，再基于平均值计算微精确率（micro-P）、微召回率（micro-R）

将 TP、FP、TN、FN 的平均值记为：$\overline{TP}$、$\overline{FP}$、$\overline{TN}$、$\overline{FN}$

则微精确率和微召回率为：

$\begin{gather} P_{micro} = \frac{\overline{TP}}{\overline{TP}+\overline{FP}} \notag \\ R_{micro} = \frac{\overline{TP}}{\overline{TP}+\overline{FN}} \notag \end{gather}$

进一步，利用 micro-P 和 micro-R，带入 F1 分数的公式中，即可得到微 F1 得分（micro-F1），即：

$\frac{2}{F1_{micro}}=\frac{1}{P_{micro}}+\frac{1}{R_{micro}}$

化简即得：

$F1_{micro}=\frac{2\cdot P_{micro}\cdot R_{micro}}{P_{micro}+R_{micro}}$

Alex_McAvoy

分类问题的评价指标（四）

【概述】

【混淆矩阵】

【宏精确率、宏召回率、宏 F1 分数】

【微精确率、微召回率、微 F1 分数】