【概率分布的基尼指数】
基尼指数表示在样本集合中一个随机选中的样本被分错的概率,与信息熵相似,基尼指数越大,样本集合 $D$ 的不确定性也就越大
假设有 $K$ 个类,样本点属于第 $k$ 类的概率为 $p_k$,则概率分布的基尼指数定义为:
如下图,显示了在二分类问题中,基尼指数 $Gini(p)$、半信息熵 $\frac{1}{2}H(p)$ 与分类误差率的关系,其中横坐标为概率 $p$,纵坐标为损失
可以看出,基尼指数与半信息熵的曲线十分接近,均可来近似的表示分类误差率
根据泰勒公式,$\ln(x)=-1+x+o(x)$,因此:
也就是说,基尼指数,可以理解为信息熵的一阶泰勒展开
【二分类的基尼指数】
对于二分类问题来说,若样本点属于第一个类的概率为 $p$,则其属于第二个类的概率为 $1-p$,相应地,基尼指数为:
【多分类的基尼指数】
对于给定的样本集合 $D$,其样本数为 $|D|$,分为 $K$ 类,属于第 $k$ 类的样本子集 $C_k$ 的样本数为 $|C_k|$,则基尼指数为:
若样本集合 $D$ 根据特征 $A$ 可能取值 $a_i$,被分割为 $D_1,D_2,…,D_m$ 的 $m$ 个部分,记 $D_i$ 中属于类 $C_k$ 的样本集合为 $D_{ik}$,其样本数为 $|D_{ik}|$,则在特征 $A$ 的条件下,集合 $D$ 的基尼指数为:
特别地,对于二分类问题,在特征 $A$ 的条件下,集合 $D$ 的基尼指数定义为:
基尼指数 $Gini(D)$ 表示样本集合 $D$ 的不确定性,而基尼指数 $Gini(D,A)$ 表示了经过 $A=a_i$ 分割后集合 $D$ 的不确定性