【监督学习】
监督学习(Supervised Learning)的任务是学习一个模型,使得模型能够对任意给定的输入,对其相应的输出做出一个好的预测,简单来说,就是利用训练数据集学习一个模型,再用模型对测试样本集进行预测
监督学习是从已标注好数据输入输出对应关系的标注数据中进行学习,本质是学习从输入到输出的映射的统计规律
【基本概念】
输入与输出空间
在监督学习中,输入、输出变量/向量用大写字母表示,习惯上输入变量/向量写为 $X$,输出变量/向量写为 $Y$;输入、输出变量的取值用小写字母表示,习惯上输入变量的取值写为 $x$,输出变量的取值写为 $y$;输入、输出向量的取值用加粗的小写字母表示,习惯上输入向量的取值写为 $\mathbf{x}$,输出向量的取值写为 $\mathbf{y}$
输入与输出的所有可能取值的集合分别称为输入空间、输出空间,分别用 $\mathcal{X}$、$\mathcal{Y}$ 表示,他们可以是有限元素的集合,也可以是整个欧式空间 $\mathbb{R}^n$,即现实空间规则的抽象与推广(从 $n\leq 3$ 到有限 $n$ 维空间)
假设空间
监督学习的目标就是从假设空间中找到最优的参数组合,具体来说,就是学习一个用模型来表示的从输入到输出的映射,模型属于从输入空间到输出空间的映射的集合,这个集合就是假设空间
也就是说,监督学习想学习一种映射 $\hat{\mathbf{y}}=f(\mathbf{x};\boldsymbol{\theta})$,$\boldsymbol{\theta}$ 为映射 $f$ 的参数向量,那么所有可能的参数向量组成假设空间,要从假设空间中找到最优的 $\boldsymbol{\theta}$ 使得 $f(\mathbf{x};\boldsymbol{\theta})$ 尽可能逼近真实值 $\mathbf{y}$
特征空间
每个具体的输入是一个实例,由特征向量来表示,所有特征向量存在的空间称为特征空间,输入空间与特征空间大多时候为同一个空间,当不为同一个空间时,会将实例从输入空间映射到特征空间
对于输入实例 $\mathbf{x}$ 的特征向量,记作:
其中,$x^{(i)}$ 表示 $\mathbf{x}$ 的第 $i$ 个特征
同时,用 $\mathbf{x_i}$ 表示多个输入向量中的第 $i$ 个向量,则 $\mathbf{x_i}$ 的表示为:
样本
监督学习从训练数据集中学习模型,对测试数据进行预测,训练数据由输入与输出对组成,对于样本容量为 $N$ 的训练集,表示为:
其中,每一个输入输出对 $(\mathbf{x_i},\mathbf{y_i})$ 称为一个样本
【模型】
模型形式
针对具体的学习方法,监督学习可以是概率模型也可以是非概率模型,分别由条件概率分布 $P_{\boldsymbol{\theta}}(Y|X)$ 或决策函数 $Y=f(X;\boldsymbol{\theta})$ 来表示
在对训练集训练完成得到模型后,根据训练的模型,对具体的输入进行相应的输出预测时,输出写作 $\hat{P}_{\boldsymbol{\theta}}(\mathbf{y}|\mathbf{x})$ 或 $y=\hat{f}(\mathbf{x};\boldsymbol{\theta})$
具体来说监督学习方法可以分为生成方法、判别方法,相应地,学习到的模型分别被称为生成模型、判别模型
生成模型
生成方法通过学习联合概率分布 $P(X,Y)$,然后求出条件概率分布 $P(Y|X)$ 作为预测模型,即:
生成模型表示了给定输入 $X$ 产生输出 $Y$ 的生成关系,其可以还原出联合概率分布 $P(X,Y)$,且收敛速度更快
判别模型
判别方法通过直接学习决策函数 $f(X;\boldsymbol{\theta})$ 或条件概率分布 $P(Y|X)$ 作为预测模型
判别模型关心的是给定输入的 $X$,应该预测什么样的输出 $Y$,其直接面对预测,学习的准确率会更高,同时由于是直接学习 $f(X;\boldsymbol{\theta})$ 或 $P(Y|X)$,可以对数据进行各种程度上的抽象、定义特征并使用特征,从而简化学习问题
【预测任务】
回归问题
输入、输出变量均为连续变量,回归模型用于预测输入变量和输出变量间的关系,表示从输入变量到输出变量间的映射函数
回归问题的学习等价于函数拟合,即选择一条函数曲线,使其能够很好地拟合已知数据,且能很好地对未知数据进行预测
回归问题按照输入变量的个数,分为一元回归、多元回归;按照输入变量和输出变量间的关系,分为线性回归、非线性回归
常用的学习方法有:一元线性回归、多元线性回归、多项式回归、k 近邻、决策树等
分类问题
当输出变量 $Y$ 取有限个离散变量时,预测问题即变为分类问题,此时,输入变量 $X$ 可以是离散的,也可以是连续的
监督学习会从数据中学习一个分类模型或分类决策函数,即分类器(Classifier),分类器将会对于新的输入进行预测,确定输入所属的类别
常用的学习方法有:感知机、k 近邻、朴素贝叶斯、决策树、Logistic 回归与最大熵模型、支持向量机、提升方法等
标注问题
标注问题可以认为是分类问题的推广,输入是一观测序列,输出是一个标记序列或状态序列,其目的是学习一个模型,使其能够对观测序列给出标记序列作为预测
简单来说,分类问题的输出是一个值,而标注问题输出是一个向量,向量的每个值属于一种标记类型
标注问题在信息抽取、自然语言处理领域等领域广泛应用,常用的学习方法有:隐马尔可夫模型、条件随机场等,其评价标准与评价分类模型的指标相同