【概述】
K 近邻(K-Nearest Neighbor,KNN)是常用的监督学习方法之一,既可处理分类问题,也可处理回归问题
一般来说,当利用 KNN 处理分类任务时,通常使用投票法,即选择这 $k$ 个邻居中出现最多的类别标记作为预测结果;当利用 KNN 处理回归任务时,通常使用平均法,即将这 $k$ 个邻居的输出标记的平均值作为预测结果
对于给定的容量为 $n$ 的训练集 $D=\{(\mathbf{x_1},y_1),(\mathbf{x_2},y_2),…,(\mathbf{x_n},y_n)\}$,第 $i$ 组样本中的输入 $\mathbf{x_i}$ 具有 $m$ 个特征值,即:$\mathbf{x_i}=(x_i^{(1)},x_i^{(2)},…,x_i^{(m)})\in \mathbb{R}^m$,输出为 $y_i$,多元线性回归学习到的模型为 $f(\mathbf{x_i};\boldsymbol{\theta})$,使得 $f(x_i;\boldsymbol{\theta})\simeq y_i$
假设函数 $f(\mathbf{x_i};\boldsymbol{\theta})$ 形式如下: