最大熵原理

发表于 2019-07-18 分类于数学，信息论
本文字数： 1.3k 阅读时长 ≈ 1 分钟

【最大熵原理】

在信息熵与互信息中对信息熵进行了介绍，而最大熵原理，就是认为：在所有可能的概率分布中，熵最大的模型是最好的模型

对于来自参数空间 $\mathcal{X}$ 的离散随机变量 $X$，其概率分布为：

拉格朗日乘子法与对偶性

发表于 2019-07-14 分类于人工智能，优化算法
本文字数： 6.9k 阅读时长 ≈ 6 分钟

Reference

拉格朗日乘数

拉格朗日乘数法 —— 通俗理解

真正理解拉格朗日乘子法和 KKT 条件

支持向量机原理详解(二): 拉格朗日对偶函数，SVM的对偶问题

拉格朗日乘子法与对偶问题

拉格朗日乘子法与拉格朗日对偶性

约束优化&拉格朗日乘子法&拉格朗日对偶解法的关系

机器学习算法系列（二）：拉格朗日对偶性

对偶和KKT条件

凸优化（slater条件探讨）

Slater与KKT条件

Slater条件理解和证明

【概述】

拉格朗日乘子法（Lagrange Multipliers）是一种寻找多元函数在一组约束下的极值的方法，将含有 $d$ 个变量与 $k$ 个约束条件的最优化问题，转换为具有 $d+k$ 个变量的无约束最优化问题来求解

阅读全文 »

信息熵与互信息

发表于 2019-07-13 分类于数学，信息论
本文字数： 3.4k 阅读时长 ≈ 3 分钟

Reference

信息熵是什么？ - D.Han的回答 - 知乎

信息熵公式的由来

互信息(Mutual Information)

详解机器学习中的熵、条件熵、相对熵和交叉熵

一文搞懂交叉熵在机器学习中的使用，透彻理解交叉熵背后的直觉

条件互信息的理解(Conditional Mutual Information)

条件互信息

【信息熵】

信息熵

阅读全文 »

KD 树

发表于 2019-07-11 分类于人工智能，机器学习，监督学习
本文字数： 3.6k 阅读时长 ≈ 3 分钟

【概述】

在实现 K 近邻时，主要考虑的是如何对训练数据进行 K 近邻搜索，最简单的实现方式是线性扫描（Linear Scan），此时要计算输入样本与每一个训练样本的距离，这在维度大的特征空间以及大容量的训练数据集中非常耗时

为提高 K 近邻搜索的效率，可以使用特殊的数据结构来存储训练数据，通过以空间换时间来快速查询样本的近邻

阅读全文 »

K 近邻

发表于 2019-07-11 分类于人工智能，机器学习，监督学习
本文字数： 8.2k 阅读时长 ≈ 7 分钟

【概述】

K 近邻（K-Nearest Neighbor，KNN）是常用的监督学习方法之一，既可处理分类问题，也可处理回归问题

一般来说，当利用 KNN 处理分类任务时，通常使用投票法，即选择这 $k$ 个邻居中出现最多的类别标记作为预测结果；当利用 KNN 处理回归任务时，通常使用平均法，即将这 $k$ 个邻居的输出标记的平均值作为预测结果

阅读全文 »

类别不平衡问题

发表于 2019-07-10 分类于人工智能，机器学习，监督学习
本文字数： 2.4k 阅读时长 ≈ 2 分钟

【类别不平衡问题】

对于分类学习方法，都有一个共同的假设，即：不同类别的训练样例数目相同

如果不同类别的训练样例数目稍有差别，通常对分类影响不大，但是若差别很大，则会对学习造成影响，测试结果非常差

阅读全文 »

多分类问题的拆解策略

发表于 2019-07-10 分类于人工智能，机器学习，监督学习
本文字数： 2.5k 阅读时长 ≈ 2 分钟

【概述】

当分类数据超过两类时，即为多分类问题

对于多分类问题，可以将其进行拆解，转换为若干个独立的二元分类问题，进而借助分类学习方法来解决多分类问题

阅读全文 »

对数线性回归与广义线性模型

发表于 2019-07-06 分类于人工智能，机器学习，监督学习
本文字数： 1.8k 阅读时长 ≈ 2 分钟

【对数线性回归】

对于给定的容量为 $n$ 的训练集 $D=\{(\mathbf{x_1},y_1),(\mathbf{x_2},y_2),…,(\mathbf{x_n},y_n)\}$，第 $i$ 组样本中的输入 $\mathbf{x_i}$ 具有 $m$ 个特征值，即：$\mathbf{x_i}=(x_i^{(1)},x_i^{(2)},…,x_i^{(m)})\in \mathbb{R}^m$，输出为 $y_i$，多元线性回归学习到的模型为 $f(\mathbf{x_i};\boldsymbol{\theta})$，使得 $f(x_i;\boldsymbol{\theta})\simeq y_i$

假设函数 $f(\mathbf{x_i};\boldsymbol{\theta})$ 形式如下：

阅读全文 »

多元 Logistic 回归

发表于 2019-07-06 分类于人工智能，机器学习，监督学习
本文字数： 12k 阅读时长 ≈ 11 分钟

Reference

Multinomial logistic regression

[机器学习算法系列（九）-多分类对数几率回归算法（Multinomial Logistic Regression）

机器学习小憩（二）：多分类Logistic回归的目标函数

逻辑回归算法原理及用于解决多分类问题

【概述】

对数几率回归（Logistic regression）即 Logistic 回归，虽然名为回归，但其实际上是一种解决分类问题的分类学习方法，在现实中应用十分广泛，比如垃圾邮件识别，手写数字识别，人脸识别，语音识别等

阅读全文 »

二元 Logistic 回归

发表于 2019-07-05 分类于人工智能，机器学习，监督学习
本文字数： 13k 阅读时长 ≈ 12 分钟

Reference

Logistic regression

周志华机器学习（西瓜书）学习笔记（持续更新）

西瓜书学习笔记(3)—线性模型

最大似然估计

 机器学习算法系列（七）-对数几率回归算法（一）（Logistic Regression Algorithm）

【概述】

对数几率回归（Logistic regression）即 Logistic 回归，虽然名为回归，但其实际上是一种解决分类问题的分类学习方法，在现实中应用十分广泛，比如垃圾邮件识别，手写数字识别，人脸识别，语音识别等

阅读全文 »