线性判别分析 LDA

发表于 2021-10-23 分类于人工智能，机器学习，无监督学习
本文字数： 8k 阅读时长 ≈ 7 分钟

References：

线性判别分析LDA原理及推导过程（非常详细）

线性判别分析LDA原理总结 - 刘建平Pinard - 博客园

六种常见数据降维方法简介及代码实现

【概述】

线性判别分析（Linear Discriminant Analysis，LDA）也是一种常用的降维技术，但与 PCA 不同的是，其是一种监督学习的降维技术，当具有 $K$ 类别时，最多降到 $K-1$ 维，此外，其还可用于分类

阅读全文 »

主成分分析 PCA

发表于 2021-10-18 分类于人工智能，机器学习，无监督学习
本文字数： 8.4k 阅读时长 ≈ 8 分钟

【概述】

统计分析中，数据的变量之间可能存在相关性，以致增加了分析的难度。那么，考虑用少数不相关的变量来代替相关的变量，以表示数据，并且要求能够保留数据中的大部分信息

主成分分析（Principal Component Analysis，PCA）的基本思想，具体来说，首先对给定数据进行规范化，使得数据每一变量的均值为 $0$，方差为 $1$，之后对数据进行正交变换，将原来由线性相关变量表示的数据，变换成由若干个线性无关的新变量表示的数据，其中，新变量是正交变换中变量的方差和最大的，方差表示了新变量上信息的大小，这些新变量依次被称为第一主成分、第二主成分等

阅读全文 »

多尺度变换 MDS

发表于 2021-10-15 分类于人工智能，机器学习，无监督学习
本文字数： 5.5k 阅读时长 ≈ 5 分钟

References：

机器学习——特征工程之数据降维

【数据降维-第4篇】多维尺度变换（MDS）快速理解，及MATLAB实现

机器学习-降维

六种常见数据降维方法简介及代码实现

【基本思想】

约束条件

阅读全文 »

维数灾难与降维

发表于 2021-10-15 分类于人工智能，机器学习，无监督学习
本文字数： 3k 阅读时长 ≈ 3 分钟

References：

怎样理解 Curse of Dimensionality（维数灾难）?

六种常见数据降维方法简介及代码实现

机器学习——特征工程之数据降维

机器学习-降维

【维数灾难】

维数灾难（Curse of Dimensionality）最初是由 Richard E Bellman 研究动态规划时提出的，是指当维度升高时，会遇到低维场景下察觉不到的困难，对于机器学习来说，维度升高，带来的一个明显的灾难是样本稀疏

阅读全文 »

层次聚类

发表于 2021-10-06 分类于人工智能，机器学习，无监督学习
本文字数： 2.1k 阅读时长 ≈ 2 分钟

【概述】

层次聚类（Hierarchical Clustering）假设类别之间存在层次结构，将样本聚类到层次化的簇中，由于每个样本只属于一个簇，因此层次聚类属于硬聚类

其是通过计算不同类别的数据点间的相似度，来创建一棵有层次的嵌套聚类树，在聚类完成后，可在任意层次进行切分，以得到指定数目的簇

阅读全文 »

DBSCAN

发表于 2021-10-05 分类于人工智能，机器学习，无监督学习
本文字数： 4k 阅读时长 ≈ 4 分钟

【概述】

具有噪声的基于密度的聚类方法（Density-Based Spatial Clustering of Applications with Noise，DBSCAN）是一种基于密度的空间聚类算法，该算法将簇定义为密度相连的点的最大集合，能够将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇

DBSCAN 不要求指定簇的数量，避免了异常值，并且没有质心，聚类簇是通过将相邻的点连接在一起的过程形成的

阅读全文 »

高斯混合模型 GMM

发表于 2021-10-04 分类于人工智能，机器学习，无监督学习
本文字数： 9.1k 阅读时长 ≈ 8 分钟

【混合模型】

概述

混合模型（Mixture Model）是一种概率模型，其用于表示总体中子总体的存在，而不需要观测数据识别出该观测数据属于哪一个子总体（子分布）

阅读全文 »

K-Means

发表于 2021-10-03 分类于人工智能，机器学习，无监督学习
本文字数： 5.1k 阅读时长 ≈ 5 分钟

【概述】

K-均值（K-Means）是最基础最常用的聚类算法，其是基于样本集合划分的聚类算法，属于原型聚类，同时，由于每个数据点都被精确地分配到一个簇中，因此其也是硬聚类算法的一种

K-Means 的基本思想是：将样本集合划分为 $K$ 个子集，构成 $K$ 个簇，通过迭代来寻找一种划分，使得每个样本到其所属簇的中心距离最小

阅读全文 »

聚类方法

发表于 2021-10-01 分类于人工智能，机器学习，无监督学习
本文字数： 858 阅读时长 ≈ 1 分钟

【聚类算法的类型】

聚类算法可分为三种类型：

原型聚类（Prototype-based Clustering）：假设聚类结构能够通过一组原型求解
- 通常算法先对原型进行初始化，然后进行迭代求解
- 不同的原型表示、不同的迭代求解方式，将会产生不同的原型聚类算法
- 常见的原型聚类算法有：K-Means、高斯混合模型 GMM 等
密度聚类（Density-based Clustering）：假设聚类结构能通过样本分布的紧密程度确定
- 从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇来获得最终的聚类结果
- 常见的密度聚类算法有：DBSCAN 等
层次聚类（Hierarchical Clustering）：试图在不同层次对数据集进行划分，从而形成树形的聚类结构
- 数据集划分可采用自底向上的聚合策略，也可采用自顶向下的分拆策略
- 常见的层次聚类算法有：AGNES、DIANA 等

阅读全文 »

聚类问题的内部评价指标

发表于 2021-09-27 分类于人工智能，机器学习，无监督学习
本文字数： 2.9k 阅读时长 ≈ 3 分钟

【概述】

聚类，是将数据集 $D$ 划分为若干互不相交的子集（样本簇），直观上来看，希望同一簇的样本尽可能的相似，不同簇的样本尽可能的不同，也就是说，聚类结果的簇内相似度（Intra-cluster Similarity）高，且簇间相似度（Inter-cluster Similarity）低

聚类问题的评价指标可划分为两类：

阅读全文 »