线性判别分析 LDA 发表于 2021-10-23 分类于 人工智能 , 机器学习 , 无监督学习 本文字数: 8k 阅读时长 ≈ 7 分钟 References: 线性判别分析LDA原理及推导过程(非常详细) 线性判别分析LDA原理总结 - 刘建平Pinard - 博客园 六种常见数据降维方法简介及代码实现 【概述】线性判别分析(Linear Discriminant Analysis,LDA)也是一种常用的降维技术,但与 PCA 不同的是,其是一种监督学习的降维技术,当具有 $K$ 类别时,最多降到 $K-1$ 维,此外,其还可用于分类 阅读全文 »
主成分分析 PCA 发表于 2021-10-18 分类于 人工智能 , 机器学习 , 无监督学习 本文字数: 8.4k 阅读时长 ≈ 8 分钟 【概述】统计分析中,数据的变量之间可能存在相关性,以致增加了分析的难度。那么,考虑用少数不相关的变量来代替相关的变量,以表示数据,并且要求能够保留数据中的大部分信息 主成分分析(Principal Component Analysis,PCA)的基本思想,具体来说,首先对给定数据进行规范化,使得数据每一变量的均值为 $0$,方差为 $1$,之后对数据进行正交变换,将原来由线性相关变量表示的数据,变换成由若干个线性无关的新变量表示的数据,其中,新变量是正交变换中变量的方差和最大的,方差表示了新变量上信息的大小,这些新变量依次被称为第一主成分、第二主成分等 阅读全文 »
多尺度变换 MDS 发表于 2021-10-15 分类于 人工智能 , 机器学习 , 无监督学习 本文字数: 5.5k 阅读时长 ≈ 5 分钟 References: 机器学习——特征工程之数据降维 【数据降维-第4篇】多维尺度变换(MDS)快速理解,及MATLAB实现 机器学习-降维 六种常见数据降维方法简介及代码实现 【基本思想】约束条件 阅读全文 »
维数灾难与降维 发表于 2021-10-15 分类于 人工智能 , 机器学习 , 无监督学习 本文字数: 3k 阅读时长 ≈ 3 分钟 References: 怎样理解 Curse of Dimensionality(维数灾难)? 六种常见数据降维方法简介及代码实现 机器学习——特征工程之数据降维 机器学习-降维 【维数灾难】维数灾难(Curse of Dimensionality)最初是由 Richard E Bellman 研究动态规划时提出的,是指当维度升高时,会遇到低维场景下察觉不到的困难,对于机器学习来说,维度升高,带来的一个明显的灾难是样本稀疏 阅读全文 »
层次聚类 发表于 2021-10-06 分类于 人工智能 , 机器学习 , 无监督学习 本文字数: 2.1k 阅读时长 ≈ 2 分钟 【概述】层次聚类(Hierarchical Clustering)假设类别之间存在层次结构,将样本聚类到层次化的簇中,由于每个样本只属于一个簇,因此层次聚类属于硬聚类 其是通过计算不同类别的数据点间的相似度,来创建一棵有层次的嵌套聚类树,在聚类完成后,可在任意层次进行切分,以得到指定数目的簇 阅读全文 »
DBSCAN 发表于 2021-10-05 分类于 人工智能 , 机器学习 , 无监督学习 本文字数: 4k 阅读时长 ≈ 4 分钟 【概述】具有噪声的基于密度的聚类方法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)是一种基于密度的空间聚类算法,该算法将簇定义为密度相连的点的最大集合,能够将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇 DBSCAN 不要求指定簇的数量,避免了异常值,并且没有质心,聚类簇是通过将相邻的点连接在一起的过程形成的 阅读全文 »
高斯混合模型 GMM 发表于 2021-10-04 分类于 人工智能 , 机器学习 , 无监督学习 本文字数: 9.1k 阅读时长 ≈ 8 分钟 【混合模型】概述混合模型(Mixture Model)是一种概率模型,其用于表示总体中子总体的存在,而不需要观测数据识别出该观测数据属于哪一个子总体(子分布) 阅读全文 »
K-Means 发表于 2021-10-03 分类于 人工智能 , 机器学习 , 无监督学习 本文字数: 5.1k 阅读时长 ≈ 5 分钟 【概述】K-均值(K-Means)是最基础最常用的聚类算法,其是基于样本集合划分的聚类算法,属于原型聚类,同时,由于每个数据点都被精确地分配到一个簇中,因此其也是硬聚类算法的一种 K-Means 的基本思想是:将样本集合划分为 $K$ 个子集,构成 $K$ 个簇,通过迭代来寻找一种划分,使得每个样本到其所属簇的中心距离最小 阅读全文 »
聚类方法 发表于 2021-10-01 分类于 人工智能 , 机器学习 , 无监督学习 本文字数: 858 阅读时长 ≈ 1 分钟 【聚类算法的类型】聚类算法可分为三种类型: 原型聚类(Prototype-based Clustering):假设聚类结构能够通过一组原型求解 通常算法先对原型进行初始化,然后进行迭代求解 不同的原型表示、不同的迭代求解方式,将会产生不同的原型聚类算法 常见的原型聚类算法有:K-Means、高斯混合模型 GMM 等 密度聚类(Density-based Clustering):假设聚类结构能通过样本分布的紧密程度确定 从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇来获得最终的聚类结果 常见的密度聚类算法有:DBSCAN 等 层次聚类(Hierarchical Clustering):试图在不同层次对数据集进行划分,从而形成树形的聚类结构 数据集划分可采用自底向上的聚合策略,也可采用自顶向下的分拆策略 常见的层次聚类算法有:AGNES、DIANA 等 阅读全文 »
聚类问题的内部评价指标 发表于 2021-09-27 分类于 人工智能 , 机器学习 , 无监督学习 本文字数: 2.9k 阅读时长 ≈ 3 分钟 【概述】聚类,是将数据集 $D$ 划分为若干互不相交的子集(样本簇),直观上来看,希望同一簇的样本尽可能的相似,不同簇的样本尽可能的不同,也就是说,聚类结果的簇内相似度(Intra-cluster Similarity)高,且簇间相似度(Inter-cluster Similarity)低 聚类问题的评价指标可划分为两类: 阅读全文 »