Alex_McAvoy

想要成为渔夫的猎手

【概述】

具有噪声的基于密度的聚类方法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)是一种基于密度的空间聚类算法,该算法将簇定义为密度相连的点的最大集合,能够将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇

DBSCAN 不要求指定簇的数量,避免了异常值,并且没有质心,聚类簇是通过将相邻的点连接在一起的过程形成的

阅读全文 »

【概述】

K-均值(K-Means)是最基础最常用的聚类算法,其是基于样本集合划分的聚类算法,属于原型聚类,同时,由于每个数据点都被精确地分配到一个簇中,因此其也是硬聚类算法的一种

K-Means 的基本思想是:将样本集合划分为 $K$ 个子集,构成 $K$ 个簇,通过迭代来寻找一种划分,使得每个样本到其所属簇的中心距离最小

阅读全文 »

【聚类算法的类型】

聚类算法可分为三种类型:

  • 原型聚类(Prototype-based Clustering):假设聚类结构能够通过一组原型求解
    • 通常算法先对原型进行初始化,然后进行迭代求解
    • 不同的原型表示、不同的迭代求解方式,将会产生不同的原型聚类算法
    • 常见的原型聚类算法有:K-Means高斯混合模型 GMM
  • 密度聚类(Density-based Clustering):假设聚类结构能通过样本分布的紧密程度确定
    • 从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇来获得最终的聚类结果
    • 常见的密度聚类算法有:DBSCAN
  • 层次聚类(Hierarchical Clustering):试图在不同层次对数据集进行划分,从而形成树形的聚类结构
    • 数据集划分可采用自底向上的聚合策略,也可采用自顶向下的分拆策略
    • 常见的层次聚类算法有:AGNESDIANA
阅读全文 »

【概述】

聚类,是将数据集 $D$ 划分为若干互不相交的子集(样本簇),直观上来看,希望同一簇的样本尽可能的相似,不同簇的样本尽可能的不同,也就是说,聚类结果的簇内相似度(Intra-cluster Similarity)高,且簇间相似度(Inter-cluster Similarity)

聚类问题的评价指标可划分为两类:

阅读全文 »

【概述】

聚类,是将数据集 $D$ 划分为若干互不相交的子集(样本簇),直观上来看,希望同一簇的样本尽可能的相似,不同簇的样本尽可能的不同,也就是说,聚类结果的簇内相似度(Intra-cluster Similarity)高,且簇间相似度(Inter-cluster Similarity)

聚类问题的评价指标可划分为两类:

阅读全文 »

在 Next 主题的分类页面中,没有提供多级目录展开的功能,为此,特意写了一个多级分类折叠展开的 js

Github 仓库 中的源码下载后,放入 /themes/next/source/js

之后打开 /themes/next/layout/_layout.swig 文件,在 <body> 中的最下方添加如下代码:

阅读全文 »

【无监督学习】

无监督学习(Unsupervised Learning)是直接从自然数据(无标注数据)中学习预测模型,其没有给定标记过的训练范例,即事先不知道输入数据对应的输出结果是什么,其本质是学习数据中的统计规律、潜在结构

无监督学习所用的数据没有属性或标签这一概念,对于每一个输入实例,给定的输出是对输入的结果分析,可由输入的类别、转换、概率来表示,相应地,可以实现数据的聚类降维密度估计

阅读全文 »