Alex_McAvoy

想要成为渔夫的猎手

【线性空间】

数域

线性空间是近代数学最重要的基本概念之一,在引入线性空间的概念前,首先给出数域的概念

阅读全文 »

不蒜子是一款轻量级网页计数器,可将网站访问计数直接显示在网页上

NexT 中内置了不蒜子所提供的网页计数功能,只需要在 NexT 主题的配置文件 next/_config 中启用即可

1
2
3
4
5
6
7
8
9
10
# Show Views / Visitors of the website / page with busuanzi.
# Get more information on http://ibruce.info/2015/04/04/busuanzi
busuanzi_count:
enable: true # 启用不蒜子
total_visitors: true # 网站总访客数
total_visitors_icon: fa fa-user
total_views: true # 网站总浏览数
total_views_icon: fa fa-eye
post_views: true # 文章浏览数
post_views_icon: fa fa-eye
阅读全文 »

【概述】

PageRank 算法于 1996 年由 Page 和 Brin 提出,最初用于谷歌搜索引擎的网页排序,其是定义在网页集合上的一个函数,其对每个网页给出一个正实数,表示网页的重要程度,整体构成一个向量,PageRank 值越高,网页越重要,在互联网搜索的排序中可能就被排在前面

PageRank 假设互联网是一个有向图,每个网页是图中的一个结点,浏览者在每个网页依照连接出去的超链接以等概率跳转到下一个网页,并持续不断进行这样的随机跳转,整个沿着有向图随机访问各网页结点的过程,被定义成一个随机游走模型,即一阶马尔可夫链

阅读全文 »

【概述】

流形学习(Manifold Learning)是一类借鉴拓扑流形概念的降维方法

流形是指在局部与欧氏空间同胚的空间,即其在局部具有欧氏空间的性质,能用欧氏距离来进行距离计算

阅读全文 »

【概述】

线性降维方法假设从高维空间到低维空间的函数映射是线性的,但在实际应用中,可能需要非线性映射才能找到合适的低维嵌入

如下图所示,样本点从二维空间中的矩形区域采样后,以 S 形曲面嵌入到三维空间,若直接使用线性降维方法对三维空间观察到的样本点进行降维,则将丢失原本的低维结构

阅读全文 »

References:

【概述】

线性判别分析(Linear Discriminant Analysis,LDA)也是一种常用的降维技术,但与 PCA 不同的是,其是一种监督学习的降维技术,当具有 $K$ 类别时,最多降到 $K-1$ 维,此外,其还可用于分类

阅读全文 »

【概述】

统计分析中,数据的变量之间可能存在相关性,以致增加了分析的难度。那么,考虑用少数不相关的变量来代替相关的变量,以表示数据,并且要求能够保留数据中的大部分信息

主成分分析(Principal Component Analysis,PCA)的基本思想,具体来说,首先对给定数据进行规范化,使得数据每一变量的均值为 $0$,方差为 $1$,之后对数据进行正交变换,将原来由线性相关变量表示的数据,变换成由若干个线性无关的新变量表示的数据,其中,新变量是正交变换中变量的方差和最大的,方差表示了新变量上信息的大小,这些新变量依次被称为第一主成分、第二主成分等

阅读全文 »

References:

【维数灾难】

维数灾难(Curse of Dimensionality)最初是由 Richard E Bellman 研究动态规划时提出的,是指当维度升高时,会遇到低维场景下察觉不到的困难,对于机器学习来说,维度升高,带来的一个明显的灾难是样本稀疏

阅读全文 »

【概述】

层次聚类(Hierarchical Clustering)假设类别之间存在层次结构,将样本聚类到层次化的簇中,由于每个样本只属于一个簇,因此层次聚类属于硬聚类

其是通过计算不同类别的数据点间的相似度,来创建一棵有层次的嵌套聚类树,在聚类完成后,可在任意层次进行切分,以得到指定数目的簇

阅读全文 »