Alex_McAvoy

想要成为渔夫的猎手

【概述】

非负矩阵分解(Non-negative Matrix Factorization,NMF)是由 Lee 和 Seung 于 1999 年在《Nature》上提出的一种矩阵分解方法,其使分解后的所有分量均为非负值,并且同时实现非线性的维数约减,NMF 目前已逐渐成为机器学习中常用的多维数据处理工具之一

【基本思想】

阅读全文 »

【概述】

除了使用单词向量空间的度量来表示两个文本的语义相似度外,还可以使用话题相似度来进行表示

话题(Topic),并没有严格的定义,其是指文本所讨论的内容或者主题,一个文本一般含有若干话题,若两个文本的话题相似,那么两者的语义应该也相似

阅读全文 »

【概述】

词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)是一种用于信息检索与数据挖掘的常用加权技术,常用于衡量单词在文档中重要性,其结合了单词在文档中的频率和在整个文集中的普遍程度

TF-IDF 的主要思想是:如果某个单词在一个文档中出现的频率高,并且在其他文档中很少出现,则认为此词或者短语具有很好的类别区分能力

阅读全文 »

【概述】

词袋模型(Bag of Words,BOW)最早用于文本分类,其将每个句子看成一个袋子,袋子中装的都是单词,每个单词都是独立的,然后看这个袋子里装的都是些什么词汇,将其进行分类

如果猪、马、牛、羊、山谷、土地、拖拉机这样的词汇多些,而银行、大厦、汽车、公园这样的词汇少些,我们就倾向于判断它是一篇描绘乡村的文档,而不是描述城镇的

阅读全文 »

【概述】

在 NLP 的任务中,独热编码(One-Hot Encoding)是最简单的词嵌入方式,其能将文本转化为向量形式表示,并且不局限于语言种类

同时,在机器学习与深度学习的任务中,One-Hot 编码也能够来表征离散特征取值没有大小意义的特征

阅读全文 »

【概述】

自然语言处理(Natural Language Processing,NLP)中,一个核心问题是对文本的语义内容进行表示,并进行文本间的语义相似度计算

最简单的一种方法是利用单词向量空间模型(Word Vector Space Model,WVSM),对于给定的文本集合,将其中的每一个文本的语义信息用一个向量来表示,向量的每一维对应一个单词,其数值为该单词在该文本中出现的频数或权值,这样一来,文本集合中的每个文本都表示为一个向量,存在于一个向量空间中,向量空间的度量就表示为文本间的语义相似度

阅读全文 »

【概述】

幂法(Power Method)主要用于近似计算矩阵的主特征值和主特征向量,即绝对值最大的特征值与其对应的特征向量,其是一种迭代方法,适用于大型稀疏矩阵

【原理】

阅读全文 »

References:

【概述】

门控循环单元(Gated Recurrent Unit,GRU)是 2014 年 Cho 提出的 LSTM 的一种变体,其在保持了 LSTM 效果同时又简化了结构,使得计算量更小

阅读全文 »

References:

【窥视孔连接】

在 LSTM 中,当前时间步的状态不能影响到三个门在下一时间步的输出,这使得整个单元状态对上一单元模块的序列处理中丢失了部分信息

阅读全文 »