Alex_McAvoy

想要成为渔夫的猎手

【概述】

概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)也称概率潜在语义索引(Probabilistic Latent Semantic Indexing,PLSI),是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法

PLSA 受 LSA 启发,由 Hofmann 于 1999 年提出,与 LSA 不同的是,LSA 基于非概率模型,PLSA 基于概率模型,其假设每个文本由一个话题分布决定,每个话题由一个单词分布决定,利用隐变量表示话题,整个模型表示为一个由文本生成话题、话题生成单词,进而得到单词-文本共现数据的过程

阅读全文 »

【概述】

非负矩阵分解(Non-negative Matrix Factorization,NMF)是由 Lee 和 Seung 于 1999 年在《Nature》上提出的一种矩阵分解方法,其使分解后的所有分量均为非负值,并且同时实现非线性的维数约减,NMF 目前已逐渐成为机器学习中常用的多维数据处理工具之一

【基本思想】

阅读全文 »

【概述】

除了使用单词向量空间的度量来表示两个文本的语义相似度外,还可以使用话题相似度来进行表示

话题(Topic),并没有严格的定义,其是指文本所讨论的内容或者主题,一个文本一般含有若干话题,若两个文本的话题相似,那么两者的语义应该也相似

阅读全文 »

【概述】

词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)是一种用于信息检索与数据挖掘的常用加权技术,常用于衡量单词在文档中重要性,其结合了单词在文档中的频率和在整个文集中的普遍程度

TF-IDF 的主要思想是:如果某个单词在一个文档中出现的频率高,并且在其他文档中很少出现,则认为此词或者短语具有很好的类别区分能力

阅读全文 »

【概述】

词袋模型(Bag of Words,BOW)最早用于文本分类,其将每个句子看成一个袋子,袋子中装的都是单词,每个单词都是独立的,然后看这个袋子里装的都是些什么词汇,将其进行分类

如果猪、马、牛、羊、山谷、土地、拖拉机这样的词汇多些,而银行、大厦、汽车、公园这样的词汇少些,我们就倾向于判断它是一篇描绘乡村的文档,而不是描述城镇的

阅读全文 »

【概述】

在 NLP 的任务中,独热编码(One-Hot Encoding)是最简单的词嵌入方式,其能将文本转化为向量形式表示,并且不局限于语言种类

同时,在机器学习与深度学习的任务中,One-Hot 编码也能够来表征离散特征取值没有大小意义的特征

阅读全文 »

【概述】

自然语言处理(Natural Language Processing,NLP)中,一个核心问题是对文本的语义内容进行表示,并进行文本间的语义相似度计算

最简单的一种方法是利用单词向量空间模型(Word Vector Space Model,WVSM),对于给定的文本集合,将其中的每一个文本的语义信息用一个向量来表示,向量的每一维对应一个单词,其数值为该单词在该文本中出现的频数或权值,这样一来,文本集合中的每个文本都表示为一个向量,存在于一个向量空间中,向量空间的度量就表示为文本间的语义相似度

阅读全文 »

【概述】

幂法(Power Method)主要用于近似计算矩阵的主特征值和主特征向量,即绝对值最大的特征值与其对应的特征向量,其是一种迭代方法,适用于大型稀疏矩阵

【原理】

阅读全文 »

References:

【概述】

门控循环单元(Gated Recurrent Unit,GRU)是 2014 年 Cho 提出的 LSTM 的一种变体,其在保持了 LSTM 效果同时又简化了结构,使得计算量更小

阅读全文 »