非负矩阵分解 发表于 2023-12-21 分类于 数学 , 矩阵论 本文字数: 3.6k 阅读时长 ≈ 3 分钟 【概述】非负矩阵分解(Non-negative Matrix Factorization,NMF)是由 Lee 和 Seung 于 1999 年在《Nature》上提出的一种矩阵分解方法,其使分解后的所有分量均为非负值,并且同时实现非线性的维数约减,NMF 目前已逐渐成为机器学习中常用的多维数据处理工具之一 【基本思想】 阅读全文 »
潜在语义分析 LSA 发表于 2023-12-20 分类于 人工智能 , 自然语言处理 本文字数: 4.2k 阅读时长 ≈ 4 分钟 【概述】潜在语义分析(Latent Semantic Analysis,LSA)直观上就是将文本在单词向量空间的表示 $X$ 通过线性变换转换为在话题向量空间中的表示 $Y$ 阅读全文 »
话题向量空间 发表于 2023-12-20 分类于 人工智能 , 自然语言处理 本文字数: 2k 阅读时长 ≈ 2 分钟 【概述】除了使用单词向量空间的度量来表示两个文本的语义相似度外,还可以使用话题相似度来进行表示 话题(Topic),并没有严格的定义,其是指文本所讨论的内容或者主题,一个文本一般含有若干话题,若两个文本的话题相似,那么两者的语义应该也相似 阅读全文 »
TF-IDF 算法 发表于 2023-12-19 分类于 人工智能 , 自然语言处理 本文字数: 1.2k 阅读时长 ≈ 1 分钟 【概述】词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)是一种用于信息检索与数据挖掘的常用加权技术,常用于衡量单词在文档中重要性,其结合了单词在文档中的频率和在整个文集中的普遍程度 TF-IDF 的主要思想是:如果某个单词在一个文档中出现的频率高,并且在其他文档中很少出现,则认为此词或者短语具有很好的类别区分能力 阅读全文 »
词袋模型 发表于 2023-12-19 分类于 人工智能 , 自然语言处理 本文字数: 1.1k 阅读时长 ≈ 1 分钟 【概述】词袋模型(Bag of Words,BOW)最早用于文本分类,其将每个句子看成一个袋子,袋子中装的都是单词,每个单词都是独立的,然后看这个袋子里装的都是些什么词汇,将其进行分类 如果猪、马、牛、羊、山谷、土地、拖拉机这样的词汇多些,而银行、大厦、汽车、公园这样的词汇少些,我们就倾向于判断它是一篇描绘乡村的文档,而不是描述城镇的 阅读全文 »
One-Hot 编码 发表于 2023-12-19 分类于 人工智能 , 自然语言处理 本文字数: 1.2k 阅读时长 ≈ 1 分钟 【概述】在 NLP 的任务中,独热编码(One-Hot Encoding)是最简单的词嵌入方式,其能将文本转化为向量形式表示,并且不局限于语言种类 同时,在机器学习与深度学习的任务中,One-Hot 编码也能够来表征离散特征取值没有大小意义的特征 阅读全文 »
单词向量空间 发表于 2023-12-19 分类于 人工智能 , 自然语言处理 本文字数: 1.5k 阅读时长 ≈ 1 分钟 【概述】在自然语言处理(Natural Language Processing,NLP)中,一个核心问题是对文本的语义内容进行表示,并进行文本间的语义相似度计算 最简单的一种方法是利用单词向量空间模型(Word Vector Space Model,WVSM),对于给定的文本集合,将其中的每一个文本的语义信息用一个向量来表示,向量的每一维对应一个单词,其数值为该单词在该文本中出现的频数或权值,这样一来,文本集合中的每个文本都表示为一个向量,存在于一个向量空间中,向量空间的度量就表示为文本间的语义相似度 阅读全文 »
幂法 发表于 2023-09-09 分类于 数学 , 矩阵论 本文字数: 4k 阅读时长 ≈ 4 分钟 【概述】幂法(Power Method)主要用于近似计算矩阵的主特征值和主特征向量,即绝对值最大的特征值与其对应的特征向量,其是一种迭代方法,适用于大型稀疏矩阵 【原理】 阅读全文 »
经典循环神经网络之 GRU 发表于 2023-07-09 分类于 人工智能 , 深度学习 , 循环神经网络 本文字数: 1.9k 阅读时长 ≈ 2 分钟 References: Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling Understanding LSTM Networks 认认真真学一下LSTM 机器学习笔记 :LSTM 变体 (conv-LSTM、Peephole LSTM、 coupled LSTM、conv-GRU,TPA-LSTM) 人人都能看懂的GRU 深度学习:长短期记忆模型LSTM的变体和拓展(GRU模型等) 【概述】门控循环单元(Gated Recurrent Unit,GRU)是 2014 年 Cho 提出的 LSTM 的一种变体,其在保持了 LSTM 效果同时又简化了结构,使得计算量更小 阅读全文 »
经典循环神经网络之 LSTM 的扩展 发表于 2023-07-07 分类于 人工智能 , 深度学习 , 循环神经网络 本文字数: 1.5k 阅读时长 ≈ 1 分钟 References: LSTM Recurrent Networks Learn Simple Context-Free and Context-Sensitive Languages LSTM: A Search Space Odyssey Understanding LSTM Networks 深度学习:长短期记忆模型LSTM的变体和拓展(GRU模型等) 机器学习笔记 :LSTM 变体 (conv-LSTM、Peephole LSTM、 coupled LSTM、conv-GRU,TPA-LSTM) 【窥视孔连接】在 LSTM 中,当前时间步的状态不能影响到三个门在下一时间步的输出,这使得整个单元状态对上一单元模块的序列处理中丢失了部分信息 阅读全文 »