Alex_McAvoy

想要成为渔夫的猎手

今天是二〇二三年的最后一天,此时此刻,我又要离开这座城市。

吾友,芥川龙之介曾说,“自负,爱欲,怀疑——三千年来,所有罪恶均源于此三者,所有德行或也因此三者而生。”

我承认我是一个生性刻薄又无情的人,但我既不会觉得羞愧,也不会以此为傲,这只是一个我无法改变的事实。

阅读全文 »

【概述】

序列到序列(Sequence to Sequence,Seq2Seq)模型,是一种根据给定的序列,通过特定的生成方法生成另一个序列的方法,其是 RNN 的一个变种,解决了 RNN 要求序列等长的问题,其常用于机器翻译、聊天机器人、文本摘要生成等领域中

其属于编码-解码(Encoder-Decoder)结构的一种,编码器 Encoder 和解码器 Encoder 中的每一个 Cell 都是一个 RNN,Encoder 通过学习,将输入序列 $x_1,x_2,\cdots,x_n$ 编码成一个固定大小的状态向量 $C$ 作为解码器的输入,Decoder 则是对这个固定大小的状态向量 $C$ 进行学习,将其解码为可变长度的目标序列进行输出

阅读全文 »

【概述】

注意力机制(Attention)是人类大脑的一种天生的能力,当人们看到一幅图片时,先是快速扫过图片,然后锁定需要重点关注的目标区域

例如,当观察下面的图片时,注意力很容易就集中在了人脸、文章标题和文章首句等位置

阅读全文 »

【概述】

Word2Vec 模型,是由谷歌提出的一套新的词嵌入(Word Embedding)方法,其实质上是一个简单的神经网络

该模型能够学习一个从高维稀疏离散向量到低维稠密连续向量的映射,该映射具有近义词向量的欧氏距离小,词向量之间的加减法有实际物理意义等特点

阅读全文 »

【概述】

N-Gram 模型是一种基于统计语言模型的算法,常用于预测一个文本中下一个单词出现的概率

其基本思想是将文本内容按词进行大小为 $N$ 的滑动窗口操作,形成长度是 $N$ 的词片段序列,每一个词片段被称为 gram,通过这种序列信息,来预测下一个项的出现概率

阅读全文 »

【概述】

词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)是一种用于信息检索与数据挖掘的常用加权技术,常用于衡量单词在文档中重要性,其结合了单词在文档中的频率和在整个文集中的普遍程度

TF-IDF 的主要思想是:如果某个单词在一个文档中出现的频率高,并且在其他文档中很少出现,则认为此词或者短语具有很好的类别区分能力

阅读全文 »

【概述】

词袋模型(Bag of Words,BOW)最早用于文本分类,其将每个句子看成一个袋子,袋子中装的都是单词,每个单词都是独立的,然后看这个袋子里装的都是些什么词汇,将其进行分类

如果猪、马、牛、羊、山谷、土地、拖拉机这样的词汇多些,而银行、大厦、汽车、公园这样的词汇少些,我们就倾向于判断它是一篇描绘乡村的文档,而不是描述城镇的

阅读全文 »

【概述】

在 NLP 的任务中,独热编码(One-Hot Encoding)是最简单的词嵌入方式,其能将文本转化为向量形式表示,并且不局限于语言种类

同时,在机器学习与深度学习的任务中,One-Hot 编码也能够来表征离散特征取值没有大小意义的特征

阅读全文 »

References:

【概述】

门控循环单元(Gated Recurrent Unit,GRU)是 2014 年 Cho 提出的 LSTM 的一种变体,其在保持了 LSTM 效果同时又简化了结构,使得计算量更小

阅读全文 »