【概述】
自 2014 年 Ian Goodfellow 提出以来 GAN 以来,GAN 就面临着训练困难、生成器和判别器的 Loss 无法指示训练进程、生成样本缺乏多样性等问题
从那时起,很多论文都在尝试解决,但是效果不尽人意,例如最有名的一个改进 DCGAN 本质上依靠的是对生成器和判别器的架构进行实验枚举,最终找到一组比较好的网络架构设置,但是实际上是治标不治本,没有彻底解决问题
序列到序列(Sequence to Sequence,Seq2Seq)模型,是一种根据给定的序列,通过特定的生成方法生成另一个序列的方法,其是 RNN 的一个变种,解决了 RNN 要求序列等长的问题,其常用于机器翻译、聊天机器人、文本摘要生成等领域中
其属于编码-解码(Encoder-Decoder)结构的一种,编码器 Encoder 和解码器 Encoder 中的每一个 Cell 都是一个 RNN,Encoder 通过学习,将输入序列 $x_1,x_2,\cdots,x_n$ 编码成一个固定大小的状态向量 $C$ 作为解码器的输入,Decoder 则是对这个固定大小的状态向量 $C$ 进行学习,将其解码为可变长度的目标序列进行输出
潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)是文本集合的生成概率模型,其假设话题由单词的多项分布表示,文本由话题的多项分布表示,单词分布和话题分布的先验分布都是狄利克雷分布,文本内容不同是由于它们的话题分布不同
LDA 模型表示了文本集合自动生成过程:首先,基于单词分布的先验分布(狄利克雷分布)生成多个单词分布,即决定多个话题内容;之后,基于话题分布的先验分布(狄利克雷分布)生成多个话题分布,即决定多个文本内容;最后,基于每一个话题分布生成话题序列,针对每一个话题,基于话题的单词分布生成单词,整体构成一个单词序列,即生成文本,重复这个过程生成所有文本