【概述】
随着机器学习、深度学习的发展,语音、图像、自然语言处理逐渐取得了很大的突破,语音、图像、文本都是简单的序列或网格数据,深度学习很擅长处理该类的结构化数据
但现实世界中并非所有事物都是结构化数据,即并非都可以表示为一个序列或者一个网络,例如社交网络、知识图谱、复杂的文件系统等
对于 DDPM 来说,一个最大的缺点是需要设置较长的扩散步数才能得到好的效果,这导致了生成样本的速度较慢,比如扩散步数为 $1000$ 的话,那么生成一个样本就要模型推理 $1000$ 次
为此 Jiaming Song 等学者在《Denoising Diffusion Implicit Models》 中针对 DDPM 进行了改进,提出了去噪扩散隐式模型(Denoising Diffusion Implicit Models,DDIM),不再限制前向和反向过程必须是马尔卡夫链,在不牺牲质量的情况下,允许更少的采样步数来加速反向生成过程
2020 年 6 月,Jonathan Ho 等学者在《Denoising Diffusion Probabilistic Models》中对之前的扩散概率模型进行了简化,并通过变分推断,将后验问题转为优化问题进行建模,提出了经典的去噪扩散概率模型(Denoising Diffusion Probabilistic Model,DDPM),将扩散概率模型的思想用于图像生成,目前所说的扩散模型,大多是基于该模型进行改进
简单来说,DDPM 包含两个过程:
扩散概率模型(Diffusion Probabilistic Models,DPM)于 2015 年 《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》提出,其目的是消除对训练图像连续应用的高斯噪声,可以将其视为一系列去噪自编码器,是扩散模型的起源,但是没有真正应用于 CV,NLP 任务
其基本思想是使用马尔可夫链利用扩散过程将一个简单的已知分布(例如高斯分布)逐渐转换为目标分布(例如数据分布)
在扩散模型(Diffusion Model)之前,深度生成模型领域的研究方向大多是对抗生成网络 GAN、变分自编码器 VAE 等,随着 DDPM 的发展,一些改进的方法被不断涌现,扩散模型也在生成模型领域缓缓地迈向成熟
扩散模型起源于 2015 年 《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》,Jascha Sohl-Dickstein 等学者该文中提出了扩散概率模型(Diffusion Probabilistic Models)基本概念与整体框架,目的是消除对训练图像连续应用的高斯噪声,可以将其视为一系列去噪自编码器,但是没有真正应用于 CV,NLP 任务