Alex_McAvoy

想要成为渔夫的猎手

扩散模型的发展

【发展历史】

扩散模型(Diffusion Model)之前,深度生成模型领域的研究方向大多是对抗生成网络 GAN、变分自编码器 VAE 等,随着 DDPM 的发展,一些改进的方法被不断涌现,扩散模型也在生成模型领域缓缓地迈向成熟

扩散模型起源于 2015 年 《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》,Jascha Sohl-Dickstein 等学者该文中提出了扩散概率模型(Diffusion Probabilistic Models)基本概念与整体框架,目的是消除对训练图像连续应用的高斯噪声,可以将其视为一系列去噪自编码器,但是没有真正应用于 CV,NLP 任务

2020 年 6 月,Jonathan Ho 等学者在《Denoising Diffusion Probabilistic Models》中对之前的扩散概率模型进行了简化,并通过变分推断,将后验问题转为优化问题进行建模,提出了经典的去噪扩散概率模型(Denoising Diffusion Probabilistic Model,DDPM),将扩散概率模型的思想用于图像生成,目前所说的扩散模型,大多是基于该模型进行改进

对于 DDPM 来说,一个最大的缺点是需要设置较长的扩散步数才能得到好的效果,这导致了生成样本的速度较慢,比如扩散步数为 $1000$ 的话,那么生成一个样本就要模型推理 $1000$​ 次,为此 Jiaming Song 等学者在《Denoising Diffusion Implicit Models》 中针对 DDPM 进行了改进,提出了去噪扩散隐式模型(Denoising Diffusion Implicit Models,DDIM),不再限制前向和反向过程必须是马尔卡夫链,在不牺牲质量的情况下,允许更少的采样步数来加速反向生成过程,此外 DDIM 的另一个特点是从一个随机噪音生成样本的过程是一个确定的过程,即中间再额外没有加入随机噪音

2021 年 2 月,Alex Nichol 等学者在 《Improved Denoising Diffusion Probabilistic Models》中对 DDPM 做了改进,将 DDPM 中用常数指代的方差使用模型进行学习,同时将添加噪声的函数从线性改成了余弦

同年 5 月,Alex Nichol 等学者在 《Diffusion models beat GAN on image Synthesis》中首次提出了分类器引导扩散(Classifier Guidance Diffusion),额外训练了一个分类器来指导扩散模型生成图像。反向生成过程中的隐变量会通过分类器计算得到一个梯度,利用该梯度指导扩散模型的迭代过程,能够更好的告诉网络在反向过程生成新图片时,当前图片有多像需要生成的物体。此外,本文从 GAN 的实验中得到启发,对扩散模型进行了大量的消融实验,找到了更好的架构更深更宽的模型

2021 年,Jonathan Ho 等学者在《Classifier-Free Diffusion Guidance》中基于分类器引导扩散发现了用生成模型自己做引导而无需训练分类器。该方法中联合训练了条件和非条件的扩散模型,并且结合了两个模型的分数估计,以实现样本质量和多样性之间的均衡。最终的输出为有条件生成的输出(和图片匹配的文本对 $c$)减去无条件生成的输出(对文本对 $c$ 设置为空集),可以将无条件生成的输出看作是偏差,用正常训练的网络减去有偏差的网络能得到想要的输出

在随着扩散模型的不断发展,尤其是当引导技术被证明扩散模型也能生成高质量的图像后,OpenAI 开始探索文本条件下的图像生成,2021 年 12 月,Alex Nichol 等学者在《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models》中对比了 CLIP 引导和无分类器(Classifier-free)两种不同的引导策略,验证了使用无分类器引导的方式生成的图片更真实,与提示的文本有更好的相关性,并且使用无分类器引导的 GLIDE 模型在 35 亿参数的情况下优于 120 亿参数的 DALL-E 模型,其最大的贡献是开始用文本作为条件引导图像的生成

在 GLIDE 取得成功之后,OpenAI 又进一步在 GLIDE 的基础上开发了 Dalle-2,此后图片生成工作迎来了大爆发,Google 提出了 Imagen 以及 Imagen2,Stability AI提出了 Stable Diffusion 以及火爆全网的 Midjourney

感谢您对我的支持,让我继续努力分享有用的技术与知识点!