扩散模型综述

降噪扩散模型已成为计算机视觉近期的最热的新兴主题之一,其在生成式建模领域展示了显著的成果。 扩散模型是基于两个阶段的深度生成式模型,一个前向扩散阶段和一个反向扩散阶段。在前向扩散阶段, 通过添加高斯噪声,输入数据在几个步骤中逐渐被扰动。在反向扩散阶段,模型的任务是通过学习逐步反演扩散过程来恢复原始输入数据。 尽管扩散模型具有已知的计算负担,即由于采样过程中涉及的大量步骤而导致计算速度较低,但由于扩散模型生成的样本的质量和多样性而被广泛认可。

图1 不同类型的生成模型概述

我们对视觉中应用的降噪扩散模型的文章进行了全面的调研,包括该领域的理论和实践贡献。 我们在图1展示了不同类型的生成模型。首先,我们确定并提出了三个通用的扩散建模框架,它们基于去噪扩散概率模型, 噪声条件评分网络和随机微分方程。

基于去噪扩散概率模型:与常见的生成模型的机制不同,去噪扩散概率模型不再是通过一个“限制”(比如种类,风格等等)的输入, 逐步添加信息,最终得到生成的图片/语音。而是采用从高斯噪音中逐步依照一定条件“采样”特殊的分布, 随着“采样”轮次的增加最终得到生成的图片/语音。

噪声条件评分网络:通过缓慢注入噪声,将复杂的数据分布平滑地转换为已知的先验分布,以及一个相应的反向时间SDE, 通过缓慢去除噪声将先验分布转换回数据分布。关键的是,反向时间SDE仅取决于扰动数据分布的时间相关梯度场(也称为得分)。 通过利用基于得分的生成建模的进展,我们可以使用神经网络准确地估计这些分数,并使用数值 SDE 求解器生成样本。

随机微分方程:Ho等人引入了一种不需要分类器的指导方法。它只需要一个条件扩散模型和一个无条件版本, 但他们使用相同的模型来学习这两种情况。无条件模型是在类标识符等于0的情况下进行训练的。 这个想法基于从贝叶斯规则导出的隐式分类器。