Diffusion Models - Application

introduction about the applications of diffusion models

这篇文章是扩散模型的应用论文记录,主要有以下类别:

SDEdit

由于加噪过程是首先破坏高频信息,然后才破坏低频信息,所以加噪到一定程度之后,就可以去掉不想要的细节纹理,但仍保留大体结构。然后在中途开始去噪,于是生成出来的图像就既能遵循输入的引导,又显得真实。但是需要 realism-faithfulness trade-off

ILVR

给定一个参考图像\(y\),通过调整DDPM去噪过程,希望让模型生成的图像接近参考图像,作者定义的接近是让模型能够满足
\(\phi_N(x_t)=\phi_N(y_t)\)
\(\phi_N(\cdot)\)是一个低通滤波器(下采样之后再插值回来)。使用如下的算法:

即,对DDPM预测的\(x'_{t-1}\)加上bias:\(\phi_N(y_{t-1})-\phi_N(x'_{t-1})\),可以证明,如果上/下采样采用的是最近邻插值,使用这种方法可以使得\(\phi_N(x_t)=\phi_N(y_t)\).
这种方法和classifier guidance很相似,甚至不需要训练一个外部模型,对算力友好。

DiffusionCLIP

基于扩散模型的图像编辑,使用到的技术有DDIM Inversion,CLIP微调扩散模型。

所以作者提出通过替换attention map的方式实现图像编辑

Imagic

提供一张参考图片和目标文本,将参考图片朝着目标文本的语义方向编辑

基于优化的方法,每一次编辑都需要重新优化

使用的方法是正则化DDIM反演,feature map监督

Null-text Inversion

在基于扩散模型的编辑中,几乎都有一个重要的步骤:DDIM反演,即将图片逆映射到噪声(隐变量)。但是传统的方法得到的隐变量在使用扩散模型进行去噪,最终得到的图片往往和输入图片有偏差。如果单纯地使用反演后的隐变量进行图像编辑,效果会有所限制。
作者观察到两个现象:

相当于是使用\(T\)个变量储存了每一步T2到T1的偏差。最终模型输出隐变量和Null-text embedding,可供其它编辑方法使用,增强编辑效果

Direct Inversion

由于传统DDIM Inversion具有偏差,所以通常是使用基于优化的方法修正偏离。
Null-text Inversion方法通过优化Null-text embedding来修正偏离,但是有几个问题: