Generative AI 03 Diffusion Model

2023/10/01 GAN 共 844 字，约 3 分钟

Diffusion Model

Difusion Model

[Understanding Diffusion Probabilistic Models (DPMs)

by Joseph Rocca

Towards Data Science](https://towardsdatascience.com/understanding-diffusion-probabilistic-models-dpms-1940329d6048)

文字生成图片模型框架

例子

例子1 Stable Diffusion

例子2 DALL-E series

例子3 Imagen

1 文字的 encoder

对结果影响很大

FID 衡量图像生成效果

有一个图片分配的model，

然后生成图片和真实图片的距离

假设两组都是高斯分布，然后计算 Frechet distance

距离越小越好

问题，需要大量的结果才能衡量FID

CLIP 4

2 decoder

1 如果中间产物是小图，decoder将小图变成大图

2 如果中间是latent Representation,那就训练一个auto encoder

3 Generation model

VAE vs Diffusion Model

算法

1 Training

加入噪声的时候，并不是我们想象中的一步步产生结果

2 Sampling

数学推导

目标

找到一个$\theta$ ，让sample的样本在生成得到的概率分布$P_\theta$中越大越好,（这其实等价于让分布$P_\theta$和$P_{data}$越接近越好）

VAE

认定生成的分布是一个高斯分布

VAE 下界

DDPM

把这个结果也想象成高斯分布

如何直接计算出来

如何最小化

Denoise的目标

为什么还要加noise

直接选择几率最大的，可能效果不好

验证效果

DM for speech

for Text

存在问题文字是离散的，没法加noise

解决方法1，把noise加载 latent space

方法2 其他的 noise Distribution

nar 方法

其他方法

1 Mask-Predict

在latent space上再进行 auto coder

文档信息

本文作者：zuti666
本文链接：https://zuti666.github.io/2023/10/01/Generativa-AI-03-Diffsion-Model/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

Search

Table of Contents