Generative AI 03 Diffusion Model

2023/10/01 GAN 共 844 字,约 3 分钟

Diffusion Model

Difusion Model

[Understanding Diffusion Probabilistic Models (DPMs)by Joseph RoccaTowards Data Science](https://towardsdatascience.com/understanding-diffusion-probabilistic-models-dpms-1940329d6048)

文字生成图片 模型框架

image-20231008162923962

例子

例子1 Stable Diffusion

image-20231008163016010

例子2 DALL-E series

image-20231008163048475

例子3 Imagen

image-20231008163120955

1 文字的 encoder

对结果影响很大

image-20231008163207785

FID 衡量图像生成效果

有一个图片分配的model,

然后 生成图片和真实图片的距离

假设两组都是 高斯分布 ,然后计算 Frechet distance

距离越小越好

问题,需要大量的结果才能衡量FID

image-20231008163452650

CLIP 4

image-20231008163610118

2 decoder

1 如果中间产物是小图,decoder将小图变成大图

image-20231008163729603

2 如果中间是latent Representation,那就训练一个auto encoder

image-20231008163855766

3 Generation model

image-20231008164152826

image-20231008164246691

image-20231008164326649

VAE vs Diffusion Model

image-20231008164605191

算法

1 Training

image-20231008164750114

image-20231008164831822

加入噪声的时候,并不是我们想象中的一步步产生结果

image-20231008164953244

2 Sampling

image-20231008165208757

数学推导

目标

找到一个$\theta$ ,让sample的样本在生成得到的概率分布$P_\theta$中越大越好,(这其实等价于让分布$P_\theta$和$P_{data}$越接近越好)

image-20231008165643090

image-20231008165825003

VAE

认定生成的分布是一个 高斯分布

image-20231008170112709

VAE 下界

image-20231008170216625

DDPM

把这个结果也想象成 高斯分布

image-20231008170501361

image-20231008170713352

如何直接计算出来

image-20231008170817975

image-20231008170849959

image-20231008171021016

image-20231008171252306

如何最小化

image-20231008171423313

image-20231008171454155

image-20231008171622846

Denoise的目标

image-20231008171842208

image-20231008171913288

为什么还要加noise

image-20231008172126802

直接选择几率最大的,可能效果不好

image-20231008172318299

验证效果

image-20231008172449051

DM for speech

image-20231008172555060

for Text

存在问题 文字是离散的,没法加noise

解决方法1,把noise加载 latent space

image-20231008172758141

image-20231008172749451

方法2 其他的 noise Distribution

image-20231008172808554

nar 方法

image-20231008173140529

其他方法

1 Mask-Predict

在latent space上再进行 auto coder

image-20231008173213855

image-20231008173318369

image-20231008173342874

文档信息

Search

    Table of Contents