计算机视觉-图像生成模型

生成模型全景图:自回归模型,VAE,GAN与扩散模型原理解析

背景知识:无监督学习 (Unsupervised Learning)


Autoregressive Models (自回归模型)

核心概念

自回归模型将图像生成的概率分布分解为一系列条件概率的乘积。即假设当前像素的值仅依赖于之前的像素。

数学表达

利用概率链式法则 (Chain Rule):

 $$p(x) = p(x_1, x_2, \dots, x_T) = \prod_{t=1}^{T} p(x_t | x_1, \dots, x_{t-1})$$

典型模型

  1. PixelRNN:利用 LSTM 逐个像素生成。
    • 缺点:也就是生成的顺序是串行的,速度非常慢。
  2. PixelCNN:利用掩膜卷积 (Masked Convolution)
    • 特点:使用标准的卷积神经网络,但通过 Mask 确保预测像素 $x_i$ 时只看到它之前的像素。
    • 优势:训练可以并行化(因为训练时已知所有 Ground Truth)。
    • 缺点:生成(推理)时仍然必须串行,速度慢。

总结


Variational Autoencoder (VAE, 变分自编码器)

核心概念

VAE 是一种潜在变量模型 (Latent Variable Model)。它不直接拟合 $P(x)$,而是引入潜在变量 $z$,通过编码器和解码器学习数据的压缩表示。

模型架构

  1. Encoder (推断网络):$q_\phi(z x)$,将输入 $x$映射到潜在空间分布(通常预测均值$\mu$和方差$\sigma$)。
  2. Decoder (生成网络):$p_\theta(x z)$,从潜在向量 $z$还原图像$x$。

损失函数:ELBO (Evidence Lower Bound)

VAE 无法直接最大化 $\log p(x)$,转而最大化下界 (ELBO):

\[L(\theta, \phi; x) = \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)] - D_{KL}(q_\phi(z|x) || p(z))\]

关键技巧:重参数化 (Reparameterization Trick)

为了让网络可导(Backpropagation),将随机采样 $z \sim \mathcal{N}(\mu, \sigma^2)$改写为:\(z = \mu + \sigma \odot \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)\)这样随机性转移到了$\epsilon$上,网络参数$\mu$和$\sigma$ 变得可导。

总结


Generative Adversarial Network (GAN, 生成对抗网络)

核心概念

基于博弈论 (Game Theory),由两个网络进行对抗训练。不显式建模 $P(x)$,而是学习一种从随机噪声映射到数据分布的变换。

模型架构

目标函数:Minimax Game (极大极小博弈)

\[\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}}[\log D(x)] + \mathbb{E}_{z \sim p_{z}}[\log(1 - D(G(z)))]\]

常见问题

  1. 训练不稳定:很难达到纳什均衡 (Nash Equilibrium)。
  2. 模式坍塌 (Mode Collapse):G 发现一种能够骗过 D 的模式后,反复生成这一种图片,失去了多样性。
  3. 梯度消失:如果 D 太强,G 可能会因为梯度消失而无法学习。

总结


Diffusion Models (扩散模型)

核心概念

受非平衡热力学启发。通过定义一个逐步加噪的前向过程,并学习一个去噪的反向过程来生成图像。

两个过程

  1. 前向过程 (Forward Process / Diffusion)
    • $q(x_t x_{t-1})$ :逐步向数据添加高斯噪声。
    • 当步数 $T$ 足够大时, $x_T$ 近似为纯高斯噪声 $\mathcal{N}(0, I)$。
    • 这是一个固定的马尔可夫链 (Markov Chain),不需要学习参数。
  2. 反向过程 (Inverse Process / Denoising)
    • $p_\theta(x_{t-1} x_t)$ :训练神经网络来模拟反向去噪过程。
    • 目标:估计每一步加入的噪声,或者直接预测 $x_{t-1}$ 的分布(通常假设也是高斯分布)。

训练原理

代表模型

总结


5. Summary (总结与对比)

特性 Autoregressive (PixelCNN) VAE (变分自编码器) GAN (生成对抗网络) Diffusion (扩散模型)
核心思想 链式法则,逐像素预测 压缩编码 + 概率重构 两个网络博弈对抗 逐步加噪 $\to$ 逐步去噪
生成质量 较好 一般 (偏模糊) 优 (清晰锐利) 最优 (SOTA)
生成速度 (串行) (单次前向) (单次前向) (多次迭代)
训练稳定性 稳定 (最大似然) 稳定 (ELBO) 不稳定 (极难调参) 稳定
密度估计 显式 (Explicit) 近似 (Approximate) 隐式 (Implicit) 近似/显式
主要缺陷 推理慢 图像模糊 模式坍塌 (Mode Collapse) 计算成本高
image-77.png

Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • 计算机视觉-Multi-View Stereo (MVS)
  • 计算机视觉-Structure from Motion (SFM)
  • 知识图谱
  • 自然语言处理-统计语言模型与词表示
  • 自然语言处理-RNN&Transformer