在生成式 AI 的历史长河中,扩散模型(Diffusion Models)的出现无疑是一场革命。然而,早期的扩散模型虽然在生成质量上击败了 GAN,却被极其高昂的计算成本所困扰。直到 Latent Diffusion Models (LDM,潜在扩散模型) 的横空出世,这道横亘在学术界与工业界之间的算力鸿沟才被真正填平(Stable Diffusion 正是基于此模型构建)。我们将深入剖析 LDM 的原始论文《High-Resolution Image Synthesis with Latent Diffusion Models》,从前置模型的致命缺陷出发,一步步揭示 LDM 是如何通过“降维打击”完美破局的,并详细推导其背后的核心原理和所有关键公式。
我们将深入拆解扩散模型的两大奠基之作:DDPM(Denoising Diffusion Probabilistic Models,去噪扩散概率模型) 与 DDIM(Denoising Diffusion Implicit Models,去噪扩散隐式模型)。我们将从生成模型的历史困境出发,一步步揭示 DDPM 是如何打破僵局的,以及 DDIM 是如何以优雅的数学直觉解决 DDPM 的缺陷,最终让扩散模型真正走向实用的。
我们将从最基础的自编码器(Autoencoder, AE)出发,一步步揭开它在“图像生成”上的致命缺陷,并详细推导变分自编码器(Variational Autoencoder, VAE)是如何通过数学技巧(如 ELBO、重参数化技巧)解决这些问题的。