原创丨一文读懂DDPM的发展史

张开发
2026/4/14 12:07:35 15 分钟阅读

分享文章

原创丨一文读懂DDPM的发展史
作者贾恩东 本文约5400字建议阅读11分钟 本文介绍了 DDPM 的发展脉络、核心原理及多领域应用。最近两年AI生成领域真的是卷得不行技术迭代快得让人跟不上行业竞争也越来越激烈尤其是2026年以来先后出现了两个影响行业的大事件先是字节跳动在2026年2月正式发布了Seedance 2.0该产品一经推出就立刻火得一塌糊涂直接搅动了AI视频生成赛道的格局。它主打“实时生成电影级短视频”不用你懂专业剪辑也不用复杂操作普通人随便输几句简单的提示词比如“氛围感海边日落vlog电影感滤镜”就能快速生成画面细腻、节奏流畅的短视频直接把视频创作的门槛拉到了最低让人人都能当“AI导演”。紧接着在3月OpenAI就宣布放弃了曾被寄予厚望的Sora视频生成业务成为行业震动的大新闻。要知道Sora当初可是号称能生成“电影级”视频的狠角色2024年首次亮相时就震惊行业2025年还推出了独立App登顶美区应用商店引发好莱坞诸多导演和演员联名抵制。可最终还是没扛住竞争再加上商业化路径没摸清楚、成本太高在Seedance 2.0爆红之后只能仓促收场。就在最近一个多月还有两个相关事件也引人注意直接刷爆全网彻底刷新了大家对AI创作的认知第一个是B站UP主DDIM_OK做的AI短片《牌子》要是在一年前说出来可能没人会相信这部片子他就花了23天既没有专业团队帮忙也没有高额的制作成本却凭着细腻到极致的画面质感、紧凑不拖沓的剧情上线一周播放量就破了千万到现在累计播放量快1800万了连《流浪地球》导演郭帆都公开点赞被网友们奉为“AI短片封神之作”第二个则是央视做的AI外宣短片《流金谷恩仇录》这部片子才是真的“低成本高产出”仅用48小时、3000块钱的算力成本就做完了背后就一支20人左右的年轻团队比起传统真人外宣短片成本直接降了百倍。它十分有创意用复古的邵氏武侠风格当外壳把复杂的国际地缘博弈、资源争夺变成了通俗易懂的江湖恩怨比如里面的“流金谷”其实对应着现实里的霍尔木兹海峡谷里的宝贝“玄铁髓”就是石油“白鹰盟”靠着武力垄断“玄铁髓”交易还强推“白鹰金票”结算明眼人都能看出来这是在隐喻美元霸权的资源垄断和金融控制而“波斯寨”的反抗就是现实中那些反抗霸权、坚守自主的力量甚至连角色服饰都藏着小心思——正面角色穿的是交领右衽的汉服反派穿的是象征霸权的清代蜈蚣扣服饰用衣冠细节传递文明立场。这部短片一上线10小时点赞就破了百万现在抖音播放量超3200万、点赞破221万还火到了海外网友们都催着要英语版被夸是“顶级政治表达”“最易懂的国际局势说明书”。其实这三个看似不相关的爆款背后都藏着同一个核心技术——即早在2020年诞生的去噪扩散概率模型Denoising Diffusion Probabilistic Models, DDPM。正是因为这些年来DDPM一直在不断迭代升级这些看似“不可能”的AI创作才得以落地。从实验室里的理论萌芽到真正落地爆发DDPM只用了十余年时间就彻底重塑了生成式AI的格局改变了我们内容创作的底层逻辑。今天我们就沿着时间线一步步梳理DDPM的完整发展史拆解它的进化脉络和应用落地让你一文读懂这门“从噪声里变万物”、撑起无数AI爆款的核心技术。一、生成模型的困境与扩散思想的萌芽2015-2019在DDPM正式诞生之前生成式AI领域的主流是GAN生成对抗网络。简单说GAN就像一个“新手画匠”靠生成器和判别器的相互博弈直接模仿真实数据生成图像但它始终有两个致命痛点绕不开训练不稳定容易出现“模式崩溃”说白了就是只能生成少数几种样本生成质量也有限很难还原细节丰富的真实场景。这种困境让生成式AI难以实现规模化应用也为新模型的诞生留下了空间。就在这时一种全新的思路悄悄冒了出来——从非平衡热力学里找灵感通过“逐步加噪、反向去噪”的过程来学习数据的分布规律。2015年Jascha Sohl-Dickstein等人在ICML会议上发表论文第一次把扩散过程和生成模型结合起来提出了扩散模型的雏形让数据在多步加噪中慢慢变成纯噪声再训练模型反向去噪把原始数据还原回来。这便是DDPM最核心的思想源头。这个想法确实很有创新性但受限于当时的技术条件早期扩散模型不仅训练复杂采样效率也低得可怜只能在小规模数据上做验证根本没法和GAN抗衡。之后的几年里研究者们一直在不断优化理论框架到了2019年Yang Song等人提出了基于分数的生成模型把扩散过程和数据分布的梯度估计结合起来这也为后来DDPM的诞生打下了坚实的基础。这段时间里扩散模型一直处在“实验室阶段”没能走进大众视野但“加噪-去噪”这个核心逻辑已经为DDPM后来的爆发埋下了伏笔。二、2020年里程碑时刻——DDPM正式诞生奠定现代扩散模型框架2020年Jonathan Ho等人在NeurIPS会议上发表了题为《Denoising Diffusion Probabilistic Models》的论文正式提出了DDPM。这篇论文可以说是现代扩散模型的“奠基之作”彻底解决了早期扩散模型的核心痛点让“去噪生成”从理论真正变成了可行的技术也标志着DDPM发展史的正式开端。DDPM的核心思想其实很简单就像一场“逆时光修复”具体分为两步前向过程加噪这是一个固定的、不用学习的过程。大家可以想象一张清晰的猫的图片我们分1000步每一步都给它加一点点高斯噪声直到最后一步图片彻底变成一团随机噪声——就像一滴墨水滴进清水慢慢扩散到均匀分布再也看不清原来的样子。反向过程去噪这才是DDPM需要重点学习的核心。我们训练一个U-Net结构的神经网络让它学会“逆向操作”——从纯噪声开始每一步都预测并去掉上一步加的噪声经过1000步去噪后最终还原出一张清晰、逼真的猫的图片。这里要注意一点模型并不是直接学习“怎么生成图片”而是学习“怎么预测噪声”通过最小化预测噪声和真实噪声的差距间接掌握数据的分布规律。DDPM的革命性突破主要有两点一是把扩散过程形式化成了马尔可夫链简化了训练逻辑还用了简单的均方误差MSE作为损失函数让模型训练变得稳定彻底解决了GAN训练不稳定的问题二是通过重参数化技巧大幅降低了计算复杂度让模型能够处理高分辨率的图像。不过话说回来此时的DDPM虽然生成质量已经能媲美甚至超过当时的GAN但仍有一个致命缺陷采样速度太慢——生成一张图片要1000步迭代耗时好几分钟这也让它很难落地到实际应用中只能一直停留在学术研究层面成为DDPM发展路上的第一个“绊脚石”。三、2021年加速与优化——DDIM登场让DDPM“跑起来”到了2021年DDPM的进化迎来了关键一步——Jiaming Song等人提出了DDIM去噪扩散隐式模型它的核心目标很明确就是解决DDPM采样速度慢的痛点让扩散模型真正具备实际应用的可能推动DDPM从“实验室”向“工程化”迈出第一步。DDPM的采样过程是“随机的马尔可夫链”每一步都带有随机性而且必须完成全部1000步才能生成合格样本而DDIM则把它改成了“确定性采样”引入了非马尔可夫链逻辑去掉了采样过程中的随机噪声实现了“固定输入→固定输出”的可复现生成同时还允许跳步采样——只需要50-100步就能生成和DDPM 1000步质量相当的样本采样速度一下子提升了10-50倍。同年OpenAI团队也推出了两项关键优化进一步完善了DDPM的技术体系一是IDDPM改进型DDPM引入了可学习的方差和混合损失进一步提升了生成质量二是Guided Diffusion通过更大规模的U-Net架构和无分类器引导Classifier-Free Guidance技术第一次让扩散模型在图像生成质量上全面超越GAN还实现了“文本引导生成”的雏形为后来的文生图技术打下了基础。这一年扩散模型彻底摆脱了“慢”的标签从学术研究走进了工程化探索的第一步越来越多的研究者开始关注这个领域也为后续DDPM的爆发式发展积累了足够的技术力量。四、2022年落地爆发——LDM与Stable Diffusion让DDPM走进大众DDPM和DDIM虽然解决了“稳定”和“快速”的问题但还有一个瓶颈没突破直接在像素空间进行扩散计算量实在太大——一张512×512的图片其像素维度高达百万级普通消费级显卡根本扛不住训练和推理任务这也成了阻碍DDPM普及的最后一道门槛让它始终无法走进大众视野。2022年Stability AI团队提出了潜空间扩散模型LDM完美解决了这个问题而基于LDM开发的Stable Diffusion更是让DDPM的技术成果彻底走进了大众视野直接引爆了AIGC浪潮也让DDPM的发展迎来了“黄金期”。LDM的核心创新就是“降维扩散”不再直接在高维像素空间进行加噪和去噪而是先用VAE变分自编码器把高分辨率图片压缩到低维的“潜空间”比如把512×512的图片压缩成64×64的潜变量在潜空间完成扩散过程后再用VAE解码器把潜变量还原成高分辨率图像。这一步操作直接把计算量降低了两个数量级让普通消费级显卡8GB显存也能流畅运行扩散模型轻松实现高分辨率图像生成。Stable Diffusion在LDM的基础上又进一步集成了CLIP文本编码器实现了“文本→图像”的跨模态生成——只要输入一句文字描述就能生成对应的图像而且它还开源了模型权重和代码让全球的开发者都能免费使用、二次开发。到这里DDPM的技术理念通过LDM和Stable Diffusion真正落地到了实际应用中催生出了AI绘画、图像编辑、创意设计等一系列场景彻底改变了我们内容创作的方式。同年OpenAI推出的DALL·E 2也基于DDPM的核心原理结合CLIP的图文对齐技术实现了更高质量的文生图进一步推动了扩散模型的普及让DDPM的技术影响力达到了新的高度。五、2023年至今迭代与泛化——从图像到多模态走向更可控、更高效随着Stable Diffusion的爆火DDPM的技术体系进入了快速迭代期核心方向主要围绕“高效化”“可控化”“多模态”三个维度展开不断突破应用边界让DDPM的发展更贴合实际需求逐步走向工业化应用。高效化升级2023年一致性模型Consistency Models问世它把扩散过程“蒸馏”成了单步或几步生成实现了“1-4步就能生成高质量样本”差不多接近实时生成速度彻底解决了扩散模型“采样慢”的最后一个痛点同时LCM潜空间一致性模型把这一优势和潜空间扩散结合起来让普通消费级设备也能实现实时生成进一步降低了DDPM的应用门槛。可控化提升ControlNet的出现让扩散模型从“自由生成”变成了“精准可控”。它通过给U-Net添加控制分支结合姿态图、深度图、边缘图等结构化条件实现了“按指定结构生成”——比如输入一张人物姿态图就能生成对应姿态的人物图像大大提升了生成内容的实用性广泛应用在设计、影视、游戏等领域让DDPM的应用场景更加丰富。多模态泛化DDPM的核心逻辑不再局限于图像生成而是扩展到了音频、视频、3D、分子结构等多个领域。音频生成领域AudioLDM、MusicGen基于扩散原理实现了文生语音、文生音乐视频生成领域Runway Gen-2、Pika Labs把2D扩散扩展到3D时空维度实现了文本生成视频3D生成领域Stable Zero123、Shap-E能从单张图片生成3D模型甚至在科学研究领域扩散模型还被用来生成分子结构助力新药研发让DDPM的价值超越了内容创作。除此之外DiT扩散Transformer的出现用Transformer替代了传统的U-Net进一步提升了模型的可扩展性和生成质量SDXLStable Diffusion XL则通过更大规模的模型架构实现了更高分辨率、更细腻的图像生成推动扩散模型向工业化应用稳步迈进也让DDPM的技术体系更加完善。六、通俗总结DDPM的发展史就是一部“突破与落地”的进化史如果用一句话概括DDPM的发展史其实就是从2015年的思想萌芽到2020年的正式诞生再到2021年的加速优化、2022年的落地爆发最后到如今的多模态泛化DDPM一步步解决了“不稳定、速度慢、门槛高”的痛点从实验室理论成长为改变世界的核心技术。而DDPM本身就是一种“从噪声中还原美好”的生成模型核心靠“逐步加噪→反向去噪”的过程学习真实数据的分布最终实现“从无到有”的生成。它的发展意义在于彻底改变了生成式AI的格局解决了GAN的痛点训练稳定不会出现模式崩溃能生成更多样、更逼真的样本降低了生成模型的门槛通过潜空间扩散等优化让普通设备也能运行推动了AIGC的普及可扩展性极强从图像到音频、视频、3D甚至科学研究几乎覆盖了所有生成类场景逻辑优雅易懂核心就是“加噪-去噪”比起GAN的“对抗博弈”更容易理解和优化。短短十余年DDPM完成了从“实验室理论”到“改变世界”的跨越。它不只是一门技术更像是一种“用简单逻辑解决复杂问题”的思路——把复杂的生成过程拆解开用“逐步优化”的方式实现了“从噪声到万物”的奇迹也书写了一段属于生成式AI的进化史诗。七、未来展望DDPM的下一站会是Flow Match吗回顾DDPM的发展史每一次突破都源于对“更优、更实用”的追求而未来DDPM的技术体系还会继续进化主要集中在三个方向一是更高效实现“实时生成”进一步降低设备门槛让更多人能用上二是更可控实现更精细的生成控制满足工业化应用的需求三是更通用构建统一的多模态扩散框架实现文本、图像、音频、视频的一体化生成打破领域边界。随着技术的不断迭代DDPM会继续渗透到更多领域不仅能改变内容创作的方式还能助力科学研究、工业设计、医疗健康等行业的创新让“AI生成”真正融入我们生活的方方面面。值得一提的是近年来兴起的Flow Match流匹配模型并不属于DDPM本身而是DDPM所属的扩散模型体系的重要延伸与优化方向——它以“导航式生成”为核心把去噪过程转化成速度向量预测不用复杂的多步迭代就能把采样步数压缩到1-4步大幅提升生成效率还不损失质量算是DDPM技术体系向“实时化、轻量化”进化的重要探索也为后续扩散模型的落地应用开辟了新路径。补充说明Flow Match与DDPM的核心关联其实是“共享扩散生成的底层逻辑”两者都围绕“从噪声到真实数据的转化”展开但DDPM以“逐步去噪、预测噪声”为核心而Flow Match则通过直接预测速度向量简化生成过程算是对DDPM高效化方向的进一步突破并不是DDPM的分支或改进版本也为DDPM的未来发展提供了新的思路。参考文献Sohl-Dickstein J, Weiss E, Maheswaranathan N, et al. Deep Unsupervised Learning using Nonequilibrium Thermodynamics[C]//International Conference on Machine Learning. PMLR, 2015: 2256-2265.扩散模型雏形首次提出“加噪-去噪”核心逻辑为DDPM奠定思想基础Ho J, Jain A, Abbeel P. Denoising Diffusion Probabilistic Models[J]. arXiv preprint arXiv:2006.11239, 2020.DDPM奠基性论文系统化扩散概率模型框架标志DDPM正式诞生Song J, Meng C, Ermon S. Denoising Diffusion Implicit Models[J]. arXiv preprint arXiv:2010.02502, 2021.DDIM提出解决DDPM采样速度慢的核心痛点推动其工程化Nichol A, Dhariwal P. Improved Denoising Diffusion Probabilistic Models[J]. arXiv preprint arXiv:2102.09672, 2021.IDDPM优化DDPM训练稳定性与生成质量完善技术体系Rombach R, Blattmann A, Lorenz D, et al. High-Resolution Image Synthesis with Latent Diffusion Models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.LDM提出为Stable Diffusion奠定基础推动DDPM落地普及Lipman Y, Havasi M, Holderrieth P, et al. Flow Matching Guide and Code[J]. arXiv preprint arXiv:2412.06264, 2024.Flow Match核心文献拓展扩散模型高效化路径为DDPM未来发展提供思路Luo C. Understanding Diffusion Models: A Unified Perspective[J]. arXiv preprint arXiv:2208.11970, 2022.扩散模型统一视角综述助力理解DDPM核心原理与发展脉络编辑于腾凯校对林亦霖欢迎在评论区留言与本文作者互动交流作者简介贾恩东9字清华本科后于国科大就读博士现为中国软件博士后。主要研究方向传统机器学习传统数字图像处理深度学习与目标检测少样本学习自监督学习等。数据派研究部介绍数据派研究部成立于2017年初以兴趣为核心划分多个组别各组既遵循研究部整体的知识分享和实践项目规划又各具特色算法模型组积极组队参加kaggle等比赛原创手把手教系列文章调研分析组通过专访等方式调研大数据的应用探索数据产品之美系统平台组追踪大数据人工智能系统平台技术前沿对话专家自然语言处理组重于实践积极参加比赛及策划各类文本分析项目制造业大数据组秉工业强国之梦产学研政结合挖掘数据价值数据可视化组将信息与艺术融合探索数据之美学用可视化讲故事网络爬虫组爬取网络信息配合其他各组开发创意项目。点击文末“阅读原文”报名数据派研究部志愿者总有一组适合你~转载须知如需转载请在开篇显著位置注明作者和出处转自数据派THUIDDatapiTHU并在文章结尾放置数据派醒目二维码。有原创标识文章请发送【文章名称-待授权公众号名称及ID】至联系邮箱申请白名单授权并按要求编辑。未经许可的转载以及改编者我们将依法追究其法律责任。关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU点击“阅读原文”加入组织~

更多文章