其他
扩散模型与其在文本生成图像领域的应用
本文主要介绍扩散模型和其在文本生成图像任务上的应用,从扩散模型的理论知识开始,再到不同的指导技巧,最后介绍文本生成图像的应用,带读者初探扩散模型的究竟。如有遗漏或错误,欢迎大家指正。文章也同步发布在AI Box知乎专栏(知乎搜索 AI Box专栏),欢迎大家在知乎专栏的文章下方评论留言,交流探讨!
3. 应用
3.1 GLIDE OpenAI的GLIDE[6]将扩散模型和Classifier-Free Guidance进行结合去生成图像。同时文中比较了两种不同的引导策略:CLIP Guidance和Classifier-Free Guidance,然后发现Classifier-Free Guidance在照片写实等方面更受人类评估者的青睐,并且通常会产生很逼真的样本,并能实现图像编辑。其中,Classifier-Free Guidance中的条件是文本。
prior :在给定文本 条件下生成CLIP图像的编码,并且文中探索了两种实现方式:自回归和扩散,均使用classifier-free guidance,并且发现扩散模型的效果更好:注意此处目标和前面有所不同,prior直接去预测图像特征,而不是预测噪声 decoder :在图像编码(和可选的文本标题)条件下生成图像;使用扩散模型并利用classifier-free guidance和CLIP guidance在给定CLIP图像编码的情况下生成图像。为了生成高分辨率图像,训练了两个扩散上采样模型,分别用于将图像从64*64上采样到256*256、进一步上采样到1024*1024。将这两个部分叠加起来会得到一个生成模型 可以在给定标题 下生成 图像 : 。第一个等号是由于 和 是一对一的关系。所以DALL·E2可以先用prior采样出 ,然后用decoder得到 ;
3.3 Imagen
预训练文本编码器:语言模型是在文本语料库上训练的,该语料库比配对的图像-文本数据要大得多,因此可以接触到非常丰富和广泛的文本分布。文中使用Frozen Text Encoder进行文本的编码 扩散模型和classifier-free guidance:使用前面提到的classifier-free guidance,将文本编码作为条件,进行图像的生成。同样,后面也有两个扩散模型进行分辨率的提升,最终可以生成1024*1024分辨率的图像。文本到图像扩散模型使用改进的U-Net 架构,生成64*64 图像,后面两个扩散模型使用本文提出Efficient U-Net,可以更节省内存和时间。
参考
1. Denoising Diffusion Probabilistic Models
2. https://lilianweng.github.io/posts/2021-07-11-diffusion-models/
3. Diffusion Models Beat GANs on Image Synthesis
4. More Control for Free! Image Synthesis with Semantic Diffusion Guidance
5. Classifier-Free Diffusion Guidance
6. GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
7. Hierarchical Text-Conditional Image Generation with CLIP Latents
8. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
更多推荐