当前位置:首页 > 今日头条

解读OpenAI最强文生图模型—DALL·E 3 为后续生成图像提供强力支持

图像描述生成模块

该模块使用了CLIP(Contrastive Language-Image Pretraining)图像编码器和GPT语言模型(GPT-4) ,解读可为每张图像生成细致的最强文字描述。

解读OpenAI最强文生图模型—DALL·E 3 为后续生成图像提供强力支持

研究人员通过构建小规模主体描述数据集 、文生大规模详细描述数据集以及设置生成规则等方法 ,图模使模块输出的解读图像描述信息量大幅提升,为后续生成图像提供强力支持 。最强出国劳务信息流主要各个模块功能如下:

1)CLIP图像编码器

CLIP是文生一个训练好的图像文本匹配模型,可以将一张图像编码成一个固定长度的图模向量 ,包含了图像的解读语义信息 。DALL-E3利用CLIP的最强图像编码器 ,将训练图像编码为图像特征向量,文生作为条件文本生成的图模一部分输入 。

2)GPT语言模型

DALL-E3基于GPT架构建立语言模型,解读通过最大化随机抽取文本序列的最强联合概率,学习生成连贯的文生文字描述。

3)条件文本生成

将上述两者结合 ,图像特征向量与之前的单词序列一同输入到GPT语言模型中 ,就可以实现对图像的条件文本生成 。通过训练,该模块学会为每张图像生成细致Descriptive的描述 。

4)优化训练

尽管DALL-E3的韩国出国劳务费用一览表基础架构已经完成了 ,但直接训练的结果还不够理想 ,无法生成细节丰富的描述。所以 ,研究人员进行了以下技术优化:

  • 构建小规模数据集,专门收集主体物详细描述 ,微调语言模型 ,倾向于描述图像主体  。

  • 构建大规模详细描述数据集,描述主体 、背景、日本出国劳务费用一览表颜色、文本等各个方面,通过微调进一步提升描述质量 。

  • 设置生成描述的日本劳务长度、样式等规则,防止语言模型偏离人类风格。

图像生成模块

该模块先用VAE将高分辨率图像压缩为低维向量 ,降低学习难度。然后,使用T5Transformer将文本编码为向量,并通过GroupNorm层将其注入diffusion模型 ,指导图像生成方向 。

研究人员认为,额外加入的Diffusion模型显著增强了图片细节生成的效果 。具体流程如下:

1)图像压缩

将高分辨率图像先通过VAE模型压缩为低维向量,以降低图像生成的难度 。DALL-E3采用8倍下采样 ,256px图像压缩为32x32大小的latent向量 。

2)文本编码器

使用T5Transformer等网络将文本提示编码为向量 ,以便注入到图像生成模型中 。

3)Latent Diffusion

这是图像生成的核心技术 ,将图像生成问题分解为多次对噪声向量的小规模扰动,逐步邻近目标图像。关键是设计恰当的前向过程和反向过程。

4)文本注入

将编码好的文本向量 ,通过GroupNorm层注入到Latent Diffusion模型中 ,指导每轮迭代的图像生成方向 。

5)优化训练

研究人员发现 ,在压缩image latent空间上再训练一个Diffusion模型 ,可以进一步提升细节生成质量。这也是DALL-E3比前两代生成的图片质量更好的原因之一  。

CLIP评估数据

研究人员首先利用CLIP模型计算DALL-E3生成图片与原描述文本的相似度,即CLIP得分 。他们随机抽取了MSCOCO数据集中4096条图像描述作为提示文本 ,分别让DALL-E2 、DALL-E3和Stable Diffusion XL生成对应图片 ,然后计算三者的平均CLIP得分。日本求人

结果显示,DALL-E3的CLIP得分达到32.0  ,优于DALL-E2的31.4和Stable Diffusion XL的30.5。

这表明DALL-E3生成的图片与原始描述文本的契合度更高 ,文本指导图像生成的效果更好 。

Drawbench评估数据

在Drawbench数据集上比较了各模型的表现。该数据集包含许多脆弱的文本提示,考验模型对提示的理解力 。

研究人员使用GPT-V这个配备视觉能力的语言模型来自动判断生成图片的正确性 。

在短文本提示的子测试中,DALL-E3正确生成图像的比例达到70.4%,显著超过DALL-E2的49%和Stable Diffusion XL的46.9%  。

在长文本提示上 ,DALL-E3的正确率也达到81%,继续领先其他模型。

T2I-CompBench评估

通过T2I-CompBench中的相关子测试,考察模型对组合类提示的处理能力。在颜色绑定、形状绑定和质感绑定三项测试中,DALL-E3的正确绑定比例均高居各模型之首,充分展现了其理解组合提示的强大能力。

人工评估

研究人员还邀请了人工在遵循提示、风格连贯性等方面对生成样本进行判断 。在170条提示的评估中,DALL-E3明显优于Midjourney和Stable Diffusion XL 。

分享到: