图像描述生成模块 该模块使用了CLIP(Contrastive Language-Image Pretraining)图像编码器和GPT语言模型(GPT-4)
,解读可为每张图像生成细致的最强文字描述。 研究人员通过构建小规模主体描述数据集 、文生大规模详细描述数据集以及设置生成规则等方法
,图模使模块输出的解读图像描述信息量大幅提升,为后续生成图像提供强力支持
。最强出国劳务信息流主要各个模块功能如下: 1)CLIP图像编码器 CLIP是文生一个训练好的图像文本匹配模型,可以将一张图像编码成一个固定长度的图模向量
,包含了图像的解读语义信息 。DALL-E3利用CLIP的最强图像编码器 ,将训练图像编码为图像特征向量,文生作为条件文本生成的图模一部分输入 。 2)GPT语言模型 DALL-E3基于GPT架构建立语言模型,解读通过最大化随机抽取文本序列的最强联合概率,学习生成连贯的文生文字描述。 3)条件文本生成 将上述两者结合
,图像特征向量与之前的单词序列一同输入到GPT语言模型中
,就可以实现对图像的条件文本生成
。通过训练,该模块学会为每张图像生成细致Descriptive的描述。 4)优化训练 尽管DALL-E3的韩国出国劳务费用一览表基础架构已经完成了 ,但直接训练的结果还不够理想,无法生成细节丰富的描述 。所以
,研究人员进行了以下技术优化: 构建小规模数据集,专门收集主体物详细描述,微调语言模型
,倾向于描述图像主体 。 构建大规模详细描述数据集,描述主体
、背景、日本出国劳务费用一览表颜色、文本等各个方面,通过微调进一步提升描述质量。 设置生成描述的日本劳务长度 、样式等规则,防止语言模型偏离人类风格。 图像生成模块 该模块先用VAE将高分辨率图像压缩为低维向量
,降低学习难度 。然后,使用T5Transformer将文本编码为向量,并通过GroupNorm层将其注入diffusion模型
,指导图像生成方向 。 研究人员认为,额外加入的Diffusion模型显著增强了图片细节生成的效果
。具体流程如下: 1)图像压缩 将高分辨率图像先通过VAE模型压缩为低维向量,以降低图像生成的难度 。DALL-E3采用8倍下采样 ,256px图像压缩为32x32大小的latent向量 。 2)文本编码器 使用T5Transformer等网络将文本提示编码为向量 ,以便注入到图像生成模型中
。 3)Latent Diffusion 这是图像生成的核心技术,将图像生成问题分解为多次对噪声向量的小规模扰动,逐步邻近目标图像。关键是设计恰当的前向过程和反向过程。 4)文本注入 将编码好的文本向量,通过GroupNorm层注入到Latent Diffusion模型中
,指导每轮迭代的图像生成方向
。 5)优化训练 研究人员发现
,在压缩image latent空间上再训练一个Diffusion模型,可以进一步提升细节生成质量。这也是DALL-E3比前两代生成的图片质量更好的原因之一
。 CLIP评估数据 研究人员首先利用CLIP模型计算DALL-E3生成图片与原描述文本的相似度,即CLIP得分
。他们随机抽取了MSCOCO数据集中4096条图像描述作为提示文本 ,分别让DALL-E2 、DALL-E3和Stable Diffusion XL生成对应图片 ,然后计算三者的平均CLIP得分 。日本求人 结果显示,DALL-E3的CLIP得分达到32.0,优于DALL-E2的31.4和Stable Diffusion XL的30.5。 这表明DALL-E3生成的图片与原始描述文本的契合度更高,文本指导图像生成的效果更好 。 Drawbench评估数据 在Drawbench数据集上比较了各模型的表现。该数据集包含许多脆弱的文本提示 ,考验模型对提示的理解力
。 研究人员使用GPT-V这个配备视觉能力的语言模型来自动判断生成图片的正确性。 在短文本提示的子测试中,DALL-E3正确生成图像的比例达到70.4%,显著超过DALL-E2的49%和Stable Diffusion XL的46.9%
。 在长文本提示上,DALL-E3的正确率也达到81%,继续领先其他模型。 T2I-CompBench评估 通过T2I-CompBench中的相关子测试,考察模型对组合类提示的处理能力。在颜色绑定、形状绑定和质感绑定三项测试中,DALL-E3的正确绑定比例均高居各模型之首,充分展现了其理解组合提示的强大能力。 人工评估 研究人员还邀请了人工在遵循提示、风格连贯性等方面对生成样本进行判断
。在170条提示的评估中,DALL-E3明显优于Midjourney和Stable Diffusion XL 。