当前位置：首页 > 今日头条

解读OpenAI最强文生图模型—DALL·E 3 为后续生成图像提供强力支持

图像描述生成模块

该模块使用了CLIP（Contrastive Language-Image Pretraining）图像编码器和GPT语言模型(GPT-4) ，解读可为每张图像生成细致的最强文字描述。

研究人员通过构建小规模主体描述数据集、文生大规模详细描述数据集以及设置生成规则等方法，图模使模块输出的解读图像描述信息量大幅提升，为后续生成图像提供强力支持。最强出国劳务信息流主要各个模块功能如下:

1）CLIP图像编码器

CLIP是文生一个训练好的图像文本匹配模型，可以将一张图像编码成一个固定长度的图模向量，包含了图像的解读语义信息。DALL-E3利用CLIP的最强图像编码器，将训练图像编码为图像特征向量，文生作为条件文本生成的图模一部分输入。

2）GPT语言模型

DALL-E3基于GPT架构建立语言模型，解读通过最大化随机抽取文本序列的最强联合概率，学习生成连贯的文生文字描述。

3）条件文本生成

将上述两者结合，图像特征向量与之前的单词序列一同输入到GPT语言模型中，就可以实现对图像的条件文本生成。通过训练，该模块学会为每张图像生成细致Descriptive的描述。

4）优化训练

尽管DALL-E3的韩国出国劳务费用一览表基础架构已经完成了，但直接训练的结果还不够理想，无法生成细节丰富的描述。所以，研究人员进行了以下技术优化:

构建小规模数据集，专门收集主体物详细描述，微调语言模型，倾向于描述图像主体。
构建大规模详细描述数据集，描述主体、背景、日本出国劳务费用一览表颜色、文本等各个方面，通过微调进一步提升描述质量。
设置生成描述的日本劳务长度、样式等规则，防止语言模型偏离人类风格。

图像生成模块

该模块先用VAE将高分辨率图像压缩为低维向量，降低学习难度。然后，使用T5Transformer将文本编码为向量，并通过GroupNorm层将其注入diffusion模型，指导图像生成方向。

研究人员认为，额外加入的Diffusion模型显著增强了图片细节生成的效果。具体流程如下:

1）图像压缩

将高分辨率图像先通过VAE模型压缩为低维向量，以降低图像生成的难度。DALL-E3采用8倍下采样，256px图像压缩为32x32大小的latent向量。

2）文本编码器

使用T5Transformer等网络将文本提示编码为向量，以便注入到图像生成模型中。

3）Latent Diffusion

这是图像生成的核心技术，将图像生成问题分解为多次对噪声向量的小规模扰动，逐步邻近目标图像。关键是设计恰当的前向过程和反向过程。

4）文本注入

将编码好的文本向量，通过GroupNorm层注入到Latent Diffusion模型中，指导每轮迭代的图像生成方向。

5）优化训练

研究人员发现，在压缩image latent空间上再训练一个Diffusion模型，可以进一步提升细节生成质量。这也是DALL-E3比前两代生成的图片质量更好的原因之一。

CLIP评估数据

研究人员首先利用CLIP模型计算DALL-E3生成图片与原描述文本的相似度，即CLIP得分。他们随机抽取了MSCOCO数据集中4096条图像描述作为提示文本，分别让DALL-E2 、DALL-E3和Stable Diffusion XL生成对应图片，然后计算三者的平均CLIP得分。日本求人

结果显示，DALL-E3的CLIP得分达到32.0，优于DALL-E2的31.4和Stable Diffusion XL的30.5。

这表明DALL-E3生成的图片与原始描述文本的契合度更高，文本指导图像生成的效果更好。

Drawbench评估数据

在Drawbench数据集上比较了各模型的表现。该数据集包含许多脆弱的文本提示，考验模型对提示的理解力。

研究人员使用GPT-V这个配备视觉能力的语言模型来自动判断生成图片的正确性。

在短文本提示的子测试中，DALL-E3正确生成图像的比例达到70.4%，显著超过DALL-E2的49%和Stable Diffusion XL的46.9% 。

在长文本提示上，DALL-E3的正确率也达到81%，继续领先其他模型。

T2I-CompBench评估

通过T2I-CompBench中的相关子测试，考察模型对组合类提示的处理能力。在颜色绑定、形状绑定和质感绑定三项测试中，DALL-E3的正确绑定比例均高居各模型之首，充分展现了其理解组合提示的强大能力。

人工评估

研究人员还邀请了人工在遵循提示、风格连贯性等方面对生成样本进行判断。在170条提示的评估中，DALL-E3明显优于Midjourney和Stable Diffusion XL 。

上一篇
老人野钓被蜱虫叮咬进ICU
下一篇
美国科技巨子对AI装备停止巨额投资席卷亚马逊微软谷歌 -

解读OpenAI最强文生图模型—DALL·E 3 为后续生成图像提供强力支持

相关推荐

滁州4位全国劳动模范和先进工作者在京接受表彰_

在咱们村，能吃到正宗的西北亚美食

《灌篮能手》，坐在影戏院里就足量了

地铁被诬陷偷拍当事人再回应：仍要求公然致歉

钻研显现AI最先有自身的“品德准则” 但仍有少许异样言论 -

赵本山的徒弟们，一个能打的都没有？

解读OpenAI最强文生图模型—DALL·E 3 为后续生成图像提供强力支持

相关推荐

滁州4位全国劳动模范和先进工作者在京接受表彰_

在咱们村  ，能吃到正宗的西北亚美食

《灌篮能手》，坐在影戏院里就足量了

地铁被诬陷偷拍当事人再回应：仍要求公然致歉

钻研显现AI最先有自身的“品德准则” 但仍有少许异样言论 -

赵本山的徒弟们，一个能打的都没有 ？

在咱们村，能吃到正宗的西北亚美食

《灌篮能手》，坐在影戏院里就足量了

地铁被诬陷偷拍当事人再回应：仍要求公然致歉

赵本山的徒弟们，一个能打的都没有？