当前位置:首页 > 内容聚合

智源钻研院开源宣布新一代天生式多模态前提模子 Emu2 12月22日 音讯:2023年12月21日

12月22日 音讯:2023年12月21日,智源钻研智源钻研院宣布了新一代多模态前提模子 Emu2。院开源宣Emu2通过大领域自前往天生式多模态预训练,布新昭著推进了多模态左右文学习威力的代天多模突破。

Emu2在少样本多模态明白恣意上展现卓越 ,生式逾越了主流多模态预训练大模子 Flamingo-80B 和 IDEFICS-80B。态前提模在 VQAv2 、智源钻研OKVQA 、院开源宣MSVD、布新MM-Vet   、代天多模TouchStone 等多个少样本明白 、生式视觉问答 、态前提模主体驱动图像天生恣意上 ,智源钻研Emu2赢患有最优性能  。院开源宣

智源钻研院开源宣布新一代天生式多模态前提模子 Emu2 12月22日 音讯:2023年12月21日

Emu2是布新暂时最大的开源天生式多模态模子,鉴于 Emu2微调的 Emu2-Chat 和 Emu2-Gen 模子离别是暂时开源的性能最强的视觉明白模子和威力最广的视觉天生模子 。Emu2-Chat 能够准确明白图文指令,完成更好的信息感知 、用意明白和决议意图计划。Emu2-Gen 能够批准图像 、文本  、位子交织的序列作为输入,完整天真、可控 、高质量的图像和视频天生 。

Emu2运用了更简朴的建模框架,并训练了从编码器语义空间重修图像的解码器 ,将模子领域化到37B 参数。日本打工Emu2选择少量图 、文 、视频的序列 ,竖立了鉴于一致自前往建模的多模态预训练框架 ,将图像 、视频等模态的 token 序列直接和文本 token 序列交织在一同输入到模子中训练  。

通过对多模态明白和天生威力的评测,Emu2在少样本明白、视觉问答、主体驱动图像天生等恣意上赢患有最优性能 。在16-shot TextVQA 等场景下 ,Emu2相较于 Flamingo-80B 突出12.7个点。在 DreamBench 主体驱动图像天生尝试上 ,Emu2比之前的要领赢患有昭著提升。

Emu2具有周全且壮大的多模态左右文学习威力 ,能够照猫画虎地终了多种明白和天生恣意。Emu2-Chat 通过对话数据指令微调 ,能够准确明白图文指令,终了多模态明白恣意 。Emu2-Gen 能够批准恣意 prompt 序列作为输入,天生高质量的图像和视频。

Emu2的训练要领是在多模态序列中停止天生式预训练 ,运用一致的自前往建模形式。相比于 Emu1,Emu2选择了更简朴的建模框架 ,训练了更好的解码器,并将模子领域化到37B 参数 。

  • 项目:https://baaivision.github.io/emu2/

  • 模子:https://huggingface.co/BAAI/Emu2

  • 代码:https://github.com/baaivision/Emu/Emu2

  • Demo:https://huggingface.co/spaces/BAAI/Emu2

  • 论文:https://arxiv.org/abs/2312.13286

日本求人

分享到: