当前位置:首页 > 内容聚合

参数小,性能强 !开源多模态模子—TinyGPT 鉴于ViT的参数小EVA模子

TinyGPT-V主要架构

TinyGPT-V主要由大语言模子Phi-2  、参数小视觉编码器和线性投影层三大块组成 。强开

参数小,性能强!开源多模态模子—TinyGPT 鉴于ViT的参数小EVA模子

开辟职员选择了微软最新开源的源多Phi-2,作为TinyGPT-V的模态模前提大语言模子。Phi-2只有27亿参数,参数小但明白和推理威力异常强 ,强开在多项庞杂基准尝试中展现出与大130亿参数模子亲近也许突出的源多效验 。

视觉编码器选择了与MiniGPT-v2相同的模态模架构  ,鉴于ViT的参数小EVA模子 。这是强开一个预训练好的视觉前提模子,在整体TinyGPT-V的源多训练流程中依旧解冻状态。

线性投影层的模态模作用则是 ,将视觉编码器提取的参数小图像特征嵌入到大语言模子中 ,使大语言模子能够明白图像信息。强开

TinyGPT-V中的源多第一层线性投影层选择了来自BLIP-2的Q-Former组织,这样能够最大水准复用BLIP-2的预训练效果。

第二层线性投影层用新的高斯疏散初始化 ,手段是填充前一层输入和语言模子嵌入层之间的维度差异 。

TinyGPT-V训练流程

TinyGPT-V的训练通过了四个阶段 ,每一个阶段所运用的数据集及试验流程各不相同 。

第一阶段是热身训练 ,手段是使Phi-2模子顺应图像形式的输入。这个阶段运用的训练数据蕴涵Conceptual Caption、SBU和LAION三个数据集,算计约500万幅图像和对应的日本租房形容文本。

第二阶段停止预训练 ,手段是进一步增加图像文本对上的损失。这个阶段异样运用第一阶段的Conceptual Caption  、SBU和LAION数据集。试验树立了4个阶段 ,每一个阶段有5000个迭代。

第三阶段停止指令调优,运用MiniGPT-4和LLaVA的一些带指令的图像文本对停止模子训练  ,如“形容这张图片的实质” 。

第四阶段停止多恣意调优。这一阶段运用了越发庞杂和雄厚的多模态数据集,如LLaVA中庞杂语义对齐的句子 、Flickr30K中的物体剖析数据集 、多恣意融合语料 、纯文本语料等。

同时选择了与第二阶段相似的学习率政策,最终使得损失从2.720下落到了1.399。

为了尝试TinyGPT-V的性能 ,钻研职员从多个角度评价了在视觉问答 、视空间推理、图片字幕天生等多个视觉语言恣意上的展现 。

效果显现 ,TinyGPT-V的参数很小,性能却异常懀呛,譬如 ,在VSR空间推理恣意上 ,以53.2%的准确率,突出整个介入尝试的模子。

本文素材泉源TinyGPT-V论文 ,若有侵权请通联省略

分享到: