TinyGPT-V主要架构 TinyGPT-V主要由大语言模子Phi-2
、参数小视觉编码器和线性投影层三大块组成
。强开 开辟职员选择了微软最新开源的源多Phi-2,作为TinyGPT-V的模态模前提大语言模子。Phi-2只有27亿参数,参数小但明白和推理威力异常强,强开在多项庞杂基准尝试中展现出与大130亿参数模子亲近也许突出的源多效验。 视觉编码器选择了与MiniGPT-v2相同的模态模架构
,鉴于ViT的参数小EVA模子 。这是强开一个预训练好的视觉前提模子,在整体TinyGPT-V的源多训练流程中依旧解冻状态。 线性投影层的模态模作用则是,将视觉编码器提取的参数小图像特征嵌入到大语言模子中
,使大语言模子能够明白图像信息。强开 TinyGPT-V中的源多第一层线性投影层选择了来自BLIP-2的Q-Former组织,这样能够最大水准复用BLIP-2的预训练效果。 第二层线性投影层用新的高斯疏散初始化
,手段是填充前一层输入和语言模子嵌入层之间的维度差异。 TinyGPT-V训练流程 TinyGPT-V的训练通过了四个阶段
,每一个阶段所运用的数据集及试验流程各不相同。 第一阶段是热身训练,手段是使Phi-2模子顺应图像形式的输入。这个阶段运用的训练数据蕴涵Conceptual Caption、SBU和LAION三个数据集,算计约500万幅图像和对应的日本租房形容文本。 第二阶段停止预训练,手段是进一步增加图像文本对上的损失。这个阶段异样运用第一阶段的Conceptual Caption
、SBU和LAION数据集。试验树立了4个阶段
,每一个阶段有5000个迭代。 第三阶段停止指令调优,运用MiniGPT-4和LLaVA的一些带指令的图像文本对停止模子训练
,如“形容这张图片的实质”
。 第四阶段停止多恣意调优。这一阶段运用了越发庞杂和雄厚的多模态数据集,如LLaVA中庞杂语义对齐的句子、Flickr30K中的物体剖析数据集
、多恣意融合语料 、纯文本语料等 。 同时选择了与第二阶段相似的学习率政策,最终使得损失从2.720下落到了1.399。 为了尝试TinyGPT-V的性能 ,钻研职员从多个角度评价了在视觉问答
、视空间推理、图片字幕天生等多个视觉语言恣意上的展现 。 效果显现
,TinyGPT-V的参数很小,性能却异常懀呛,譬如,在VSR空间推理恣意上
,以53.2%的准确率,突出整个介入尝试的模子。 本文素材泉源TinyGPT-V论文
,若有侵权请通联省略