**划重心:** - 💡 Vista-LLaMA是字一种专为视频实质明白而设想的多模态大语言模子 ,能够输入高质量视频形容
。节浙江大结推 - 🔬 通过立异的学团视觉与语言token解决形式,Vista-LLaMA解决了在视频实质中涌现“幻觉”征象的多模问题。 - 🚀 改善的字注重力体制和序列化视觉投影器提升了模子对视频实质的深度明白和时序逻辑掌握。 ()1月8日 音讯:在做作语言解决畛域
,节浙江大结推庞大语言模子如GPT、学团GLM和LLaMA等的多模顺利运用已经赢患有昭著的希望 。然则
,字将这些手艺扩张到视频实质明白畛域则是节浙江大结推一项崭新的应战
。字节跳动与浙江大学协作推出的学团Vista-LLaMA多模态大语言模子旨在解决这一问题,完成对视频的多模深度明白和准确形容 。 手艺立异途径: 在解决视频实质时,字泄露模子生存一个问题,节浙江大结推随着天生文本长度的学团增长
,视频实质的作用逐渐削弱 ,孕育发生了“幻觉”征象。为解决这一问题,Vista-LLaMA通过特殊的视觉与语言token解决形式,支柱视觉和语言token之间的均等距离 ,日本工作制止了文本天生中的误差 。该模子还选择改善的注重力体制和序列化视觉投影器,提升了模子对视频实质的深度明白和时序逻辑掌握。 基准尝试效果: Vista-LLaMA在多个绽放式视频问答基准尝试中展现卓著,尤为在NExT-QA和MSRVTT-QA尝试中赢患有突破性问题。其在零样本NExT-QA尝试中完成了60.7%的准确率,在MSRVTT-QA尝试中抵达了60.5%的准确率 ,突出了暂时整个的SOTA要领 。这些效果注清楚明晰Vista-LLaMA在视频实质明白和形容天生方面的高效性和准确性
。 CineClipQA新数据集: Vista-LLaMA的提出随同着CineClipQA新数据集的宣布
,该数据集蕴涵了来自五部影戏的153个视频片断,每一个片断附有16个定制问题,总计2448个问题。这一数据集为多模态语言模子的生长提供了更雄厚的训练和尝试资源 。 Vista-LLaMA的涌现为视频实质明白和天生畛域带来了新的解决框架,推进了野生智能在视频解决和实质创作方面的生长。其在长视频实质方面的昭著优势为未来多模态交互和自动化实质天生畛域提供了普遍的时机。 项目体验网址入口 :https://top.aibase.com/tool/vista-llama