当前位置:首页 > 今日话题

智谱开源新一代多模态大模子CogVLM2 昭著提升了推理作用

()5月21日 音讯:智谱·AI最近宣告推出新一代多模态大模子CogVLM2 ,智谱该模子在症结性能宗旨上相较于前一代CogVLM有了昭著提升 ,开源同时支援8K文本长度和高达1344*1344区分率的新代图像。CogVLM2在OCRbench基准上性能提升了32%,多模出国劳务律师咨询电话在TextVQA基准上性能提升了21.9%,智谱显现出壮大的开源加拿大招聘网最新招聘文档图像明白威力。纵使CogVLM2的新代模子巨细为19B,但其性能亲近或突出了GPT-4V的多模水准 。

智谱开源新一代多模态大模子CogVLM2 昭著提升了推理作用

CogVLM2的智谱手艺架构在上一代模子的前提长停止了优化 ,席卷一个50亿参数的开源视觉编码器和一个70亿参数的视觉专家模块  ,这些模块通过特殊的新代参数树立 ,周密地建模了视觉与语言序列的多模交互 。这种深度融会政策使得视觉模态与语言模态能够越发严密地联合,智谱加拿大雇主担保工签同时依旧了模子在语言解决上的开源优势。www.hijob.jp日本招聘网站另外,新代CogVLM2在推理时现实激活的参数目仅约120亿,这受益于其悉心设想的多专家模块组织 ,昭著提升了推理作用。

在模子效验方面 ,CogVLM2在多个多模态基准尝试中赢患有优异的问题,席卷TextVQA、DocVQA 、ChartQA 、OCRbench 、MMMU  、MMVet和MMBench等 。这些尝试涵盖了从文本和图像明白到庞杂推理和跨学科恣意的普遍威力 。CogVLM2的两个模子在多个基准中赢患有最早进的性能 ,同时在其余性能上也能抵达与闭源模子相近的水准 。

代码堆栈:

Github:https://github.com/THUDM/CogVLM2

模子下载:

Huggingface:huggingface.co/THUDM

魔搭社区:modelscope.cn/models/ZhipuAI

始智社区:wisemodel.cn/models/ZhipuAI

Demo体验:

https://modelscope.cn/studios/ZhipuAI/Cogvlm2-llama3-chinese-chat-Demo/summary

CogVLM2手艺文档:

https://zhipu-ai.feishu.cn/wiki/OQJ9wk5dYiqk93kp3SKcBGDPnGf

分享到: