()5月21日 音讯:智谱·AI最近宣告推出新一代多模态大模子CogVLM2,智谱该模子在症结性能宗旨上相较于前一代CogVLM有了昭著提升,开源同时支援8K文本长度和高达1344*1344区分率的新代图像
。CogVLM2在OCRbench基准上性能提升了32% ,多模最适合华人移民的国家排名裴济移民在TextVQA基准上性能提升了21.9%,智谱显现出壮大的开源发布出国劳务信息文档图像明白威力。纵使CogVLM2的新代模子巨细为19B ,但其性能亲近或突出了GPT-4V的多模水准 。 CogVLM2的智谱手艺架构在上一代模子的前提长停止了优化,席卷一个50亿参数的开源视觉编码器和一个70亿参数的视觉专家模块
,这些模块通过特殊的新代参数树立,周密地建模了视觉与语言序列的多模交互。这种深度融会政策使得视觉模态与语言模态能够越发严密地联合 ,智谱最新的出国劳务信息同时依旧了模子在语言解决上的日本招聘开源优势。另外,新代CogVLM2在推理时现实激活的参数目仅约120亿,这受益于其悉心设想的多专家模块组织,昭著提升了推理作用。 在模子效验方面
,CogVLM2在多个多模态基准尝试中赢患有优异的问题 ,席卷TextVQA、DocVQA
、ChartQA、OCRbench、MMMU、MMVet和MMBench等。这些尝试涵盖了从文本和图像明白到庞杂推理和跨学科恣意的普遍威力。CogVLM2的两个模子在多个基准中赢患有最早进的性能,同时在其余性能上也能抵达与闭源模子相近的水准。 代码堆栈: Github:https://github.com/THUDM/CogVLM2 模子下载: Huggingface:huggingface.co/THUDM 魔搭社区:modelscope.cn/models/ZhipuAI 始智社区:wisemodel.cn/models/ZhipuAI Demo体验: https://modelscope.cn/studios/ZhipuAI/Cogvlm2-llama3-chinese-chat-Demo/summary CogVLM2手艺文档: https://zhipu-ai.feishu.cn/wiki/OQJ9wk5dYiqk93kp3SKcBGDPnGf