11月2日 音讯:蚂蚁团体团结北京大学宣布了面向 DevOps 畛域的蚂蚁大语言模子评测基准 ——DevOps-Eval。 该评测基准蕴涵了意图、团体编码 、宣布建立
、畛域尝试
、大模宣布、评测部署、基准运维和监控等8个种其余选择题 ,蚂蚁总计4850道问题
。团体 另外
,宣布还针对 AIOps 恣意做了细分,畛域并增加了日志剖析、大模时序异样检测
、评测时序分类和根因综合等恣意。基准 暂时,日本就业蚂蚁DevOps-Eval已宣布了第一期的评测榜单,评测了 OpsGpt、Qwen、Baichuan 和 Internlm 等开源大语言模子 。DevOps-Eval 的评测形式席卷 Zero-shot 和 Few-shot ,评测效果显现各模子得分相差不大。 未来,DevOps-Eval 将延续优化,雄厚评测数据集,重心体贴 AIOps 畛域,并增长更多的评测模子。 GitHub 所在: https://github.com/codefuse-ai/codefuse-devops-eval HuggingFace 所在: https://huggingface.co/datasets/codefuse-admin/devopseval-exam