当前位置:首页 > 今日话题

蚂蚁团体宣布DevOps畛域大模子评测基准DevOps DevOps-Eval 将延续优化

11月2日 音讯:蚂蚁团体团结北京大学宣布了面向 DevOps 畛域的蚂蚁大语言模子评测基准 ——DevOps-Eval。

该评测基准蕴涵了意图、团体编码、宣布建立  、畛域尝试 、大模宣布、评测部署、基准运维和监控等8个种其余选择题 ,蚂蚁总计4850道问题 。团体

蚂蚁团体宣布DevOps畛域大模子评测基准DevOps DevOps-Eval 将延续优化

另外 ,宣布还针对 AIOps 恣意做了细分,畛域并增加了日志剖析、大模时序异样检测 、评测时序分类和根因综合等恣意。基准

暂时,日本就业蚂蚁DevOps-Eval已宣布了第一期的评测榜单,评测了 OpsGpt、Qwen、Baichuan 和 Internlm 等开源大语言模子 。DevOps-Eval 的评测形式席卷 Zero-shot 和 Few-shot ,评测效果显现各模子得分相差不大。

未来,DevOps-Eval 将延续优化 ,雄厚评测数据集,重心体贴 AIOps 畛域,并增长更多的评测模子。

GitHub 所在:

https://github.com/codefuse-ai/codefuse-devops-eval

HuggingFace 所在:

https://huggingface.co/datasets/codefuse-admin/devopseval-exam

www.hijob.jp日本招聘网站

分享到: