当前位置：首页 > 今日话题

蚂蚁团体宣布DevOps畛域大模子评测基准DevOps DevOps-Eval 将延续优化

11月2日音讯:蚂蚁团体团结北京大学宣布了面向 DevOps 畛域的蚂蚁大语言模子评测基准 ——DevOps-Eval。

该评测基准蕴涵了意图、团体编码、宣布建立、畛域尝试、大模宣布、评测部署、基准运维和监控等8个种其余选择题，蚂蚁总计4850道问题。团体

另外，宣布还针对 AIOps 恣意做了细分，畛域并增加了日志剖析、大模时序异样检测、评测时序分类和根因综合等恣意。基准

暂时，日本就业蚂蚁DevOps-Eval已宣布了第一期的评测榜单，评测了 OpsGpt、Qwen、Baichuan 和 Internlm 等开源大语言模子。DevOps-Eval 的评测形式席卷 Zero-shot 和 Few-shot ，评测效果显现各模子得分相差不大。

未来，DevOps-Eval 将延续优化，雄厚评测数据集，重心体贴 AIOps 畛域，并增长更多的评测模子。

GitHub 所在:

https://github.com/codefuse-ai/codefuse-devops-eval

HuggingFace 所在:

https://huggingface.co/datasets/codefuse-admin/devopseval-exam

相关推荐