当前位置:首页 > 今日话题

智源钻研院开源代码天生训练数据集与评测基准TACO 与以后主流代码评测基准相比

12月25日 音讯:TACO 是智源钻研一个专注于算法的代码天生数据集,旨在为代码天生模子提供更具应战性的院开源代训练数据集和评测基准 。

与以后主流代码评测基准相比 ,码天TACO 在数据领域 、生训十五冶招聘赴刚果金出国劳务数据质量和细粒度评测计划上拥有显著优势 。练数它席卷更大领域的据集基准澳大利亚正规出国劳务训练集和尝试集 ,每一个问题都具有千般化的评测解题谜底,并提供了细粒度的智源钻研标签,如恣意主题 、院开源代算法、码天编程妙技和难度品级  。生训

智源钻研院开源代码天生训练数据集与评测基准TACO 与以后主流代码评测基准相比

试验效果注解  ,练数以后盛行的据集基准澳大利亚现在出国劳务多少费用代码天生模子在 TACO 评测中与 GPT-4生存昭著悬殊 ,注明这一畛域仍有重大的评测提升空间。

TACO 数据集不只提供了一个应战性的智源钻研尝试要领,还能作为钻研和矫正模子性能的www.hijob.jp日本招聘网站训练数据。通过社区的一同致力,能够引发更多立异的解决计划,进一步推进代码天生畛域的生长 。

详细特征以下 :

  • 领域更大:TACO 席卷训练集(25443道问题)和尝试集(1000道问题)  ,是以后领域最大的代码天生数据集。

  • 质量更高:TACO 数据集中的每一个问题都尽能够受室千般化的解题谜底 ,谜底领域高达155万条  ,确保训练时模子阻挡易过拟合以及评测效果的有用性  。

  • 提供细粒度标签:TACO数据集中每一个问题均蕴涵恣意主题 、算法 、妙技及难度等细粒度标签,为代码天生模子的训练与评测更准确的参照 。

TACO 开源所在:

  • 论文:https://arxiv.org/abs/2312.14852

  • 智源绽放数据堆栈:https://data.baai.ac.cn/details/BAAI-TACO

  • GitHub:https://github.com/FlagOpen/TACO

  • Hugging Face:https://huggingface.co/datasets/BAAI/TACO

新颖AI产物点击知道:https://top.aibase.com/

日本租房

分享到: