当前位置:首页 > 今日话题

MIT等机构推出数据溯源平台 解决AI领域的数据透明危机 这些数据集已被下载数千万次

🔍 划重点:

1. 研究人员联合MIT 、等的数Cohere for AI等机构发布了Data Provenance Platform,机构解决据透机旨在解决AI领域的推出数据透明危机。

MIT等机构推出数据溯源平台 解决AI领域的数据透明危机 这些数据集已被下载数千万次

2. 他们对近2 ,数据溯源000个广泛使用的平台微调数据集进行了审计和追踪 ,这些数据集已被下载数千万次,领域哪里有出国劳务信息是明危许多自然语言处理(NLP)突破的基础。

3. 报告指出,等的数数据集的机构解决据透机溯源和透明度问题可能导致数据泄漏、暴露个人身份信息 、推出出现意外偏见或行为,数据溯源从而降低了模型的平台质量 ,同时也带来了法律和伦理风险 。领域

10月26日 消息:研究人员来自麻省理工学院(MIT) 、明危Cohere for AI以及其他11个机构 ,等的数加拿大华人网招工信息他们共同发布了Data Provenance Platform,旨在应对AI领域的数据透明危机  。这一平台的推出旨在解决AI模型训练数据集的来源和使用透明度不足的问题 ,这是当前AI领域亟待解决的挑战之一。

图源备注:图片由AI生成 ,图片授权服务商Midjourney

这个跨机构合作的倡议审计和追踪了近2 ,000个广泛使用的加拿大招聘网最新招聘微调数据集。这些数据集被下载了数千万次  ,被认为是许多自然语言处理(NLP)领域突破的基础。这一举措的发起者包括MIT Media Lab的博士候选人Shayne Longpre和Cohere for AI的负责人Sara Hooker 。

这个跨学科倡议的结果是迄今为止规模最大的AI数据集审计。日本企业直聘这些数据集首次包含了标签,用于指示原始数据来源、多次重新授权 、创建者和其他数据属性 。为了使这些信息实际可操作并易于获取,他们还开发了一个名为"Data Provenance Explorer"的互动平台,允许开发人员根据法律和伦理考虑来跟踪和筛选成千上万个数据集 ,同时也让学者和记者探索流行AI数据集的组成和数据渊源。

与此同时 ,他们还发布了一份名为"The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI"(数据来源倡议:人工智能中数据集许可和归属的大规模审计)的研究报告。报告指出 ,越来越多的广泛使用的数据集被视为单一整体,而不是一系列数据来源 ,这些数据经过多次包装和重新授权。这种处理方式的缺点在于 ,它们通常不充分注明数据来源和版权信息 ,这导致了对训练数据的理解不足。这一不足可能导致训练数据和测试数据之间的数据泄漏,暴露个人身份信息,导致意外的偏见或行为,最终降低了模型的质量。此外,这也带来了伦理和法律风险 ,例如 ,模型发布与数据使用条款可能相互抵触。这些挑战都不容易解决 ,因为在数据上训练模型既昂贵又基本不可逆转 。

Data Provenance Platform的推出有望改善AI领域的数据透明度 ,提高数据集的质量和伦理合规性  ,从而推动AI技术的可持续发展  。这一举措也将有助于减少AI模型中的潜在问题,如偏见、数据泄漏和法律风险 ,日本找活为AI技术的广泛应用提供更可靠的基础。

分享到: