国家数据局:高质量数据集六大专项行动实施方案(征求意见稿)

AI视界 |  2026-04-17 10:50:21

微信扫码扫码下载客户端

4月15日,国家数据局官网发布了《关于推进行业高质量数据集建设行动的实施方案(征求意见稿)》(以下简称《方案》),《方案》提到行业高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,并能有效提升模型、智能体、智能终端等应用效能的行业数据的集合,包含行业通识和行业专识数据集,并明确行业高质“人工智能+”赋能千行百业、实现产业落地的基础性、关键性资源。

《方案》提出到2028年底:

■ 建成一批覆盖重点领域、经过应用验证的行业高质量数据集, 

 ■ 打造一批数据驱动人工智能创新发展的典型应用场景, 

 ■ 培育一批具备领先优势的创新型数据企业和专业人才,

 ■ 形成一批行业高质量数据集建设标准和工具。数据从供给到价值释放的良性循环基本形成,数据赋能人工智能创新发展的作用更加凸显,数据产业与人工智能深度融合,持续催生智能经济新增长点。

部署六大专项行动

(一)强基扩容行动

《方案》提出聚焦科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生、教育教学、电子商务、人力资源、文化旅游、应急管理、气象服务、绿色低碳、公共安全、城市治理、住房建设、自然资源等重点领域,以及低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域,加快推进行业高质量数据集建设。

面向人工智能预训练、指令微调、强化学习、测评等各阶段,持续推进文本、代码、图像、音频、视频、点云、时序数据、科学数据等多模态高质量数据集建设。

面向智能体等新型智能应用形态,加强知识库、知识图谱、本体等数据集建设,加快复杂任务规划、长程推理、人机交互、决策执行等数据集建设。

面向具身智能发展需求,加快重点场景物理交互、环境感知、运动控制等真机交互数据集建设,积极应用仿真模拟与合成技术扩大数据供给。积极布局世界模型等前沿方向数据集建设。

强化与数据基础设施建设有机联动上,鼓励探索建设支撑大规模、多模态数据集的数据基础设施存力中心。

(二)标注攻坚行动

《方案》提出发展“模型预标注+人工校准”、“人工标注+模型检验”、“模型预标注+模型检验”等智能化标注服务,全面提升数据标注水平。

面向创新能力强、发展基础好、产业特色优的地区,梯次布局一批数据标注创新试验区。

支持有条件的院校增设数据标注相关课程,依托产教融合、校企协同等方式,培育具备专业知识的数据标注人才。

鼓励高校毕业生等群体参与标注工作,通过灵活就业、项目协作、多元岗位供给等,扩展就业渠道。

(三)提质增效行动

《方案》提出推动构建符合结构完整性、内容多样性、标注准确性、模型适配性等质量标准、满足人工智能就绪(AI-Ready)的高质量数据集,降低训练推理成本,有效提升模型性能。

加快推进高质量数据集格式、类型、标注、质量测评等相关国家标准研制,健全高质量数据集标准体系。

(四)应用赋能行动

打造“数据飞轮”应用闭环。以模型应用牵引数据供给、以数据驱动模型迭代,打造“场景—数据—模型”协同发展的良性循环。

着力打造集“数据集生产加工和流通利用、支撑模型训练应用”于一体的数据赋能工场,打造一批行业标杆,打造一批“数据×智能体”示范工程,树立高质量数据集成功驱动智能体解决实际问题的样板。

组织遴选行业高质量数据集建设和应用典型案例。鼓励行业高质量数据集建设主体积极参与全球数据生态建设。

(五)管理服务行动

《方案》提出构建数据集全生命周期的管理体系。探索面向人工智能发展的数据权益相关制度。

探索面向人工智能发展的数据权益相关制度,按照数据持有权、使用权、经营权三权分置原则,明确数据集产权配置方案。

(六)价值释放行动

《方案》提出发挥数据集的应用价值,以行业高质量数据集赋能人工智能发展。释放数据集的要素价值,推动数据集商业化、资产化,培育为数据付费的市场共识,探索以词元(Token)为基础的价值体系。

鼓励"以数换数"、"数模互换"、"数据托管"、"数算一体"等应用模式。将基础性、公益性数据集作为公共产品向社会公开。发展"订阅模式"、"商场模式"、"定制模式"等多元服务形态。

探索行业高质量数据集资产化创新路径,鼓励有条件的单位率先探索开展数据集资产盘点、登记、评估等试点工作,为数据资产化积累可复制、可推广的经验。鼓励探索数据集质押融资、作价入股、资产证券化、数据信托、数据保险等多元化资产化创新模式,拓宽数据价值转化渠道。

推动数据采买纳入预算编制,率先开展数据采购实践,带动形成数据有偿使用市场共识,构建健康可持续的数据市场生态。

责任编辑:赵夏晔