国家数据局刘烈宏：AI的下半场，拼的是"高质量数据集"

数据资产管理大讲堂 2026-06-08 17:54:03

当行业还在为谁能率先推出万亿参数大模型争得头破血流时，国家数据局局长刘烈宏在2026世界智能产业博览会上的发言，直接给这场持续三年的“参数军备竞赛”画上了句号。他明确指出，当前人工智能发展呈现鲜明的数据驱动特征，数据的规模、质量、结构深刻影响模型的智能水平和应用边界，高质量数据集已成为AI创新发展的核心瓶颈。他用精炼的比喻点明本质：“AI就像数据的精炼厂，竞争力从来不在于炉子多大，而在于矿石的品位有多高。”

当然，“大模型已死”是一种夸张的说法，基础大模型仍是AI的核心底座，但过去那种单纯比拼参数规模的“军备竞赛”已经走到了尽头。无数千亿级大模型落地即“翻车”的现实告诉我们：工业AI看不懂产线的细微故障，医疗AI分不清相似的影像病灶，商用大模型张口就是幻觉和错误信息——问题从来不出在“炉子”不够大，而出在我们往炉子里填的，大多是未经提炼的“劣质矿石”。

1.别再迷信“数据越多越好”：90%的大数据，都是“数据垃圾”

很多人对AI训练有个根深蒂固的误解：只要把整个互联网的数据扒下来喂给模型，就能训练出无所不能的通用人工智能。但事实恰恰相反，互联网上绝大多数公开数据，不仅不能提升模型能力，反而会成为拖累。

真正能支撑AI产生商业价值的高质量数据集，从来和“量”无关，只和“质”挂钩，它必须同时满足四个不可妥协的硬标准。

首先是干净。训练数据里的广告弹窗、乱码文本、重复内容、错误标签，就像矿石里的杂质，会直接污染模型的认知。一个残酷的数据是，如今训练一个千亿大模型，数据清洗和标注的成本已经超过了总成本的40%。也就是说，企业花出去的每一块钱，有近五毛是在给互联网垃圾“擦屁股”。

其次是合规。过去靠爬虫“白嫖”数据的野蛮时代，在2026年6月1日彻底终结。当天施行的《商业秘密保护规定》明确，非法获取数据属于侵犯商业秘密，最高可罚500万元。没有合法来源和用户授权的数据，哪怕再多，也只是随时可能引爆的法律炸弹。

再者是垂直细分。通用数据永远训练不出能解决实际问题的行业AI。石油化工领域的高质量数据集，包含13万册专业文献、200余万张工业场景图片、超500TB监控视频；具身智能机器人的数据集，不仅有画面，还完整记录了每个关节的电流、角度和力矩参数。这些深度行业数据，是互联网爬虫永远扒不到的核心资源。

最后是高标注。机器无法理解数据背后的逻辑，必须靠人工精准标注才能让模型“读懂”世界。一个医疗影像的精标样本成本可达上百元，一个工业故障的标注样本也需要几十元。这种高成本的精细化标注，正是区分“玩具AI”和“生产力AI”的关键。

用这四个标准去衡量，市面上绝大多数号称“海量”的数据集，本质上只是一堆毫无价值的“数据垃圾”。AI行业的第一个共识正在形成：1TB的高质量垂直数据，远胜于1PB的互联网杂烩。

2.6月1日新规：解开数据行业的“死亡死结”

为什么过去没人愿意做高质量数据集？不是技术做不到，而是经济账算不过来。

此前数据领域存在一个致命的悖论：一家企业投入几个亿、耗时几年打磨出的专属数据集，同行写一个爬虫就能在几天内全部偷走，还能堂而皇之地以“公开数据”为借口免责。投入和收益的严重不匹配，让所有企业都变成了“搭便车者”——没人愿意做第一个种树的人，都等着摘别人的果子。

整个行业陷入了“劣质数据训练劣质模型”的恶性循环，而6月1日落地的《商业秘密保护规定》，正是斩断这个死结的关键一刀。这部新规的核心意义，不在于提高了罚款金额，而在于第一次从法律层面，将数据确立为和秘方、专利同等地位的核心资产。

它带来的三个颠覆性变化，将彻底改写数据行业的游戏规则。

第一是保护范围全覆盖，不仅数据集本身，连数据清洗流程、标注规范、合成算法都纳入了商业秘密保护范畴，这意味着数据生产的全链条都受到法律保护；

第二是举证责任倒置，权利人只需证明“自身数据构成商业秘密+对方接触过该数据+双方信息实质相同”，举证责任就转移到涉嫌侵权人身上，由其证明数据的合法来源，极大降低了维权门槛；

第三是处罚力度空前，情节严重的侵权最高罚500万元，还可没收全部违法所得。

当偷数据的成本远高于做数据的成本，当企业的投入能得到法律的切实保护，市场的积极性才会被真正激活。这不是一部简单的监管法规，而是数据要素价值释放的“第一块基石”。

3.AI行业逻辑重构：数据才是未来的核心竞争力

政策的风向一变，市场的反应比任何人都快。国家数据局在实践中形成了两个核心导向：“人工智能发展到哪里，数据工作就跟进到哪里”“人工智能赋能行业发展到哪里，行业高质量数据集建设和服务就跟进到哪里”，这已成为行业广泛共识。

最直观的变化是企业的成本结构。2026年，在绝大多数企业级AI落地应用项目中，数据工程的成本占比已升至30%-50%，而基础模型训练与调用的占比降至20%-40%。钱流向哪里，趋势就在哪里。如今再也没有企业张口闭口“我们要训练一个自己的大模型”，大家都在算一笔明白账：与其花几千万从头训练一个通用模型，不如花几百万买一套垂直领域的高质量数据集，微调开源模型就能获得更好的效果，成本只有前者的十分之一。

百度、阿里、腾讯等头部企业在持续迭代基础大模型的同时，正大幅加大垂直领域高质量数据集的研发投入，将数据工程作为行业落地的核心抓手。更重要的是，数据资产化已经从概念变成了现实。不久前，全国首笔“具身智能数据集”在江苏数据交易所完成交易，包含2.5万条覆盖办公、商超、餐饮、家政四大场景的结构化数据。这标志着数据终于可以像原油、钢铁一样，在公开市场上定价和交易。未来，拥有多少高质量的垂直数据，将直接决定一家AI企业的估值和天花板。

AI的发展逻辑也在发生根本性转变。2025年我国用于人工智能训练和推理的数据总量达199.48艾字节（EB），同比增长42.86%，其中推理数据量首次超过了训练数据量，达到101.34艾字节（EB）。这说明，人工智能正在从“训练驱动”向“训练与推理双驱动”加速演进，在各行业的渗透和应用呈现爆发式增长。过去我们追求的是“大而全”的通用AI，结果只能做出会聊天、写文案的“玩具”；现在我们转向“小而精”的行业AI，有了高质量数据的支撑，工业AI能提前预判设备故障，医疗AI能辅助医生做出精准诊断，交通AI能实时优化城市路网。AI终于从实验室里的概念，变成了能真正融入千行百业的生产力。

国家层面的布局也早已展开。国家数据局将2026年定为“数据要素价值释放年”，正按照“531”工作体系推进高质量数据集建设：

“5”是指数据基础制度建设、数据基础设施建设和运营、数据场景的建设和融合应用、全国一体化数据市场建设和数据产业的培育；

“3”是要夯实数据领域核心技术攻关、数据标准化以及数字人才培养三个基础；

“1”就是突出数据要素赋能人工智能创新发展这个重点。

近期，国家数据局还将推出《关于推进行业高质量数据集建设行动的实施方案》，围绕强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大行动，推动各行各业“数据飞轮”更好转起来。

4.冷静看待挑战：数据时代的难题才刚刚开始

当然，我们也不能盲目乐观。高质量数据集的普及，还有很多硬骨头要啃。

首先是构建成本居高不下。尤其是医疗、工业、航空航天等专业领域，数据采集、清洗、标注的门槛和成本都极高，中小企业很难独立承担，需要政府引导、行业共建和资本的长期支持。

其次是新规的执行效果有待检验。目前还缺乏相关的司法判例，数据侵权的认定标准、赔偿金额的计算方式等细节，还需要在实践中逐步明确。法律的牙齿能不能真正咬下去，是决定数据资产价值的关键。

最后是数据孤岛可能加剧。当数据成为企业的核心资产，大家必然会更加谨慎地保护自己的数据，这可能会让原本就存在的数据孤岛问题更加严重。对此，国家数据局正通过建设全国一体化数据要素市场体系、推广可信数据空间技术、建立行业数据共享联盟等方式，平衡数据保护与流通的矛盾。

但无论如何，大方向已经无比清晰。过去AI比的是“谁家模型更大”，未来比的是“谁家数据更精、更干净、更合规”。

大模型的军备竞赛已经落幕，数据的时代才刚刚开启。那些能沉下心来打磨高质量数据集的企业，终将成为AI下半场的赢家。

（本文来源为数据资产管理大讲堂，仅代表作者个人观点，仅供参考）

责任编辑：赵夏晔