国家数据局刘烈宏:AI的下半场,拼的是"高质量数据集"

数据资产管理大讲堂    2026-06-08 17:54:03

当行业还在为谁能率先推出万亿参数大模型争得头破血流时,国家数据局局长刘烈宏在2026世界智能产业博览会上的发言,直接给这场持续三年的“参数军备竞赛”画上了句号。他明确指出,当前人工智能发展呈现鲜明的数据驱动特征,数据的规模、质量、结构深刻影响模型的智能水平和应用边界,高质量数据集已成为AI创新发展的核心瓶颈。他用精炼的比喻点明本质:“AI就像数据的精炼厂,竞争力从来不在于炉子多大,而在于矿石的品位有多高。”

当然,“大模型已死”是一种夸张的说法,基础大模型仍是AI的核心底座,但过去那种单纯比拼参数规模的“军备竞赛”已经走到了尽头。无数千亿级大模型落地即“翻车”的现实告诉我们:工业AI看不懂产线的细微故障,医疗AI分不清相似的影像病灶,商用大模型张口就是幻觉和错误信息——问题从来不出在“炉子”不够大,而出在我们往炉子里填的,大多是未经提炼的“劣质矿石”。

1.别再迷信“数据越多越好”:90%的大数据,都是“数据垃圾”

很多人对AI训练有个根深蒂固的误解:只要把整个互联网的数据扒下来喂给模型,就能训练出无所不能的通用人工智能。但事实恰恰相反,互联网上绝大多数公开数据,不仅不能提升模型能力,反而会成为拖累。

真正能支撑AI产生商业价值的高质量数据集,从来和“量”无关,只和“质”挂钩,它必须同时满足四个不可妥协的硬标准。

首先是干净。训练数据里的广告弹窗、乱码文本、重复内容、错误标签,就像矿石里的杂质,会直接污染模型的认知。一个残酷的数据是,如今训练一个千亿大模型,数据清洗和标注的成本已经超过了总成本的40%。也就是说,企业花出去的每一块钱,有近五毛是在给互联网垃圾“擦屁股”。

其次是合规。过去靠爬虫“白嫖”数据的野蛮时代,在2026年6月1日彻底终结。当天施行的《商业秘密保护规定》明确,非法获取数据属于侵犯商业秘密,最高可罚500万元。没有合法来源和用户授权的数据,哪怕再多,也只是随时可能引爆的法律炸弹。

再者是垂直细分。通用数据永远训练不出能解决实际问题的行业AI。石油化工领域的高质量数据集,包含13万册专业文献、200余万张工业场景图片、超500TB监控视频;具身智能机器人的数据集,不仅有画面,还完整记录了每个关节的电流、角度和力矩参数。这些深度行业数据,是互联网爬虫永远扒不到的核心资源。

最后是高标注。机器无法理解数据背后的逻辑,必须靠人工精准标注才能让模型“读懂”世界。一个医疗影像的精标样本成本可达上百元,一个工业故障的标注样本也需要几十元。这种高成本的精细化标注,正是区分“玩具AI”和“生产力AI”的关键。

用这四个标准去衡量,市面上绝大多数号称“海量”的数据集,本质上只是一堆毫无价值的“数据垃圾”。AI行业的第一个共识正在形成:1TB的高质量垂直数据,远胜于1PB的互联网杂烩。

2.6月1日新规:解开数据行业的“死亡死结”

为什么过去没人愿意做高质量数据集?不是技术做不到,而是经济账算不过来。

此前数据领域存在一个致命的悖论:一家企业投入几个亿、耗时几年打磨出的专属数据集,同行写一个爬虫就能在几天内全部偷走,还能堂而皇之地以“公开数据”为借口免责。投入和收益的严重不匹配,让所有企业都变成了“搭便车者”——没人愿意做第一个种树的人,都等着摘别人的果子。

整个行业陷入了“劣质数据训练劣质模型”的恶性循环,而6月1日落地的《商业秘密保护规定》,正是斩断这个死结的关键一刀。这部新规的核心意义,不在于提高了罚款金额,而在于第一次从法律层面,将数据确立为和秘方、专利同等地位的核心资产。

它带来的三个颠覆性变化,将彻底改写数据行业的游戏规则。

第一是保护范围全覆盖,不仅数据集本身,连数据清洗流程、标注规范、合成算法都纳入了商业秘密保护范畴,这意味着数据生产的全链条都受到法律保护;

第二是举证责任倒置,权利人只需证明“自身数据构成商业秘密+对方接触过该数据+双方信息实质相同”,举证责任就转移到涉嫌侵权人身上,由其证明数据的合法来源,极大降低了维权门槛;

第三是处罚力度空前,情节严重的侵权最高罚500万元,还可没收全部违法所得。

当偷数据的成本远高于做数据的成本,当企业的投入能得到法律的切实保护,市场的积极性才会被真正激活。这不是一部简单的监管法规,而是数据要素价值释放的“第一块基石”。

3.AI行业逻辑重构:数据才是未来的核心竞争力

政策的风向一变,市场的反应比任何人都快。国家数据局在实践中形成了两个核心导向:“人工智能发展到哪里,数据工作就跟进到哪里”“人工智能赋能行业发展到哪里,行业高质量数据集建设和服务就跟进到哪里”,这已成为行业广泛共识。

最直观的变化是企业的成本结构。2026年,在绝大多数企业级AI落地应用项目中,数据工程的成本占比已升至30%-50%,而基础模型训练与调用的占比降至20%-40%。钱流向哪里,趋势就在哪里。如今再也没有企业张口闭口“我们要训练一个自己的大模型”,大家都在算一笔明白账:与其花几千万从头训练一个通用模型,不如花几百万买一套垂直领域的高质量数据集,微调开源模型就能获得更好的效果,成本只有前者的十分之一。

百度、阿里、腾讯等头部企业在持续迭代基础大模型的同时,正大幅加大垂直领域高质量数据集的研发投入,将数据工程作为行业落地的核心抓手。更重要的是,数据资产化已经从概念变成了现实。不久前,全国首笔“具身智能数据集”在江苏数据交易所完成交易,包含2.5万条覆盖办公、商超、餐饮、家政四大场景的结构化数据。这标志着数据终于可以像原油、钢铁一样,在公开市场上定价和交易。未来,拥有多少高质量的垂直数据,将直接决定一家AI企业的估值和天花板。

AI的发展逻辑也在发生根本性转变。2025年我国用于人工智能训练和推理的数据总量达199.48艾字节(EB),同比增长42.86%,其中推理数据量首次超过了训练数据量,达到101.34艾字节(EB)。这说明,人工智能正在从“训练驱动”向“训练与推理双驱动”加速演进,在各行业的渗透和应用呈现爆发式增长。过去我们追求的是“大而全”的通用AI,结果只能做出会聊天、写文案的“玩具”;现在我们转向“小而精”的行业AI,有了高质量数据的支撑,工业AI能提前预判设备故障,医疗AI能辅助医生做出精准诊断,交通AI能实时优化城市路网。AI终于从实验室里的概念,变成了能真正融入千行百业的生产力。

国家层面的布局也早已展开。国家数据局将2026年定为“数据要素价值释放年”,正按照“531”工作体系推进高质量数据集建设:

“5”是指数据基础制度建设、数据基础设施建设和运营、数据场景的建设和融合应用、全国一体化数据市场建设和数据产业的培育;

“3”是要夯实数据领域核心技术攻关、数据标准化以及数字人才培养三个基础;

“1”就是突出数据要素赋能人工智能创新发展这个重点。

近期,国家数据局还将推出《关于推进行业高质量数据集建设行动的实施方案》,围绕强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大行动,推动各行各业“数据飞轮”更好转起来。

4.冷静看待挑战:数据时代的难题才刚刚开始

当然,我们也不能盲目乐观。高质量数据集的普及,还有很多硬骨头要啃。

首先是构建成本居高不下。尤其是医疗、工业、航空航天等专业领域,数据采集、清洗、标注的门槛和成本都极高,中小企业很难独立承担,需要政府引导、行业共建和资本的长期支持。

其次是新规的执行效果有待检验。目前还缺乏相关的司法判例,数据侵权的认定标准、赔偿金额的计算方式等细节,还需要在实践中逐步明确。法律的牙齿能不能真正咬下去,是决定数据资产价值的关键。

最后是数据孤岛可能加剧。当数据成为企业的核心资产,大家必然会更加谨慎地保护自己的数据,这可能会让原本就存在的数据孤岛问题更加严重。对此,国家数据局正通过建设全国一体化数据要素市场体系、推广可信数据空间技术、建立行业数据共享联盟等方式,平衡数据保护与流通的矛盾。

但无论如何,大方向已经无比清晰。过去AI比的是“谁家模型更大”,未来比的是“谁家数据更精、更干净、更合规”。

大模型的军备竞赛已经落幕,数据的时代才刚刚开启。那些能沉下心来打磨高质量数据集的企业,终将成为AI下半场的赢家。

(本文来源为数据资产管理大讲堂,仅代表作者个人观点,仅供参考)

责任编辑:赵夏晔