“词元交易”首次写入国家顶层设计

大众新闻 徐佳   2026-06-11 11:47:15原创

6月8日,国家数据局正式印发《关于推进行业高质量数据集建设行动的实施方案》(以下简称《实施方案》),这是国家层面首次对数据赋能人工智能发展作出的系统性部署。

其中“探索词元交易”“构建以词元为基础的价值体系”两处表述,直接指向产品形态创新方向,引起了广泛关注。

词元是什么?

AI时代的“通用度量衡”

词元(Token),是大模型处理信息的最小信息单元。向AI提问、让它生成内容,本质上都是在调用词元。国家数据局今年 3 月公布的数据显示,我国日均词元调用量已突破140万亿,而2024年初这个数据只有1000亿,这一数字的变化反应了AI应用的爆发式增长。

然而,词元不仅是技术概念,更正在成为经济概念。

长期以来,数据市场面临一个根本性难题:定价。一条垃圾数据与一条高质量医疗数据,按传统“按条卖”或“按存储空间卖”的方式,定价可能相差无几。这导致好数据卖不上价,差数据浑水摸鱼,整个市场效率低下。

而词元的核心价值就是将文本、图像、基因序列、视频等各种形态的数据,统一拆解为可计量、可定价、可追溯的最小价值颗粒,建立起数字经济的“通用度量衡”。

截至2025年底,我国已建成高质量数据集超过10万个,数据赋能AI已从概念走向落地。

《实施方案》围绕行业高质量数据集供给、流通、应用等关键环节,部署六大专项行动,提出面向人工智能应用需求,持续推进文本、图像、音视频等多模态高质量数据集建设;聚焦智能体、具身智能和世界模型等重点方向,要求加快推进数据集建设;引导具备条件的地区因地制宜开展数据标注创新试验区建设。

从供给侧系统性地补齐短板。

青岛模式:

数据如何变成“硬通货”

725.4T Token。近日,青岛华大基因研究院“青岛华大千种海洋生物基因测序数据资源集”在青岛数据集团所属青岛数据资产登记评价中心完成数据产权登记。这是全国首例以词元为核心计量单位的数据产权登记,为"千种海洋生物基因测序数据"中的每个DNA碱基对精准映射词元。

“我们能够清晰评估出7000余万元的市场价值,关键就在于在计量中提供了‘词元’这一颗粒度极细的核算基础。可以准确计算每一个基因特征从测序、组装到功能注释的全流程投入,并结合其在生物医药靶点、合成生物学元件等应用场景中的预期收益贡献进行折现。”青岛华大基因研究院副院长徐梦阳在接受《中国经营报》记者采访时表示,词元计量剔除了无效的“噪音”,真正反映了数据中蕴含的“语义有效性”和知识密度。

在此基础上,青岛还落地了全国首个词元计量收益分配体系,将各类数据转化为统一的词元单位进行价值核算,采取了“字段计量+词元计量”双轨并行策略,以两者的加权平均值作为最终贡献量。

不久前,由青岛数据集团牵头推动的全国首例纯数据资产信托收益权ABS首期5.32亿元正式发行,全网累计吸引19.8亿元市场资金踊跃认购,超额认购倍数达3.72倍。

资本用真金白银证明,数据资产化这条路走得通。

释放要素价值

从"卖数据"到"卖价值"

从“数据化”如何走向“价值化”?《实施方案》提出实施价值释放行动。

推动行业高质量数据集跨行业、跨领域、跨场景融合利用,鼓励“以数换数”“数模互换”“数据托管”“数算一体”等多种应用模式。积极参与开源社区建设,鼓励中介机构、公益机构将基础性、公益性数据集作为公共产品向社会公开,激发用数活力。

鼓励数据集在数据交易所(中心)等数据流通服务机构挂牌交易,发展“订阅模式”“商场模式”“定制模式”等多元服务形态,推动商业模式从基础数据包销售向API调用、模型化解决方案及全栈服务梯次跃升。探索词元交易等新型交易模式,构建以词元为基础,可量化、可定价的数据价值体系。

实施方案》还提出“培育为高质量数据付费的市场共识”,建立健全市场化利益分配机制,确保数据供给、加工、流通、应用等各环节主体均能获得市场化价值回报,共享数据红利。鼓励数据需求方通过购买、合作等形式加大投入,充分发挥政府部门、国有企业、模型企业等单位的示范引领作用,推动数据采买纳入预算编制,率先开展数据采购实践,带动形成数据有偿使用市场共识,构建健康可持续的数据市场生态。

参考资料:

国家数据局《关于推进行业高质量数据集建设行动的实施方案》、青岛数据集团词元经济实践案例、中国经济时报、上海证券报、人民日报等

(大众新闻记者 徐佳)

责任编辑:李文