“词元交易”首次写入国家顶层设计
大众新闻 徐佳 2026-06-11 11:47:15原创
6月8日,国家数据局正式印发《关于推进行业高质量数据集建设行动的实施方案》(以下简称《实施方案》),这是国家层面首次对数据赋能人工智能发展作出的系统性部署。
其中“探索词元交易”和“构建以词元为基础的价值体系”两处表述,直接指向产品形态创新方向,引起了广泛关注。

词元是什么?
AI时代的“通用度量衡”
词元(Token),是大模型处理信息的最小信息单元。向AI提问、让它生成内容,本质上都是在调用词元。国家数据局今年 3 月公布的数据显示,我国日均词元调用量已突破140万亿,而2024年初这个数据只有1000亿,这一数字的变化反应了AI应用的爆发式增长。
然而,词元不仅是技术概念,更正在成为经济概念。
长期以来,数据市场面临一个根本性难题:定价。一条垃圾数据与一条高质量医疗数据,按传统“按条卖”或“按存储空间卖”的方式,定价可能相差无几。这导致好数据卖不上价,差数据浑水摸鱼,整个市场效率低下。
而词元的核心价值就是将文本、图像、基因序列、视频等各种形态的数据,统一拆解为可计量、可定价、可追溯的最小价值颗粒,建立起数字经济的“通用度量衡”。
截至2025年底,我国已建成高质量数据集超过10万个,数据赋能AI已从概念走向落地。
《实施方案》围绕行业高质量数据集供给、流通、应用等关键环节,部署六大专项行动,提出面向人工智能应用需求,持续推进文本、图像、音视频等多模态高质量数据集建设;聚焦智能体、具身智能和世界模型等重点方向,要求加快推进数据集建设;引导具备条件的地区因地制宜开展数据标注创新试验区建设。
从供给侧系统性地补齐短板。
青岛模式:
数据如何变成“硬通货”
725.4T Token。近日,青岛华大基因研究院“青岛华大千种海洋生物基因测序数据资源集”在青岛数据集团所属青岛数据资产登记评价中心完成数据产权登记。这是全国首例以词元为核心计量单位的数据产权登记,为"千种海洋生物基因测序数据"中的每个DNA碱基对精准映射词元。
“我们能够清晰评估出7000余万元的市场价值,关键就在于在计量中提供了‘词元’这一颗粒度极细的核算基础。可以准确计算每一个基因特征从测序、组装到功能注释的全流程投入,并结合其在生物医药靶点、合成生物学元件等应用场景中的预期收益贡献进行折现。”青岛华大基因研究院副院长徐梦阳在接受《中国经营报》记者采访时表示,词元计量剔除了无效的“噪音”,真正反映了数据中蕴含的“语义有效性”和知识密度。
在此基础上,青岛还落地了全国首个词元计量收益分配体系,将各类数据转化为统一的词元单位进行价值核算,采取了“字段计量+词元计量”双轨并行策略,以两者的加权平均值作为最终贡献量。
不久前,由青岛数据集团牵头推动的全国首例纯数据资产信托收益权ABS首期5.32亿元正式发行,全网累计吸引19.8亿元市场资金踊跃认购,超额认购倍数达3.72倍。
资本用真金白银证明,数据资产化这条路走得通。
释放要素价值
从"卖数据"到"卖价值"
从“数据化”如何走向“价值化”?《实施方案》提出实施价值释放行动。
推动行业高质量数据集跨行业、跨领域、跨场景融合利用,鼓励“以数换数”“数模互换”“数据托管”“数算一体”等多种应用模式。积极参与开源社区建设,鼓励中介机构、公益机构将基础性、公益性数据集作为公共产品向社会公开,激发用数活力。
鼓励数据集在数据交易所(中心)等数据流通服务机构挂牌交易,发展“订阅模式”“商场模式”“定制模式”等多元服务形态,推动商业模式从基础数据包销售向API调用、模型化解决方案及全栈服务梯次跃升。探索词元交易等新型交易模式,构建以词元为基础,可量化、可定价的数据价值体系。
《实施方案》还提出“培育为高质量数据付费的市场共识”,建立健全市场化利益分配机制,确保数据供给、加工、流通、应用等各环节主体均能获得市场化价值回报,共享数据红利。鼓励数据需求方通过购买、合作等形式加大投入,充分发挥政府部门、国有企业、模型企业等单位的示范引领作用,推动数据采买纳入预算编制,率先开展数据采购实践,带动形成数据有偿使用市场共识,构建健康可持续的数据市场生态。
参考资料:
国家数据局《关于推进行业高质量数据集建设行动的实施方案》、青岛数据集团词元经济实践案例、中国经济时报、上海证券报、人民日报等
(大众新闻记者 徐佳)
责任编辑:李文
