果然财经|AI世界的“最小计量单位”Token有了中文名！

果然财经 | 2026-03-25 17:47:13 原创

魏银科孙佳琪来源：齐鲁晚报·齐鲁壹点客户端

微信扫码扫码下载客户端

图片由AI生成

2026年3月24日，国家数据局发布的一组数据，我国日均词元（Token）调用量已突破140万亿。相比2024年初的1000亿增长了1000多倍；相比2025年底的100万亿，三个月时间又增长了40%多。这组数据意味着，中国的人工智能发展进入了快速增长阶段。

就在前几日，“Token”的中文翻译也最终确定：词元。一时间，这个原本陌生的词汇进入了大众视野。不少人可能会问：什么是Token？为什么会最终命名为“词元”？词元日均调用量突破140万亿对于普通人来说又意味着什么？

什么是词元？

AI世界的“最小计量单位”

日前，在中国发展高层论坛2026年年会上，国家数据局局长刘烈宏表示，Token“词元”不仅是智能时代的价值锚点，更是连接技术供给与商业需求的“结算单位”，为商业模式的落地提供了可量化的可能；也从官方角度上为Token给出了翻译：“词元”。

也就是说，在AI的世界里，Token（词元）是模型处理信息的最小计量单位。简单来说，一个字、一个词、一个符号，都可以被称作一个词元。

用户向AI输入的每一个字，大模型生成的每一段话、识别的每一幅图像背后都在消耗词元。它就像AI世界的“语言原子”，是衡量AI算力与资源消耗的核心计量单位，词元的调用规模，直接反映出人工智能的实际应用程度。

虽然最终命名为“词元”，但它不严格等于一个词：一个英文单词可能拆成1个或多个Token（如“ChatGPT”可能是1个Token，“eating”可能拆成“eat”和“ing”两个Token）。中文里，一个汉字通常对应1-2个Token，词语可能对应多个Token。

对此，中国科学院地理科学与资源研究所副研究员张海平以“我是中国人”为例，为记者解释大模型语言处理的底层逻辑。“计算机可以将‘中国人’切分为‘中’、‘国’、‘人’3个词元或者‘中国’、‘人’2个词元，也可以整体视为‘中国人’1个词元，甚至极端情况下拆成‘中’、‘国人’2个词元。大模型会根据上下文计算概率：在‘我是…’的语境下，‘中国人’作为一个整体出现的概率远高于其他切分方式。因此，它会优先选择这条‘最可能’的路径。”

因此，在模型的内部视角里，“我是中国人”这句话，最有可能被处理成“我”“是”“中国人”3个词元。（“我”是最高频的代词，几乎在所有模型的词汇表中都是独立存在的，“是”是最高频的动词/系动词，也是独立存在的。）

“我们用大模型有时候觉得它特别智能，有时候觉得它很笨，其实全看训练情况，看概率。”张海平说道。

此外，Token（词元）除了是模型处理信息的最小计量单位，它还是计费单位。例如我们在调用GPT、文心一言等API时，服务商会按“输入Token数+输出Token数”收费。

不过，张海平表示，现在用“词元”来表示 AI 处理信息的最小离散单元是合适的、准确的，未来就不一定了，“可能会有更高级的形态”。

为何最终命名为“词元”？

关于“Token”的中文翻译，早在此次中文名称正式确定之前，曾一度引发了各界的热烈讨论。在科技圈，Token的中文名称也让翻译者头疼不已。

此前，“Token”对外表述主要有三种方式：在区块链领域，习惯将其译为“通证”，以突出其作为流通凭证的属性。此外，也有网友提出“通根”的民间译法，认为“通”代表流通与连接，“根”则象征根基与本源。而官方媒体多采用“词元”这一译法，其中的“词”字点明了Token与语言的关联，而“元”则强调其作为最小、不可再分单位的特点。

“从源流和大模型AI的现状来看，用‘词元’非常准确。”张海平表示，“现在的大模型本质上还是大语言模型，‘词’说明它是语言领域的，‘元’就是基本单元，组合起来比较好理解。”

“Token，也就是词元。最早是从十几年前的加密货币行业快速进入大众视野的。其含义的话，我理解的是人类的语言，日常交流、写作，以及各类计算机语言的最小单位。”对于山东外事职业大学元宇宙研究院院长于卓来说，一直从事元宇宙方面的研究，“词元”的命名，反而让他更觉亲切。

“词元”这个译法的一个妙处在于，它没有把token硬塞进已有的语法概念里，而是保留了一点技术感，同时又给普通人留出了理解空间。它在字和词之间，在语言学概念和计算概念之间，搭起了一座桥。你一看就知道，它大概和“词”有关，但又不是传统意义上的词。

“就像Meta没有翻译成‘美塔’，而是翻译成元宇宙一样。很多主流的词元化方法，本来就不是按传统词典那样死板切分，而是采用子词策略。这样既能控制词表规模，又能兼顾表达能力。”于卓进一步解释道。

词元调用量的增加

对普通人来说意味着什么？

国家数据局局长刘烈宏在发布会上透露，截至今年3月，我国日均Token调用量已超过140万亿。日均140万亿次的词元调用量，相当于全国每人每天平均调用了约10万个词元。

张海平表示，日均Token调用量高，说明AI正在以前所未有的速度融入中国人的日常，而且已经极大地改变了我们的工作和生活。“一些行业已经消失了，你比如说像润色公司，我们以前写的论文要用英文去润色，现在不用找润色公司了，因为大模型比外国人润色的还好。另外，以前你要写个项目计划书，可能花10天时间，现在你用AI辅助写作，可能一个小时就生成了。”张海平说。

“这意味着一个新时代的到来。”对于Token的比喻，于卓有着自己的见地：“有人把token比作生产力，这个比较直观但不好理解。我更喜欢把算力比喻成新时代的流量，流量靠的是基站，token靠的是算力中心。或许在不久的将来除了流量卡，还会有算力卡。”

作为大模型处理信息的最小信息单元，Token具有智能时代可计量、可定价、可交易的特征。国家数据局局长刘烈宏表示，围绕Token的调用、分发与结算，一套新的价值体系正在加速演进形成，并成为人工智能产业可能变现的重要路径。中国日均Token调用量的大幅增长也表明，随着中国数据要素市场化配置改革的纵深推进，人工智能高质量数据的供给体系正在形成，“数据供给—价值释放”的良性循环已初现端倪。

换句话说，AI时代，Token经济，或者说“词元经济”正在崛起。

时代的前行并非一蹴而就，是无数人数十年如一日的探索与努力。

“GPT的爆火，给了大家时代‘突然升级’的感觉，但这背后其实是几十年的技术积累和无数人探索的结果。只是许多人没有关注到，大家看到的只是爆发那一刻。”于卓道出了很多科技人共同的心声：“时代和科技是线性发展的，所谓的科技爆发，背后藏着很多普通人看不到的发展过程。对于我们普通人来说，可以积极拥抱新的时代，也不用过度焦虑。”

大众新闻·齐鲁壹点记者孙佳琪魏银科

责任编辑：孙佳琪