果然财经|AI世界的“最小计量单位”Token有了中文名!

果然财经 |  2026-03-25 17:47:13 原创

魏银科  孙佳琪来源:齐鲁晚报·齐鲁壹点客户端

微信扫码扫码下载客户端

图片由AI生成

2026年3月24日,国家数据局发布的一组数据,我国日均词元(Token)调用量已突破140万亿。相比2024年初的1000亿增长了1000多倍;相比2025年底的100万亿,三个月时间又增长了40%多。这组数据意味着,中国的人工智能发展进入了快速增长阶段。

就在前几日,“Token”的中文翻译也最终确定:词元。一时间,这个原本陌生的词汇进入了大众视野。不少人可能会问:什么是Token?为什么会最终命名为“词元”?词元日均调用量突破140万亿对于普通人来说又意味着什么?

什么是词元?

AI世界的“最小计量单位”

日前,在中国发展高层论坛2026年年会上,国家数据局局长刘烈宏表示,Token“词元”不仅是智能时代的价值锚点,更是连接技术供给与商业需求的“结算单位”,为商业模式的落地提供了可量化的可能;也从官方角度上为Token给出了翻译:“词元”。

也就是说,在AI的世界里,Token(词元)是模型处理信息的最小计量单位。简单来说,一个字、一个词、一个符号,都可以被称作一个词元。

用户向AI输入的每一个字,大模型生成的每一段话、识别的每一幅图像背后都在消耗词元。它就像AI世界的“语言原子”,是衡量AI算力与资源消耗的核心计量单位,词元的调用规模,直接反映出人工智能的实际应用程度。

虽然最终命名为“词元”,但它不严格等于一个词:一个英文单词可能拆成1个或多个Token(如“ChatGPT”可能是1个Token,“eating”可能拆成“eat”和“ing”两个Token)。中文里,一个汉字通常对应1-2个Token,词语可能对应多个Token。

对此,中国科学院地理科学与资源研究所副研究员张海平以“我是中国人”为例,为记者解释大模型语言处理的底层逻辑。“计算机可以将‘中国人’切分为‘中’、‘国’、‘人’3个词元或者‘中国’、‘人’2个词元,也可以整体视为‘中国人’1个词元,甚至极端情况下拆成‘中’、‘国人’2个词元。大模型会根据上下文计算概率:在‘我是…’的语境下,‘中国人’作为一个整体出现的概率远高于其他切分方式。因此,它会优先选择这条‘最可能’的路径。”

因此,在模型的内部视角里,“我是中国人”这句话,最有可能被处理成“我”“是”“中国人”3个词元。(“我”是最高频的代词,几乎在所有模型的词汇表中都是独立存在的,“是”是最高频的动词/系动词,也是独立存在的。)

“我们用大模型有时候觉得它特别智能,有时候觉得它很笨,其实全看训练情况,看概率。”张海平说道。

此外,Token(词元)除了是模型处理信息的最小计量单位,它还是计费单位。例如我们在调用GPT、文心一言等API时,服务商会按“输入Token数+输出Token数”收费。

不过,张海平表示,现在用“词元”来表示 AI 处理信息的最小离散单元是合适的、准确的,未来就不一定了,“可能会有更高级的形态”。

为何最终命名为“词元”?

关于“Token”的中文翻译,早在此次中文名称正式确定之前,曾一度引发了各界的热烈讨论。在科技圈,Token的中文名称也让翻译者头疼不已。

此前,“Token”对外表述主要有三种方式:在区块链领域,习惯将其译为“通证”,以突出其作为流通凭证的属性。此外,也有网友提出“通根”的民间译法,认为“通”代表流通与连接,“根”则象征根基与本源。而官方媒体多采用“词元”这一译法,其中的“词”字点明了Token与语言的关联,而“元”则强调其作为最小、不可再分单位的特点。

“从源流和大模型AI的现状来看,用‘词元’非常准确。”张海平表示,“现在的大模型本质上还是大语言模型,‘词’说明它是语言领域的,‘元’就是基本单元,组合起来比较好理解。”

“Token,也就是词元。最早是从十几年前的加密货币行业快速进入大众视野的。其含义的话,我理解的是人类的语言,日常交流、写作,以及各类计算机语言的最小单位。”对于山东外事职业大学元宇宙研究院院长于卓来说,一直从事元宇宙方面的研究,“词元”的命名,反而让他更觉亲切。

“词元”这个译法的一个妙处在于,它没有把token硬塞进已有的语法概念里,而是保留了一点技术感,同时又给普通人留出了理解空间。它在字和词之间,在语言学概念和计算概念之间,搭起了一座桥。你一看就知道,它大概和“词”有关,但又不是传统意义上的词。

“就像Meta没有翻译成‘美塔’,而是翻译成元宇宙一样。很多主流的词元化方法,本来就不是按传统词典那样死板切分,而是采用子词策略。这样既能控制词表规模,又能兼顾表达能力。”于卓进一步解释道。

词元调用量的增加

对普通人来说意味着什么?

国家数据局局长刘烈宏在发布会上透露,截至今年3月,我国日均Token调用量已超过140万亿。日均140万亿次的词元调用量,相当于全国每人每天平均调用了约10万个词元。

张海平表示,日均Token调用量高,说明AI正在以前所未有的速度融入中国人的日常,而且已经极大地改变了我们的工作和生活。“一些行业已经消失了,你比如说像润色公司,我们以前写的论文要用英文去润色,现在不用找润色公司了,因为大模型比外国人润色的还好。另外,以前你要写个项目计划书,可能花10天时间,现在你用AI辅助写作,可能一个小时就生成了。”张海平说。

“这意味着一个新时代的到来。”对于Token的比喻,于卓有着自己的见地:“有人把token比作生产力,这个比较直观但不好理解。我更喜欢把算力比喻成新时代的流量,流量靠的是基站,token靠的是算力中心。或许在不久的将来除了流量卡,还会有算力卡。”

作为大模型处理信息的最小信息单元,Token具有智能时代可计量、可定价、可交易的特征。国家数据局局长刘烈宏表示,围绕Token的调用、分发与结算,一套新的价值体系正在加速演进形成,并成为人工智能产业可能变现的重要路径。中国日均Token调用量的大幅增长也表明,随着中国数据要素市场化配置改革的纵深推进,人工智能高质量数据的供给体系正在形成,“数据供给—价值释放”的良性循环已初现端倪。

换句话说,AI时代,Token经济,或者说“词元经济”正在崛起。

时代的前行并非一蹴而就,是无数人数十年如一日的探索与努力。

“GPT的爆火,给了大家时代‘突然升级’的感觉,但这背后其实是几十年的技术积累和无数人探索的结果。只是许多人没有关注到,大家看到的只是爆发那一刻。”于卓道出了很多科技人共同的心声:“时代和科技是线性发展的,所谓的科技爆发,背后藏着很多普通人看不到的发展过程。对于我们普通人来说,可以积极拥抱新的时代,也不用过度焦虑。”

大众新闻·齐鲁壹点记者 孙佳琪 魏银科

责任编辑:孙佳琪