官方定了 “词元”,Token争议还没停
潮新闻 2026-03-29 20:58:30
黄仁勋在英伟达GTC2026上演讲视频截图。图源英伟达官网。
这是一个每天都要迎接新事物的时代。
“Token是新的大宗商品。”
刚结束的英伟达GTC2026演讲上,黄仁勋的论断让token一词突破技术圈,进入大众视野。
五个字母看似简单,实则大有乾坤。为了给它找到个中文名,从大学教授到普通民众纷纷下场:原神、模元、智根、智元、代币、偷啃……
直到日前,中国发展高层论坛2026年年会上,国家数据局局长刘烈宏正式给出token的中文名——“词元”。这一发言为token翻译暂时画下句号,却未能完全平息来自民间的讨论。
有人愤愤:token怎么就是“词元”了?
有人不明:一个技术词汇的中文译名而已,凭什么值得动气?
统一译名,为什么是一件急迫的事
我们提到的token,是排行榜上大模型调用量的评估标准,也是大模型厂商销售套餐的计费单位。
如何更好理解?
奇安信安全专家张勇日前接受采访时解释:token是“AI消化文字的最小单位”。为更方便理解,他用吃饭做比喻:“就像人吃饺子,不会一口吞下一整盘,而是一个一个吃。AI处理文字时,也先把句子切成一个个它能‘嚼得动’的小块,这些小方块就叫Token。”
严格来说,token不算一个新鲜术语。
早在100多年前,它就由美国逻辑学家、符号学奠基人查尔斯·桑德斯·皮尔斯提出。此后的很长一段时间里,token的中文名并没有得到统一。仅在计算机科学领域,搞区块链的人叫它“代币”,做网络安全的人叫它“令牌”,编译器开发者叫它“标记”。
然而,今天,一个共识是:给AI时代关键词“token”进行中文定名,已成为实践中的迫切需要。
查尔斯·桑德斯·皮尔斯的著作《推理及万物逻辑》
为什么这么说?
其实,给一个新兴术语定名,绝对不是“找个名字”那么简单。
在20世纪60年代,laser刚进入中国时,也曾遭遇翻译难题。大陆学界将其翻译为“来塞”,台湾地区则长期叫作“镭射”。此外,还不乏长达七八个字的译名。
当时,激光技术是门前沿的高新技术,聚焦世界目光。然而,译名混乱直接导致科研交流中,学者不得不反复解释“来塞”和“镭射”是同一个东西。这对资料检索也带来很大影响,甚至一度误导消费者以为其与放射性元素“镭”相关,引起恐慌。
直到1964年,钱学森反复斟酌后,将laser中文名统一定名“激光”,译名简洁而精准,既规范了光学产业标准,也方便了公众认识。
从某种程度上说,今天的token和当年的laser面临着一样的时代境遇。
已经从行业“黑话”转变为大众词语的token,亟待一固定的中文译名,打破学术、产业、大众之间信息的巴别塔。
无论是公众科普还是产业发展,术语统一关系着认知的有效传递。
译名之争
目前,token官方中文名已经暂时敲定为“词元”。
不过,全社会似乎还未达成共识。
支持者觉得,“词元”是个不错的名字:
首先,“词元”不是一个全新的译名,具有一定的群众基础。早在2021年,复旦大学计算机科学技术学院的邱锡鹏教授就将token译为“词元”并写进了教材。
此外,“词”,点明了token源于语言处理场景,体现其与语义、文本的关联。“元”则通常用来表示最小单位,有“最基本、最基础”的含义。更妙的是“元”也是货币计量单位,对应了token=新时代货币概念。
还有人认为中国传统文化中的“元”具有初始之意,符合token的使用语境。在大模型中,无论多么复杂的文本、多么深邃的思想,其生成过程都始于一个个 token。因而,AI术语“词元”亦成为科技与人文结合的范例。
反对者的理由就五花八门了。
例如,有人认为这会导致理解歧义。在大模型中,token 并不总是对应“词”,有时会覆盖图像、语音等非文本模态。
有人觉得,“词元”太过抽象,不容易理解,对非专业用户不够友好。不如“算力代币”“计算单元”等更直观的译名容易理解;或者直接把byte的译名“字节”进行改造,翻译为“词节”也未尝不可。
还有人认为,即便token在中国没有中文名字,难道就不行吗?他们调侃:不如将其直接音译成“偷啃”:token单看价格很便宜,但用起来可能贵得惊人,每一个token,都在偷偷啃掉你的钱包。
好心的反对者一联想到,当年将自动控制领域的术语robust(指一个控制系统在面临模型不确定性和外部扰动时,仍能保持稳定性和预期性能的能力)统一翻译为“鲁棒”——一个“学术圈内部自洽、公众外部吐槽”的典型案例——就很担忧。
一来,“鲁棒”不仅在中文里没有任何语义联想,还容易让人产生指向鲁莽、木棒等等负面联想。还有人调侃:“第一次看到‘鲁棒性’三个字,我以为是在说一种山东出产的棒球棍。”
虽然token有了官方译名,但未来是否会改动也未可知。
或许,我们可以再等等——
你可知道,20世纪40年代以前,“熊猫”的名字叫“猫熊”,意味“像猫一样的熊”。那年,重庆举办了一次动物标本展,展板上用中英双语标注。当时的书写习惯是从右向左读,参观者将“猫熊”读成了“熊猫”。这个“错误”的读法因为朗朗上口,迅速在公众中传播开来。尽管学界坚持“猫熊”更科学,但“熊猫”已经深入人心。学者们只能接受。
这个故事告诉我们:对于一个面向大众的词语,大众会用嘴巴投票。
对翻译价值的一些启示
token译名大讨论,第一次让一个技术术语的翻译成为社会热点话题。
这场学术的“破壁”,将翻译从“幕后”推到了“台前”,让我们有契机审视:翻译的价值与能力。
眼下,机翻应用普遍,甚至戴个翻译机就能实现实时翻译。于是,当越来越多的人追问:“外语专业究竟还有什么用”的时候,译者需要向大众回答:“我们为什么还需要人来做翻译”。
显然,大众广泛参与的token译名之争,举重若轻地告诉我们:AI能做的似乎还有限。
诚然,如若我们将翻译的功能简化为语言的搬运工时,AI确实超级能干,不知疲倦,效率极高且价格低廉。它确实取代了一部分重复性强、标准化高的翻译工作,同时也凸显了对质量控制、语用判断、文化调适与责任把关等能力的需求。
早前,有风君曾采访过翻译家许钧。我们聊到毕飞宇小说《青衣》的英文译名。由于“青衣”在汉语语境中蕴含的意义复杂,难以在英语世界找到匹配的词语,译者、知名汉学家葛浩文将其“大刀阔斧”地译为《The Moon Opera》,直译是“月亮歌剧”,指的是书中嫦娥奔月的京戏。
考虑到许钧一贯的翻译原则是“求真”,有风君询问他对这一译名的喜好。
对此,许钧首先肯定道:“书名是为了第一时间吸引读者,并不影响小说内容,可以适当作变通。”
随后,他话锋一转,“但翻译不能总是为了讨好读者而去变通。要吸收新观念、新概念、新话语,翻译就要保真、求真,就像鲁迅主张的那样。不要把一时的变通当作永恒的价值追求。我个人认为这不仅是语言层面的问题。”
紧接着,他又把话题延伸至人工智能热潮:“现在好多人觉得语言只是工具,翻译可以被机器替代。这是一种十分危险、完全错误的观点!机器是不会思考一句话为什么翻译成这样而不是那样的!”
“机器是不会思考一句话为什么翻译成这样而不是那样的!”
这句回应掷地有声。
token译名之争,正是它的注解。
责任编辑:于春晖
