AI其实根本不“认字”,你的话在它眼里全是“积木”
光明日报 2026-05-11 23:09:19
相信大家都有一个最熟悉的陌生人——人工智能,也就是AI!用AI答疑、解题、唠嗑……似乎问什么它都能回答。那么,AI到底是怎么听懂人话的?
其实,它根本不认字,只认识“词元”,也就是AI处理信息的“最小积木”,积木拼起来才是完整的内容。
咱们看一句话、一段文字时,体会的是完整的意思,比如“饺子怎么包”;但在AI眼里,它不会直接理解这句话,而是会把它“拆碎”,切成一块一块的小单元,“饺子”“怎么”“包”,这每一块,就是一个词元。AI就是靠处理一长串词元,来理解和生成语言。
词元可能是一个完整的词,比如“AI”“饺子”;也可能是半个词,比如“词元”就可能被拆成“词”和“元”;甚至能是一个字、一个标点,比如“哦” “!”。只要是AI能识别的最小单元,都是词元。
肯定有人问,为啥叫“词元”?这可不是随便起的,是专家们经过流程审定的!全国计算机科学技术名词审定委员会将token定名为“词元”。“词”代表它最早来自语言,跟我们说的话紧密相关,“元”就是最小单元,和“元素”“单元”里的“元”一个意思,好记又科学。
词元可不只局限于文字哦。现在咱们用的多模态AI,能看图片、听语音。其实,图片被切成的小图块、语音被剪的小片段,本质上都是词元!
你发的每一句话、每一个指令,都会被AI拆成一个个小小的词元,再重新组合成回答给你。这就是AI读懂世界的底层逻辑,是不是瞬间就懂了?
(光明日报)
责任编辑:房超
