下载app

扫码下载

扫码关注

新华报业网  > 首页 > 正文
专家解读token中文名为何定为“词元”

近日,全国科学技术名词审定委员会发布《关于发布试用人工智能领域名词token中文名“词元”的公告》,决定在综合考量社会各界意见建议的基础上,优先推荐“词元”作为人工智能领域名词token的中文名,并面向全社会发布试用。

“词元”这一定名符合单义性、科学性、简明性、协调性等科技名词审定原则。该定名经全国计算机科学技术名词审定委员会审定后,由全国科学技术名词审定委员会批准向全社会发布试用。

清华大学计算机系副教授东昱晓认为,“词元”的定名捕捉了其在人工智能语言模型中作为“基本离散符号单元”的本质,又可以通过类比自然延伸至多模态领域。在“词元”这一定名中,“词”点明其在语言场景下的根源,体现出token与表达对象语义的密切关联;“元”传达出“基本单元”之意,与“元素”等术语中的“元”保持一致的语义脉络。

“token”一词源于古英语tācen,意为“符号”或“标记”。在语言模型中,token是文本经过切分或字节级编码后得到的最小离散单元。它既可能是人类语言意义上的词串、单个词,也可能是词根、词缀、子词或单个字符。语言模型通过对token序列建模,展现出一定的智能水平。

全国计算机科学技术名词审定委员会副主任委员兼人工智能分委员会主任委员、中国科学院计算技术研究所研究员陈熙霖表示,“词元”一词可以将“作为语言基本语义单元”这一最初本质清晰表达出来,更贴合其在人工智能中的初始角色。

随着大模型从纯文本走向多模态,“token”所指已经扩展。图像被切分为“图像块”并映射为嵌入序列,语音片段可以被量化编码为离散单元,这些单元在多模态模型中同样被称为token,主要建模手段仍为序列模型。

此时,“词元”中的“词”超越了人类语言意义上的“词”,却能暗合术语命名中普遍存在的类比思维——将非文本模态的离散基本单元也视作“广义的词”。这种用法与“词云”(word cloud)、“词袋”(bag of word)类似,虽由文本衍生,但已成为人工智能领域中表达更宽泛语义的通用术语。“词元”在跨模态场景中承载了“离散基本单元”的语义,这种语义普遍存在于所有模态之中。

在中文文献、技术文档及学术交流中,“词元”作为描述大模型中token的译名,逐渐被学术界很多学者认同。token是模型将数据映射为离散符号序列的基本单位,本身并不携带智能,只是承载信息的载体;与“嵌入”“注意力”“隐状态”等术语并列时,保持了风格一致性;符合中文“二字词”偏好,表述简洁,易于传播。

国家数据局数据显示,2024年初,中国日均词元(token)调用量为1000亿;至2025年底,跃升至100万亿;今年3月,已突破140万亿,两年增长超千倍。

责编:陆威
版权和免责声明

版权声明: 凡来源为"交汇点、新华日报及其子报"或电头为"新华报业网"的稿件,均为新华报业网独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为"新华报业网",并保留"新华报业网"的电头。

免责声明: 本站转载稿件仅代表作者个人观点,与新华报业网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。

专题
视频

扫码下载

交汇点新闻APP

Android版

iPhone版

分享到微信朋友圈
打开微信,点击底部的“发现”,使用 “扫一扫” 即可将网页分享到我的朋友圈。
分享到QQ
手机QQ扫描二维码,点击右上角 ··· 按钮分享到QQ好友或QQ空间