网易首页 > 网易号 > 正文 申请入驻

大模型中的Token,一文读懂

0
分享至

Token是大模型最基础、最常见的概念,如何翻译没有定论,“标记”“词”“令牌”都有,复旦大学计算机学院邱锡鹏教授将其翻译为“词元”,个人认为比较恰当。

众所周知,大语言模型训练语料数量、上下文的限制、生成速度都用Token表示。

比如:

  • 通义千问-7B使用超过2.4万亿tokens的数据进行预训练,

  • 模型后面带着8k、32k,就是指在生成响应或进行预测时最大文本长度

  • 评估大模型生成速度的TPS,指的是每秒输出token数

Token是指语言模型中用来表示中文汉字、英文单词、或中英文短语的符号。

Token可以是单个字符,也可以是多个字符组成的序列。

网上各种资料,关于一个 token是多少汉字说法不一。

最为知名的大模型ChatGPT,模型使用Byte Pair Encoding(BPE,一种子词分词方法,可以将词语进一步划分为更小的可重复部分)进行文本编码,这种编码方式在处理不同语言时的效率可能会有所不同。

GPT-3:每词输出最高上限为2049个Token,大约可以写出1000字的中文文章、1720字的英文文章 GPT-4:每词输出最高上限为32768个Token,约是16056个中文字、25000个英文字

对于汉语等字形语言,一个token可能只包含一个字符,但对于英语等词素语言,一个token可能包含一个或多个单词

OpenAI官方文档中介绍:“1000个token通常代表750个英文单词或500个汉字。1 个token大约为 4 个字符或 0.75 个单词。”

1个字母=1个字符,举例,hello=5字符 1个汉字=1个字符,举例,你好=2字符

这里有OpenAI官方的token计算工具 :https://platform.openai.com/tokenizer

就如刚才所说,不同模型可能有自己的切分方法,对应地,一个Token对应地汉字数也不一样。一个Token对应汉字,0.75到1.8个汉字不等。

百度文心一言也提供了token计算器来在线计算文心大模型的字符转token数。

网址:https://console.bce.baidu.com/support/#/tokenizer

阿里通义千问也有:https://dashscope.console.aliyun.com/tokenizer

所以一个Token有多少个汉字,具体取决于分词器的设计。

目前的各种tokenization技术,涉及到将文本分割成有意义的单元,以捕捉其语义和句法结构,如字级、子字级(例如,使用字节对编码或 WordPiece)或字符级。

根据特定语言和特定任务的需求,每种技术都有自己的优势和权衡。比如Qwen-7B采用UTF-8字节级别的BPE tokenization方式,并依赖OpenAI开源的tiktoken软件包执行分词。

  • 字节对编码(BPE):为AI模型构建子词词汇,用于合并出现频繁的字符/子字对。

  • 子词级tokenization:为复杂语言和词汇划分单词。将单词拆分成更小的单元,这对于复杂的语言很重要。

  • 单词级tokenization:用于语言处理的基本文本tokenization。每个单词都被用作一个不同的token,它很简单,但受到限制。

  • 句子片段:用习得的子词片段分割文本,基于所学子单词片段的分段。

  • 分词tokenization:采用不同合并方法的子词单元。

  • 字节级tokenization:使用字节级token处理文本多样性,将每个字节视为令牌,这对于多语言任务非常重要。

  • 混合tokenization:平衡精细细节和可解释性,结合词级和子词级tokenization。

关于tokenization,如果大家感兴趣,下一篇我详细讲讲。

最后再推荐一个网站,可以一目了然地查看大模型性能:https://llmbenchmark.liduos.com/?r=cdr

这个网站会实时展示不同大模型的:TTFT、TPS 和 Total,表头支持排序和筛选。

llmbenchmark.liduos.com是@juberti的团队发布thefastest.ai的国内版

大家如果对国外大模型API性能感兴趣可以访问:https://thefastest.ai

这个项目还是开源的:https://github.com/fixie-ai/thefastest.ai

最后推一下我的星球:只聊技术变现,不复制粘贴资讯,不会搬运他人观点。我会在这里分享对新技术的思考,风口赚钱项目,介绍变现套路,为大家答疑解惑。你可以把我当作你的另一双眼睛,帮你筛选,解读最有价值的信息。现在加入附赠1)AI资料大礼包;2)GPT、Claude 、Gemini、Llama、Qwen、DeepSeek、Minimax、Moonshot、Yi、GLM国内网络免费使用;3)部分公众号付费专栏或付费阅读的文章免费畅读;4)AI绘画、高效AI工具、高质量资料分享;5)微信群&有问必答

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
近期爆火!广东一地紧急提醒:3克即可致死,无特效药

近期爆火!广东一地紧急提醒:3克即可致死,无特效药

珠海发布
2026-04-17 14:04:49
援助伊朗硬刚以色列!李在明拒不道歉,韩国真要彻底脱美?

援助伊朗硬刚以色列!李在明拒不道歉,韩国真要彻底脱美?

南宗历史
2026-04-17 20:28:43
里沙利松:世界杯后多次想开车撞墙,但我妻子的出现拯救了我

里沙利松:世界杯后多次想开车撞墙,但我妻子的出现拯救了我

懂球帝
2026-04-17 19:44:25
信仰不是法外之地,全国开始雷霆出击整顿寺庙

信仰不是法外之地,全国开始雷霆出击整顿寺庙

世界圈
2026-04-17 08:50:05
曝台湾省歌手费玉清现状曝光!无儿无女,和女闺蜜互相解决需求

曝台湾省歌手费玉清现状曝光!无儿无女,和女闺蜜互相解决需求

小徐讲八卦
2026-04-02 07:51:08
泼水节汽车被喷水后续 拉车门男子已社死 车主将追责 云南文旅沦陷

泼水节汽车被喷水后续 拉车门男子已社死 车主将追责 云南文旅沦陷

娱乐的硬糖吖
2026-04-17 01:13:22
再年轻也没用!江西23岁徐平安去世,死因曝光,源头竟是一颗痣

再年轻也没用!江西23岁徐平安去世,死因曝光,源头竟是一颗痣

哄动一时啊
2026-04-17 10:04:05
纪委大数据系统到底啥时候会启动?别瞎猜,真相都在这里

纪委大数据系统到底啥时候会启动?别瞎猜,真相都在这里

呼呼历史论
2026-04-17 19:33:26
世乒赛临近,众多国乒前辈赶来驰援!这一刻,我眼眶湿润了

世乒赛临近,众多国乒前辈赶来驰援!这一刻,我眼眶湿润了

十点街球体育
2026-04-17 06:05:03
曾被越南拖着不还的中国领土,现在回归后,当地人成一特殊民族

曾被越南拖着不还的中国领土,现在回归后,当地人成一特殊民族

掠影后有感
2026-04-17 10:11:06
曝乌克兰突袭攻入俄罗斯领土!控制库尔斯克5块阵地

曝乌克兰突袭攻入俄罗斯领土!控制库尔斯克5块阵地

项鹏飞
2026-04-16 19:16:05
罗大美命案:主犯已执行死刑!央媒曝光,缺关键证据:俩帮凶活命

罗大美命案:主犯已执行死刑!央媒曝光,缺关键证据:俩帮凶活命

川渝视觉
2026-04-17 13:33:15
《年会不能停2!》亮相北影节,职场新搭子张若昀白客“班味”拉满

《年会不能停2!》亮相北影节,职场新搭子张若昀白客“班味”拉满

北青网-北京青年报
2026-04-17 13:12:04
赔了夫人又折兵!以为能“毁掉”全红婵,不料自己先被扒个底朝天

赔了夫人又折兵!以为能“毁掉”全红婵,不料自己先被扒个底朝天

乐享人生风雨
2026-04-15 20:41:09
比失业更可怕的是工资倒退,深圳的工资已经降到了10年前

比失业更可怕的是工资倒退,深圳的工资已经降到了10年前

细说职场
2026-04-07 11:32:47
太嚣张了!中方竟收到恐吓信,领馆紧急警告:国人不要去日本!

太嚣张了!中方竟收到恐吓信,领馆紧急警告:国人不要去日本!

阿芒娱乐说
2026-04-17 19:22:14
年报唯一一家,社保基金新进重仓光纤股,两年大跌70%又横盘一年

年报唯一一家,社保基金新进重仓光纤股,两年大跌70%又横盘一年

长风价值掘金
2026-04-17 16:05:12
11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

半糖甜而不腻
2026-04-06 12:09:15
女子出轨被丈夫捉奸在床

女子出轨被丈夫捉奸在床

太阳来
2026-04-10 17:15:06
牌面!赵心童占据克鲁斯堡海报C位 英媒泼冷水:墨菲会送他回家

牌面!赵心童占据克鲁斯堡海报C位 英媒泼冷水:墨菲会送他回家

风过乡
2026-04-17 09:28:22
2026-04-17 21:20:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3328文章数 11133关注度
往期回顾 全部

教育要闻

即将开考!南京各区期中考试、一模考试时间来了

头条要闻

与被告同名同姓 女子称被异地法院错判存款遭司法扣划

头条要闻

与被告同名同姓 女子称被异地法院错判存款遭司法扣划

体育要闻

遭网暴后,22岁大满贯冠军反击:我的头发足够好

娱乐要闻

刘德华挚友潘宏彬离世 曾一起租房住

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

科技要闻

7家头部平台被罚没35.97亿元

汽车要闻

又快又稳的开挂动力! 阿维塔06T全系搭分布式电驱

态度原创

教育
艺术
时尚
房产
健康

教育要闻

家里只要有一个人做这件事,孩子就有救了

艺术要闻

18幅印象风景写生 | 乌克兰画家Daniil Volkov

60岁路人爆改时尚魔头?有效改造的底层逻辑就这1点

房产要闻

重磅利好!2500个学位,海口滨江片区,要建九年一贯制学校!

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版