token
Token 基础
Token 是大模型(LLM)用来表示自然语言文本的基本单位,可以直观的理解为 “字” 或 “词”。通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 token
Token 用量计算
一般情况下模型中 token 和字数的换算比例大致如下:
1 个英文字符 ≈ 0.3 个 token。
1 个中文字符 ≈ 0.6 个 token。
分词器 Tokenizer
OpenAI 的大型语言模型使用分词处理文本,分词是一组文本中常见的字符序列。模型学习理解这些分词之间的统计关系,并且擅长生成序列中下一个分词。

您可以使用下述工具来了解一段文本可能被语言模型如何分词,以及该段文本中分词的总数。
https://platform.openai.com/tokenizer
分词流程
sequenceDiagram
用户输入->>分词器: "Hello World!"
分词器->>大语言模型: [Hello], [World], [!]
大语言模型->>输出结果: 生成回复
输出结果->>用户输入: 汇总回复用户
Note right of 用户输入: Token 是 LLM 处理文本的基础单位
更多:https://xiaosheng.blog/2021/12/11/transformers-note-2
未完待续...
未完待续…