Token 基础

Token 是大模型(LLM)用来表示自然语言文本的基本单位,可以直观的理解为 “字” 或 “词”。通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 token

Token 用量计算

一般情况下模型中 token 和字数的换算比例大致如下:

1 个英文字符 ≈ 0.3 个 token。
1 个中文字符 ≈ 0.6 个 token。

分词器 Tokenizer

OpenAI 的大型语言模型使用分词处理文本,分词是一组文本中常见的字符序列。模型学习理解这些分词之间的统计关系,并且擅长生成序列中下一个分词。

tokenizer.png

您可以使用下述工具来了解一段文本可能被语言模型如何分词,以及该段文本中分词的总数。

https://platform.openai.com/tokenizer

分词流程

sequenceDiagram 用户输入->>分词器: "Hello World!" 分词器->>大语言模型: [Hello], [World], [!] 大语言模型->>输出结果: 生成回复 输出结果->>用户输入: 汇总回复用户 Note right of 用户输入: Token 是 LLM 处理文本的基础单位

更多:https://xiaosheng.blog/2021/12/11/transformers-note-2

未完待续...

未完待续…