宠物之家网站建设,旅游网站技术方案,做论坛网站怎么样备案,中山祥云网站建设token是什么?
简单的来说tokens就是大语言模型输入的向量数据,它是从原始的文本转化而来。 比如 输入:here is a text demo tokens为:[64790, 64792, 985, 323, 260, 2254, 16948]
解码:将tokens转化为文本 [‘[gMASK]’, ‘sop’, ‘▁here’, ‘▁is’, ‘▁a’, ‘▁…token是什么?
简单的来说tokens就是大语言模型输入的向量数据,它是从原始的文本转化而来。 比如 输入:here is a text demo tokens为:[64790, 64792, 985, 323, 260, 2254, 16948]
解码:将tokens转化为文本 [‘[gMASK]’, ‘sop’, ‘▁here’, ‘▁is’, ‘▁a’, ‘▁text’, ‘▁demo’]
如何计算tokens数量
由于没有任何的公开的 Zhipu AI token计算工具,因此,我使用了 chatglm3-6b 这个开源模型的 tokenizer进行加载。这种计算方式仅能作为参考,尚且不能认定是最终的 API token 计算方式。具体的计价方式以官方文档为主。
示例源码 import warnings
warnings.filterwarnings('ignore')
import os
from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("chatglm3-6b", trust_remote_code=True, encode_special_tokens=True)def count_encode(inputs: str = ""):encoded_input = tokenizer.encode(inputs)num_tokens = len(encoded_input)r