[论文笔记] tiktoken中的gpt4 tokenizer
亲测可用!!!!!
注意是bytelevel的BPE!!
只有vocab.json是不ok的,只能encode单字节的字符,对于中文这种会encode之后tokens,ids都是[]。
gpt-tokenizer - npm
GitHub - openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI's models.
GitHub - weikang-wang/ChatGPT-Vocabulary: cl100k_base Vocabulary of ChatGPT and GPT-4
ChatGPT 与 GPT-4 tokenizer 揭秘 - 知乎</