当前位置: 首页 > article >正文

[论文笔记] tiktoken中的gpt4 tokenizer

亲测可用!!!!!

        注意是bytelevel的BPE!!

        只有vocab.json是不ok的,只能encode单字节的字符,对于中文这种会encode之后tokens,ids都是[]。 

gpt-tokenizer - npm

GitHub - openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI's models.

GitHub - weikang-wang/ChatGPT-Vocabulary: cl100k_base Vocabulary of ChatGPT and GPT-4

ChatGPT 与 GPT-4 tokenizer 揭秘 - 知乎</


http://www.kler.cn/a/155231.html

相关文章:

  • 【C语言】值传递和地址传递
  • 代码修改材质参数
  • 【Webpack实用指南】如何拆分CSS资源(2)
  • DOM 规范 — MutationObserver 接口
  • ODOO学习笔记(8):模块化架构的优势
  • RS®SZM 倍频器
  • Linux系列-1 Linux启动流程——init与systemd进程
  • 申请Azure学生订阅——人工验证
  • tcp/ip协议 error=10022 Winsock.reg Winsock2.reg
  • 【JavaEE】多线程(3) -- 线程等待 wait 和 notify
  • WIFI HaLow:智能家居的不可或缺组成
  • Linux部署HDFS集群
  • Hadoop——分布式计算MapReduce和资源调度Yarn
  • 6-65.Shape抽象类
  • 【科技素养】蓝桥杯STEMA 科技素养组模拟练习试卷14
  • 第九节HarmonyOS 常用基础组件4-Button
  • Sharding-Jdbc(3):Sharding-Jdbc分表
  • 微信小程序组件与插件有啥区别?怎么用?
  • Vue3 中el-tree-select使用中遇到的一些问题
  • SCAU:1125 定义结构体类型
  • 【Leetcode题单】(01 数组篇)刷题关键点总结01【数组的遍历】
  • java游戏攻略资讯网站的设计与实现springboot+vue
  • C 语言实现TCP 通信,以及地址复用
  • 《凤凰项目》读书笔记
  • LeetCode刷题笔记第80题:删除有序数组中的重复项 II
  • pandas基础1