当前位置: 首页 > article >正文

[论文笔记] tiktoken中的gpt4 tokenizer

亲测可用!!!!!

        注意是bytelevel的BPE!!

        只有vocab.json是不ok的,只能encode单字节的字符,对于中文这种会encode之后tokens,ids都是[]。 

gpt-tokenizer - npm

GitHub - openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI's models.

GitHub - weikang-wang/ChatGPT-Vocabulary: cl100k_base Vocabulary of ChatGPT and GPT-4

ChatGPT 与 GPT-4 tokenizer 揭秘 - 知乎</


http://www.kler.cn/news/155231.html

相关文章:

  • Linux系列-1 Linux启动流程——init与systemd进程
  • 申请Azure学生订阅——人工验证
  • tcp/ip协议 error=10022 Winsock.reg Winsock2.reg
  • 【JavaEE】多线程(3) -- 线程等待 wait 和 notify
  • WIFI HaLow:智能家居的不可或缺组成
  • Linux部署HDFS集群
  • Hadoop——分布式计算MapReduce和资源调度Yarn
  • 6-65.Shape抽象类
  • 【科技素养】蓝桥杯STEMA 科技素养组模拟练习试卷14
  • 第九节HarmonyOS 常用基础组件4-Button
  • Sharding-Jdbc(3):Sharding-Jdbc分表
  • 微信小程序组件与插件有啥区别?怎么用?
  • Vue3 中el-tree-select使用中遇到的一些问题
  • SCAU:1125 定义结构体类型
  • 【Leetcode题单】(01 数组篇)刷题关键点总结01【数组的遍历】
  • java游戏攻略资讯网站的设计与实现springboot+vue
  • C 语言实现TCP 通信,以及地址复用
  • 《凤凰项目》读书笔记
  • LeetCode刷题笔记第80题:删除有序数组中的重复项 II
  • pandas基础1
  • 观察者设计模式
  • ZooKeeper 如何保证数据一致性?
  • 二叉树链式结构的实现和二叉树的遍历以及判断完全二叉树
  • CentOS配置本地源
  • Python 内置异常
  • 内存函数​(memcpy、memmove、memset、memcmp)
  • 奇葩问题:arp缓存、ip地址冲突(实际是ip地址被占用导致arp缓存出现问题)
  • GEE:不同方向的线性检测算子
  • 【C语言学习疑难杂症】第9期:关于%*s以及%*d等的使用
  • 点云从入门到精通技术详解100篇-基于三维点云的工件曲面轮廓检测与机器人打磨轨迹规划(下)