当前位置: 首页 > article >正文

大语言模型分词器

大语言模型分词器

代码

import transformers
import tokenizers

from transformers import AutoTokenizer

tokenizers = AutoTokenizer.from_pretrained("data/bert-base-uncased")

text = "This is a test sentence."

tokens = tokenizers.encode(text)
token_count = len(tokens)

print("Tokens:", tokens)
print("len of Tokens:", len(tokens))

直接运行会报错
在这里插入图片描述

需要先导入包

pip install transformers tokenizers

在这里插入图片描述
再次运行
执行结果如下
在这里插入图片描述


http://www.kler.cn/a/499952.html

相关文章:

  • 硬件设计-齐纳管
  • 【AniGS】论文阅读
  • MySQL库表的操作
  • 【2024年华为OD机试】 (A卷,100分)- 端口合并(Java JS PythonC/C++)
  • TCP__滑动窗口__拥塞控制
  • electron 环境配置,离线安装,npm无法安装
  • 美摄科技PC端视频编辑解决方案,为企业打造专属的高效创作平台
  • AI问答:vue项目props传递参数 / 传递一个对象都包含好 / 还是分开多个传递好
  • 周记-CIE XYZ和RGB的区别
  • 一个基于用户行为日志的资源推荐系统落地
  • 《拉依达的嵌入式\驱动面试宝典》—操作系统篇(八)
  • 3D机器视觉的类型、应用和未来趋势
  • vue.js+websocket+mongodb实现纯粹的聊天室项目
  • React面试合集
  • 牛客网刷题 ——C语言初阶(6指针)——BC106 上三角矩阵判定
  • 天气app的收获
  • 频域自适应空洞卷积FADC详解
  • Spring Boot 支持哪些日志框架
  • vue实现淘宝web端,装饰淘宝店铺APP,以及后端设计成能快速响应前端APP
  • # LeetCode 3270. 求出数字答案 —— Python 解题思路与实现
  • Spring Boot + Jasypt 实现application.yml 属性加密的快速示例
  • 【25考研】川大计算机复试情况,重点是啥?怎么准备?