当前位置: 首页 > article >正文

深度学习-19-深入理解并训练自己的Tokenizer分词器

文章目录

  • 1 tokenization是什么
  • 2 Tokenization方法简介
    • 2.1 单词级的Tokenization
    • 2.2 子词Tokenization技术
    • 2.3 举例说明
      • 2.3.1 字符级别
      • 2.3.2 词语级别
      • 2.3.3 子词级别
  • 3 训练自己的Tokenizer
    • 3.1 下载数据集
    • 3.2 huggingface的Tokenizer实现
    • 3.3 my-tokenizer.json字段说明
    • 3.4 验证一下tokenizer的结果
    • 3.5 使用AutoTokenizer
      • 3.5.1 tokenizer_config.json
      • 3.5.2 加载使用分词器示例一
      • 3.5.3 加载使用分词器示例二
  • 4 问题及解决
    • 4.1 untagged enum ModelWrapper
  • 5 参考附录

1 tokenization是什么

任何一段文本,输入给模型,都是要转换成一串embedding。
这个过程简单概括为:
(1)分词,并把词转换为token(即词的ID)
(2)token转换成embedding

而tokenization就是在做这第一步。

而对于第二步就是常见的Embedding查表操作,即根据token_id的值,去Embedding矩阵中查找第token_id行的数据作为embedding。

对于以下文本:你好,我的小名是小明
在这里插入图片描述

2 Tokenization方法简介

子词Tokenization(可以理解为分词)在很多SOTA NLP模型上得到广泛的使用,包括BERT和GPT-3。
它能很有效的处理未登陆词。

2.1 单词级的Tokenization

假设我们有一个训练数据集。
我们从这个训练数据集中构建一个词表。
为了构建该词表,我们将数据集中的


http://www.kler.cn/news/330951.html

相关文章:

  • Linux --入门学习笔记
  • Docker Compose 部署大模型GPU集群:高效分配与管理算力资源
  • redis从入门到精通
  • OpenCV threhold()函数
  • 鸿蒙ArkUI实战开发-主打自研语言及框架
  • 部分监督多器官医学图像分割中的标记与未标记分布对齐|文献速递--基于多模态-半监督深度学习的病理学诊断与病灶分割
  • scrapy爬取汽车、车评数据【上】
  • SpringBoot日常:链路追踪skyworking的接入
  • PostgreSQL的字段存储类型了解
  • 第五周做题总结_数据结构_队列与应用
  • 初识算法 · 双指针(3)
  • 【web安全】——文件包含漏洞
  • 【Text2SQL】当前在BIRD基准测试集上取得SOTA的论文
  • Rust SQLite 跨平台使用
  • YOLO11改进 | 检测头 | 融合渐进特征金字塔的检测头【AFPN4】
  • 【web安全】——文件上传漏洞
  • 大数据与人工智能:基础与应用的多维思考
  • 【Threejs进阶教程-着色器篇】8. Shadertoy如何使用到Threejs-基础版
  • 超详细Java泛型解析,由浅入深带你认识和使用泛型
  • Kevin‘s notes about Qt---Episode 6 不同类中创建同一对象