当前位置：首页 > article >正文

深度学习-19-深入理解并训练自己的Tokenizer分词器

article 2024/10/3 23:40:59

文章目录

1 tokenization是什么
2 Tokenization方法简介
- 2.1 单词级的Tokenization
- 2.2 子词Tokenization技术
- 2.3 举例说明
- - 2.3.1 字符级别
  - 2.3.2 词语级别
  - 2.3.3 子词级别
3 训练自己的Tokenizer
- 3.1 下载数据集
- 3.2 huggingface的Tokenizer实现
- 3.3 my-tokenizer.json字段说明
- 3.4 验证一下tokenizer的结果
- 3.5 使用AutoTokenizer
- - 3.5.1 tokenizer_config.json
  - 3.5.2 加载使用分词器示例一
  - 3.5.3 加载使用分词器示例二
4 问题及解决
- 4.1 untagged enum ModelWrapper
5 参考附录

1 tokenization是什么

任何一段文本，输入给模型，都是要转换成一串embedding。
这个过程简单概括为：
(1)分词，并把词转换为token（即词的ID）
(2)token转换成embedding

而tokenization就是在做这第一步。

而对于第二步就是常见的Embedding查表操作，即根据token_id的值，去Embedding矩阵中查找第token_id行的数据作为embedding。

对于以下文本：你好，我的小名是小明
在这里插入图片描述

2 Tokenization方法简介

子词Tokenization(可以理解为分词)在很多SOTA NLP模型上得到广泛的使用，包括BERT和GPT-3。
它能很有效的处理未登陆词。

2.1 单词级的Tokenization

假设我们有一个训练数据集。
我们从这个训练数据集中构建一个词表。
为了构建该词表，我们将数据集中的

http://www.kler.cn/news/330951.html

相关文章：

Linux --入门学习笔记

Docker Compose 部署大模型GPU集群：高效分配与管理算力资源

redis从入门到精通

OpenCV threhold()函数

鸿蒙ArkUI实战开发-主打自研语言及框架

部分监督多器官医学图像分割中的标记与未标记分布对齐|文献速递--基于多模态-半监督深度学习的病理学诊断与病灶分割

scrapy爬取汽车、车评数据【上】

SpringBoot日常：链路追踪skyworking的接入

PostgreSQL的字段存储类型了解

第五周做题总结_数据结构_队列与应用

初识算法 · 双指针(3)

【web安全】——文件包含漏洞

【Text2SQL】当前在BIRD基准测试集上取得SOTA的论文

Rust SQLite 跨平台使用

YOLO11改进 | 检测头 | 融合渐进特征金字塔的检测头【AFPN4】

【web安全】——文件上传漏洞

大数据与人工智能：基础与应用的多维思考

【Threejs进阶教程-着色器篇】8. Shadertoy如何使用到Threejs-基础版

超详细Java泛型解析，由浅入深带你认识和使用泛型

Kevin‘s notes about Qt---Episode 6 不同类中创建同一对象