当前位置：首页 > article >正文

[nlp] tokenizer

article 2024/11/15 17:39:58

参考：NLP中的Tokenization - 知乎

Tokenization其实是为数值化作准备，数值化的过程必然需要映射，而映射又需要一个目标集合或者说映射表。

本节我们来讨论词粒度的相关方法。词粒度的切分就跟人类平时理解文本原理一样，可以用一些工具来完成，例如英文的NLTK、SpaCy，中文的jieba、HanLP等。

词粒度Tokenization跟我们人类阅读时自然而然地切分是一致的。

这种方法的优点是，能够很好地保留 词的语义和边界信息。

对于英文等拉丁语系的词粒度Tokenization很简单，我们可以直接按照空格便能水到渠成地切出来，但是针对中日韩这类文字是无法通过空格进行切分的，这时针对这类语言的文字我们便需要用到一些分词方法。这些方法中一类是使用模型学习如何分词的，另一类是

与中通支付对接

前端 vue 面试题(二)

leaflet对线设置渐变色

LLM大语言模型

深入redis过程-命令

WPF中DataGrid解析

Webshell混淆免杀的一些思路

成绩排序（练习链表）

Pytest自动化测试框架完美结合Allure

微服务--05--配置管理

大模型训练为什么用A100不用4090

Python编写的爬虫为什么受欢迎？