当前位置: 首页 > article >正文

[nlp] tokenizer

参考:NLP中的Tokenization - 知乎

1、Tokenization的难点

        Tokenization其实是为数值化作准备,数值化的过程必然需要映射,而映射又需要一个目标集合或者说映射表。

2、三类Tokenization方法      

        本节我们来讨论词粒度的相关方法。词粒度的切分就跟人类平时理解文本原理一样,可以用一些工具来完成,例如英文的NLTK、SpaCy,中文的jieba、HanLP等。

       词粒度Tokenization跟我们人类阅读时自然而然地切分是一致的。

       这种方法的优点是,能够很好地保留 词的语义和边界信息

       对于英文等拉丁语系的词粒度Tokenization很简单,我们可以直接按照空格便能水到渠成地切出来,但是针对中日韩这类文字是无法通过空格进行切分的,这时针对这类语言的文字我们便需要用到一些分词方法。这些方法中一类是使用模型学习如何分词的,另一类是


http://www.kler.cn/a/148888.html

相关文章:

  • 通过MongoDB Atlas 实现语义搜索与 RAG——迈向AI的搜索机制
  • 随机数
  • 前端,location.reload刷新页面
  • git下载慢下载不了?Git国内国外下载地址镜像,git安装视频教程
  • flutter下拉刷新上拉加载的简单实现方式三
  • 从社交媒体到元宇宙:Facebook未来发展新方向
  • 与中通支付对接
  • 前端 vue 面试题(二)
  • leaflet对线设置渐变色
  • LLM大语言模型
  • 深入redis过程-命令
  • 代码随想录算法训练营第四十九天【动态规划part10】 | 121. 买卖股票的最佳时机、122.买卖股票的最佳时机II
  • Android:从源码看FragmentManager如何工作
  • Python内置类属性`__name__`属性的使用教程
  • WPF中DataGrid解析
  • Webshell混淆免杀的一些思路
  • 成绩排序(练习链表)
  • 《数据结构、算法与应用C++语言描述》-二叉树与其他树-二叉树的C++实现-设置信号放大器与并查集问题
  • Positive Technologies 公司发布了一种保护容器环境的产品 PT Container Security
  • Android 13 - Media框架(14)- OpenMax(四)
  • 开源C++智能语音识别库whisper.cpp开发使用入门
  • Pytest自动化测试框架完美结合Allure
  • 微服务--05--配置管理
  • 大模型训练为什么用A100不用4090
  • Python编写的爬虫为什么受欢迎?
  • 【PHP】MySQL简介与MySQLi函数(含PHP与MySQL交互)