[nlp] tokenizer
参考:NLP中的Tokenization - 知乎
1、Tokenization的难点
Tokenization其实是为数值化作准备,数值化的过程必然需要映射,而映射又需要一个目标集合或者说映射表。
2、三类Tokenization方法
本节我们来讨论词粒度的相关方法。词粒度的切分就跟人类平时理解文本原理一样,可以用一些工具来完成,例如英文的NLTK、SpaCy,中文的jieba、HanLP等。
词粒度Tokenization跟我们人类阅读时自然而然地切分是一致的。
这种方法的优点是,能够很好地保留 词的语义和边界信息。
对于英文等拉丁语系的词粒度Tokenization很简单,我们可以直接按照空格便能水到渠成地切出来,但是针对中日韩这类文字是无法通过空格进行切分的,这时针对这类语言的文字我们便需要用到一些分词方法。这些方法中一类是使用模型学习如何分词的,另一类是