当前位置: 首页 > article >正文

【NLP笔记】文本分词、清洗和标准化

文章目录

  • 文本分词
    • 中文分词
    • 英文分词
    • 代码示例
  • 文本清洗和标准化

文本分词

参考文章:​一文看懂NLP里的分词(中英文分词区别+3 大难点+3 种典型方法);

文本分词处理NLP的基础,先通过对文本内容进行分词、文本与处理(无用标签、特殊符号、停用词、大写转小写)、向量化等操作,然后才能够作为各种算法的输入,分词一直是 NLP 的基础,但是现在也不一定了,不过在一些特定任务中,分词还是必要的。如:关键词提取、命名实体识别等,感兴趣的可以看看这篇论文:Is Word Segmentation Necessary for Deep Learning of Chinese Representations?

中文分词

  1. HanLP;
  2. 斯坦福CoreNLP;
  3. ANSJ;
  4. 哈工大LTP;
  5. KCWS;
  6. Jieba;
  7. IK;
  8. 清华大学THULAC;
  9. ICATLAS;

英文分词

  1. keras;
  2. spaCy;
  3. gensim;
  4. nltk;

代码示例

  • 文本分词:自然语言处理(NLP)(一)文本预处理篇之分词、向量表示和特征处理;
  • 文档分词:批量处理文件构造语料库并训练Doc2Vec模型(基于gensim的实现);

文本清洗和标准化

参考文档:

  • NLP文本技术 nlp文本预处理;
  • 文本的清洗和标准化:如何处理混乱的数据?;
  • Steps for effective text data cleaning (with case study using Python);
  • 文本清洗(小技巧);

经分词后的文本通常包含很多冗余信息,因此需要进行数据清洗,具体包含:文本清洗(无用标签剔除、特殊符号剔除、停用词剔除、大小写转换等)和文本标准化(字符集的转换、单词的统一化、时间和日期的统一化);

在完成具体任务时,需要根据任务目标对文本数据进行清洗,保证冗余信息的剔除。


http://www.kler.cn/a/271419.html

相关文章:

  • 优盘恢复原始容量工具
  • 【Java异步编程】CompletableFuture基础(1):创建不同线程的子任务、子任务链式调用与异常处理
  • 理解神经网络:Brain.js 背后的核心思想
  • springboot 2.7.6 security mysql redis jwt配置例子
  • 适合超多氛围灯节点应用的新选择
  • 基于Python的药物相互作用预测模型AI构建与优化(下.代码部分)
  • 【学习学习】学习金字塔
  • 前端小白的学习之路(HTML5 二)
  • Fork - 将 GitHub 的某个特定仓库复制到自己的账户下
  • 【数据可视化】使用Python + Gephi,构建中医方剂关系网络图!
  • Acwing.1343 挤牛奶(区间合并or差分)
  • 爬虫基本原理介绍、实现以及问题解决
  • html编辑器
  • 分布式链路追踪(一)SkyWalking(2)使用
  • 橡胶工厂5G智能制造数字孪生可视化平台,推进橡胶工业数字化转型
  • 数据结构与算法----复习Part 16 (并查集)
  • R语言实现中介分析(1)
  • 2024 年系统架构设计师(全套资料)
  • 分布式ID(8):分布式ID生成方法
  • 使用Nginx进行负载均衡
  • 【好玩的经典游戏】Docker环境下部署经典贪吃蛇小游戏
  • CommandInvokationFailure: Failed to update Android SDK package list. 报错的解决方法
  • mac打开exe文件的三大方法 mac怎么运行exe文件 mac打开exe游戏 macbookpro打开exe
  • ArrayList和LinkedList区别
  • Parade Series - Web Streamer Low Latency
  • 数字图像处理 使用C#进行图像处理九 实现傅里叶变换