当前位置: 首页 > article >正文

NLP segment-03-基于 TF-IDF 实现关键词提取 java 开源实现

拓展阅读

分词系列专题

jieba-fenci 01 结巴分词原理讲解 segment

jieba-fenci 02 结巴分词原理讲解之数据归一化 segment

jieba-fenci 03 结巴分词与繁简体转换 segment

jieba-fenci 04 结巴分词之词性标注实现思路 speechTagging segment

关键词系列专题

NLP segment-01-聊一聊分词

NLP segment-02-聊一聊关键词提取 keyword

NLP segment-03-基于 TF-IDF 实现关键词提取 java 开源实现

NLP segment-04-自动摘要 auto-summary java 开源实现

NLP segment-20-分词开源项目介绍 HanLP 未来十年的自然语言处理

NLP segment-21-分词开源项目介绍 ansj_seg

倒排索引原理与实现 reverse-index

TF-IDF 自动生成文章摘要

TF-IDF 自动提取关键词

相似文章算法之语义指纹-文本内容去重

TF-IDF 找出相似文章算法

NLP segment-21-分词开源项目介绍 ansj_seg

开源项目

为了便于大家学习,项目开源地址如下,欢迎 fork+star 鼓励一下老马~

nlp-keyword 关键词

pinyin 汉字转拼音

segment 高性能中文分词

opencc4j 中文繁简体转换

nlp-hanzi-similar 汉字相似度

word-checker 拼写检测

sensitive-word 敏感词

前言

前面一些内容,我们介绍了分词。

以及 TF-IDF 的实现原理。

当然,这些都是知识,但不是工具。

我们将其转换为方便可用的 java 工具。

nlp-keyword

nlp-keyword 高性能的 java 分词关键词提取实现,基于分词 segment。

愿景:成为 java 最好用的关键词工具。

特性

  • 基于 TF-IDF 算法的关键字算法

  • 灵活的条件指定

变更日志

快速开始

maven 引入

<dependency>
    <groupId>com.github.houbb</groupId>
    <artifactId>keyword</artifactId>
    <version>1.0.0</version>
</dependency>

快速开始

  • 获取关键词
final String text = "这是一个伸手不见五指的黑夜,夜太美。";

List<IKeywordResult> keywords =  KeywordHelper.keyword(text);
Assert.assertEquals("[伸手不见|0.86879235325, 太美|0.70848301840625, 伸手不见五指|0.63371734601875, 黑夜|0.509854654010625, 伸手|0.43563643037625]", keywords.toString());
  • 指定返回的个数
final String text = "这是一个伸手不见五指的黑夜,夜太美。";

List<IKeywordResult> keywords =  KeywordHelper.keyword(text, 1);
Assert.assertEquals("[伸手不见|0.86879235325]", keywords.toString());
  • 指定返回的格式
final String text = "这是一个伸手不见五指的黑夜,夜太美。";

List<String> keywords =  KeywordHelper.keyword(text, 1, KeywordResultHandlers.words());
Assert.assertEquals("[伸手不见]", keywords.toString());

ROAD-MAP

  • [] 字典数据独立,便于用户自定义选择

  • [] 文本相似度

  • [] auto-summary 自动摘要


http://www.kler.cn/a/383514.html

相关文章:

  • React中类组件和函数组件的理解和区别
  • 极狐GitLab 签约足下科技,加速国产智驾操作系统的发展与普及
  • string模拟实现插入+删除
  • kill-start系统进程的研究
  • nuiapp vue3 uni-ui uni.uploadFile 图片上传
  • 数据库->索引
  • 【无标题】123
  • Web Components 是什么
  • 少儿编程教育的多维度对比:软件类、硬件类与软硬件结合课程的选择
  • 【网易云插件】听首歌放松放松
  • Oracle视频基础1.4.5练习
  • sdm845(oneplus6)的开机变砖(启动漰溃)ramdump被开源git仓库linux-ramdump-parser-v2提交3e7f37-正确解析
  • 代码随想录训练营Day19 | 39. 组合总和 - 40.组合总和II - 131.分割回文串
  • OpenCV视觉分析之目标跟踪(8)目标跟踪函数CamShift()使用
  • 【RESP问题】RESP.app GUI for Redis 连接不上redis服务器
  • AI - 使用LangChain请求LLM结构化生成内容
  • Unet++改进3:添加NAMAttention注意力机制
  • 重新回顾反向传播与梯度下降:训练神经网络的基石
  • Redis安装配置及基本使用(保姆级安装教程非常耐用)
  • 【云原生开发】K8S多集群资源管理平台架构设计
  • 【静态页面】尚品汇 1、设计稿分析及资源准备
  • Nginx 在中小企业的初级应用实操指南
  • 【HCIP园区网综合拓扑实验】配置步骤与详解(未施工完,持续更新中)
  • git撤销commit和add
  • 【YOLO学习】YOLOv8改进举例
  • 深入理解Java虚拟机(JVM):从基础到实战