当前位置：首页 > article >正文

用java如何利用jieba进行分词

article 2025/3/10 5:18:21

在Java中使用jieba进行分词，可以借助jieba的Java版本——jieba-analysis。jieba-analysis是一个基于jieba分词算法的Java实现，支持精确模式、全模式和搜索引擎模式等多种分词方式。

以下是使用jieba-analysis进行分词的详细步骤和示例代码：

1. 添加依赖

首先，需要在项目的pom.xml文件中添加jieba-analysis的依赖。如果你使用的是Maven项目，可以添加以下依赖：

xml复制

<dependency>
    <groupId>com.huaban</groupId>
    <artifactId>jieba-analysis</artifactId>
    <version>1.0.2</version>
</dependency>

如果你使用的是Gradle项目，可以在build.gradle文件中添加以下依赖：

gradle复制

implementation 'com.huaban:jieba-analysis:1.0.2'

2. 使用`jieba`进行分词

以下是使用jieba-analysis进行分词的示例代码：

示例代码

java复制

import com.huaban.analysis.jieba.JiebaSegmenter;
import com.huaban.analysis.jieba.SegResult;

import java.util.List;

public class JiebaDemo {
    public static void main(String[] args) {
        // 创建分词器对象
        JiebaSegmenter segmenter = new JiebaSegmenter();

        // 待分词的文本
        String text = "小米13 Pro 5G手机，性价比超高！";

        // 使用精确模式分词
        List<String> segList = segmenter.sentenceProcess(text);
        System.out.println("精确模式分词结果：");
        for (String word : segList) {
            System.out.println(word);
        }

        // 使用全模式分词
        List<SegToken> process = segmenter.process(text, JiebaSegmenter.SegMode.SEARCH);
        List<String> fullSegList = process.stream().map(data->data.word).collect(Collectors.toList());
        System.out.println("搜索引擎模式分词结果：");
        for (String word : fullSegList) {
            System.out.println(word);
        }
    }
}

输出结果

假设输入文本为"小米13 Pro 5G手机，性价比超高！"，运行上述代码后，输出可能如下：

复制

精确模式分词结果：
小米
13
Pro
5G
手机
，
性价比
超高
！

搜索引擎模式分词结果：
小米
13
Pro
5G
手机
性价比
超高

3. 分词模式说明

jieba-analysis支持以下几种分词模式：

精确模式：试图将句子最精确地切开，适合文本分析。
- 调用方法：segmenter.sentenceProcess(text)
全模式：把句子中所有可能的词语都扫描出来，速度非常快，但是不能解决歧义。
- 调用方法：segmenter.process(text, JiebaSegmenter.SegMode.FULL)
搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎构建倒排索引的分词，粒度比较细。
- 调用方法：segmenter.process(text, JiebaSegmenter.SegMode.SEARCH)

4. 应用场景

在你的数据库分词方案中，可以使用jieba-analysis对product表中的title字段进行分词，并将分词结果存储到product_keyword表中。以下是完整的流程代码示例：

示例：分词并存储到数据库

java复制

import com.huaban.analysis.jieba.JiebaSegmenter;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.util.List;

public class JiebaWithDatabase {
    public static void main(String[] args) {
        // 数据库连接信息
        String url = "jdbc:mysql://localhost:3306/your_database";
        String user = "your_username";
        String password = "your_password";

        // 待分词的文本
        String text = "小米13 Pro 5G手机，性价比超高！";
        int productId = 1; // 假设这是商品ID

        // 创建分词器
        JiebaSegmenter segmenter = new JiebaSegmenter();

        // 使用精确模式分词
        List<String> segList = segmenter.sentenceProcess(text);

        // 连接数据库并插入分词结果
        try (Connection conn = DriverManager.getConnection(url, user, password)) {
            String sql = "INSERT INTO product_keyword (product_id, keyword) VALUES (?, ?)";
            PreparedStatement pstmt = conn.prepareStatement(sql);

            for (String word : segList) {
                pstmt.setInt(1, productId);
                pstmt.setString(2, word);
                pstmt.executeUpdate();
            }

            System.out.println("分词结果已存储到数据库！");
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}