当前位置：首页 > article >正文

【重构小程序】基于Tika和Langchain4J进行文件解析和文本切片（二）

article 2025/3/26 12:00:12

为了将大语言模型植入到小程序中，来支持用户的问答。那我们首先需要做的是什么呢，不是引入大语言模型，而且为大语言模型搭建一个私有化知识库，但是这是这节呢，我们先不搭建私有化知识库，在这之前，我们还需要做一个前置工作，那就是数据准备。

小版本的语言模型本身的能力不像大参数量的模型那样，有用强大的知识库和泛化能力。我们需要为其提供一个外部的知识库，为模型提供额外的知识储备，进而利用模型的推理能力回答用户的问题。搭建知识库之前，我们就需要将数据，存储到知识库中。那么首先，我们就需要解析文件得到元数据。

一、文本解析

为了解析到元数据，我们采用一个开源的工具，Apache Tika进行文件内容解析，这是一个由java开发的内容分析工具包。

<dependency>
   <groupId>org.apache.tika</groupId>
   <artifactId>tika-core</artifactId>
   <version>3.0.0</version>
</dependency>
<dependency>
   <groupId>org.apache.tika</groupId>
   <artifactId>tika-parsers-standard-package</artifactId>
   <version>3.0.0</version>
</dependency>

我们先创建一个工具类TikaUtil，编写一个函数用来解析我们传入的文件内容。

二、文本切片

有了向量数据库后，我们就需要把数据存入向量数据库中了，在这之前呢，我们需要写完成一个文件解析的功能，因为，要解释到元数据，才进行接下来的步骤，我们这里选择Apache Tika进行文件内容解析，这是一个由java开发的内容分析工具包。

<dependency>
   <groupId>org.apache.tika</groupId>
   <artifactId>tika-core</artifactId>
   <version>3.0.0</version>
</dependency>
<dependency>
   <groupId>org.apache.tika</groupId>
   <artifactId>tika-parsers-standard-package</artifactId>
   <version>3.0.0</version>
</dependency>

我们先创建一个工具类TikaUtil，编写一个函数用来解析我们传入的文件内容。

    public String extractText(MultipartFile file) {
        try {
            // 创建解析器--在不确定文档类型时候可以选择使用AutoDetectParser可以自动检测一个最合适的解析器
            Parser parser = new AutoDetectParser();
            // 用于捕获文档提取的文本内容。-1 参数表示使用无限缓冲区,解析到的内容通过此hander获取
            BodyContentHandler bodyContentHandler = new BodyContentHandler(-1);
            // 元数据对象，它在解析器中传递元数据属性---可以获取文档属性
            Metadata metadata = new Metadata();
            // 带有上下文相关信息的ParseContext实例，用于自定义解析过程。
            ParseContext parseContext = new ParseContext();
            parser.parse(file.getInputStream(), bodyContentHandler, metadata, parseContext);
            // 获取文本
            return bodyContentHandler.toString();
        } catch (Exception e) {
            e.printStackTrace();
            return null;
        }
    }

我们使用该工具即可获得文件的元数据。但是在问答的时候，我们不能将整个文件全部输入到大模型中，一方面是模型本身是拥有上上下文窗口大小限制，另一方面是大量的信息可能影响模型的推理时间和准确率。为了解决这种情况，我们需要将文本分块，把内容切割成一个一个的文本块，将每个块作为一个知识单元，再将其转换为向量表示存入向量数据库，这样大模型在检索的时候只需要将相关的文本块添加到上下文中，既能保证回答的准确性，也解决了上下文过长的问题。

对于分块的方法，在Langchain框架中，有多种分块策略：

固定大小分块：按固定字符数或单词数分割文本，简单直接，但可能破坏句子或段落的完整性。

按句子分块：使用自然语言处理工具（如NLTK、spaCy）按句子边界分割文本，适合处理句子级别的任务。

按段落分块：按段落分割文本，适合处理段落级别的任务，段落通常由换行符分隔。

重叠分块：在固定大小分块的基础上，允许块之间有重叠部分，避免信息丢失。

递归分块：递归地将文本分割成更小的部分，直到满足特定条件，适合处理复杂文本结构。

语义分块：根据语义或主题分割文本，通常需要自然语言处理技术识别语义边界。

在java社区，Langchain4J 旨在为 Java 开发者提供类似于 LangChain（基于 Python）的功能。LangChain4J 的目标是将 LangChain 的核心概念和功能移植到 Java 生态系统中，使 Java 开发者能够更方便地构建基于大语言模型（LLMs）的应用程序。Langchain4J

Langchain4J也为我们提供了多种文本分块方法：

DocumentByParagraphSplitter
DocumentByLineSplitter
DocumentBySentenceSplitter
DocumentByWordSplitter
DocumentByCharacterSplitter
DocumentByRegexSplitter
Recursive: DocumentSplitters.recursive(...)

在这之前，我们先新建一个TikaVo类，用作传输文档解析分片后的结果。

@Accessors(chain = true)
@Data
public class TikaVo implements Serializable {

    private List<String> text;

    private List<String> metadata;
}

这里，我们采用递归分割的方式，将输入的文本分割成块。

    private TikaVo splitParagraphs(String content) {
        DocumentSplitter splitter = DocumentSplitters.recursive(TARGET_LENGTH, LENGTH_TOLERANCE, new OpenAiTokenizer());
        List<TextSegment> split = splitter.split(Document.document(content));
        return new TikaVo().setText(split.stream().map(TextSegment::text).toList()).setMetadata(split.stream().map(textSegment -> JSON.toJSONString(textSegment.metadata())).toList());
    }

到这里，文件处理算是完成了，这里，我们可以写一个接口来测试一下效果,我这里就不展示了。感兴趣的小伙伴，也可以试试其他的切片方法。

后面，我们将介绍，如何将处理好的文本，存储到数据库中。

查看全文

http://www.kler.cn/a/599114.html