电力领域检索增强生成框架
电力领域检索增强生成框架
目录
-
- 电力领域检索增强生成框架
-
- 数据准备阶段(Offline Component)
- 模型微调阶段(Offline Component)
- 检索推理阶段(Online Component)
电力领域检索增强生成框架的整体流程,主要分为三个阶段:数据准备阶段、模型微调阶段和检索推理阶段。
数据准备阶段(Offline Component)
- 文档转换(Document Conversion):将原始的PDF等格式文档转换为Markdown格式,去除题目、引言、目录、附录和参考文献等非正文部分,只保留正文内容,并确保标题等级与原文一致,同时考虑页码和表格数据对标题识别的干扰,保证同级和层级标题的有序性。
- 元信息抽取与增强(Metadata Enhancement):从文档中抽取**章节标题等元信息,**例如从电力规范文档中提取出“电力系统启动流程”“运行参数监测要点”等关键信息,还会结合各层级文本段信息生成更详尽的元信息描述,使文档的整体理解更加准确和全面。
- 文档解析(Document Parsing):将文