提示词工程 — 科研论文笔记
【20250328】大型语言模型中的提示工程技术与应用系统调查A Systematic Survey of Prompt Engineering in Large Language Models Techniques and Applications(2024)
研究背景
- 研究问题:本文探讨了提示工程(Prompt Engineering)在大型语言模型(LLMs)和视觉语言模型(VLMs)中的应用,强调其在增强模型能力和适应性方面的重要性。提示工程通过设计特定的任务指令(提示),使得模型在不修改核心参数的情况下,能够更好地完成下游任务。
- 研究难点:尽管提示工程已被广泛应用,但对其方法和技术的系统性理解仍然不足,尤其是在不同应用领域的分类和比较上存在明显的空白。
- 关键论点:
- 提示工程允许通过自然语言指令或学习到的向量表示,激活模型的相关知识,从而提升模型在各种应用中的表现。
- 本文提供了对29种不同提示工程技术的系统性回顾,涵盖其应用领域、方法论、模型和数据集的总结。
- 通过对各类提示技术的优缺点进行分析,本文旨在为未来的研究提供指导。
- 相关工作:已有研究对提示工程进行了初步探索,包括零-shot和few-shot提示等基础方法,以及更复杂的“思维链”提示等新兴技术。然而,缺乏对这些技术的全面和系统性评估。
研究方法
本文的研究方法主要围绕提示工程技术的分类和分析,具体包括以下几个方面:
- 提示工程技术分类:本文将提示工程技术分为多个应用领域,涵盖从基础到高级的多种技术。特别强调了零-shot和few-shot提示的应用。
- 方法设计:本文通过系统回顾的方式,详细探讨了不同提示方法的设计及其在各类任务中的表现。对于每种提示方法,提供了其应用、所涉及的模型和使用的数据集的概述。
- 方法创新点:本文引入了新的提示技术,如链式思维(Chain-of-Thought)提示和自动链式思维(Auto-CoT)提示,这些技术在复杂推理任务中表现出色,能够引导模型进行更为结构化的推理。
- 技术概括:以下是文中提到的几种提示词工程技术的罗列和概括:
-
- 零-shot 提示(Zero-Shot Prompting):
- 该技术通过精心设计的提示,引导模型完成新任务,而无需提供标注数据。模型利用其已有知识根据提示生成预测。
-
- 少-shot 提示(Few-Shot Prompting):
- 提供少量的输入-输出示例来帮助模型理解任务。相比于零-shot 提示,少-shot 提示能显著提高复杂任务的模型性能。
-
- 链式思维提示(Chain-of-Thought Prompting, CoT):
- 通过引导模型进行逐步推理,帮助其在复杂推理任务中表现更好。该方法强调逻辑推理的连贯性。
-
- 自动链式思维提示(Automatic Chain-of-Thought, Auto-CoT):
- 自动生成链式思维示例,减少人工创建的工作量,并通过多样化采样提高模型的鲁棒性。
-
- 自一致性(Self-Consistency):
- 通过生成多条推理链并选择一致的最终答案,增强复杂推理任务的表现。
-
- 逻辑链式思维提示(Logical Chain-of-Thought, LogiCoT):
- 结合符号逻辑的原则,通过逐步验证推理步骤,减少逻辑错误和幻觉。
-
- 树形思维提示(Tree-of-Thoughts, ToT):
- 通过管理推理步骤的树状结构,允许模型系统性地探索推理链。
-
- 图形思维提示(Graph-of-Thoughts, GoT):
- 将推理过程建模为有向图,允许动态交互和回溯,增强推理能力。
-
- 检索增强生成(Retrieval Augmented Generation, RAG):
- 将信息检索与提示过程相结合,利用外部知识库提高生成文本的准确性。
-
- 情感提示(Emotion Prompting):
- 通过在提示中添加情感刺激句子,增强模型对情感线索的理解和处理能力。
-
- 程序思维提示(Program of Thoughts, PoT):
- 通过使用外部语言解释器,帮助模型在解决数学表达式时进行更好的推理。
-
- 自动提示工程(Automatic Prompt Engineer, APE):
- 动态生成和选择最有效的提示,提升模型在特定任务上的表现。
-
这些技术通过不同的方式增强了大型语言模型在各种任务中的表现和适应性,推动了人工智能领域的进步。
- 总结与图表:为便于理解,本文提供了提示工程技术的分类图和总结表格,帮助读者快速掌握不同技术的特点和应用。
实验设计
本文在实验设计方面,主要关注于提示技术的应用效果及其在不同任务中的表现:
- 数据收集:使用多种数据集进行实验,包括用于零-shot和few-shot学习的标准数据集,如TriviaQA和GSM8K等,确保实验的广泛性和代表性。
- 样本选择:在实验中,样本的选择遵循随机抽样原则,以确保结果的客观性和可重复性。具体来说,对于每个任务,选择的样本数量和类型经过严格筛选。
- 实验设定:针对不同的提示技术,设计了多组实验,评估其在各类推理和生成任务中的表现。每组实验均记录了模型的准确性、召回率和其他相关指标。
- 参数配置:根据不同提示方法的需求,调整模型参数,以达到最佳效果。实验中使用的模型包括GPT-3、PaLM 540B等,确保结果的有效性。
结果与分析
本文通过实验结果展示了不同提示技术的有效性,主要包括以下几点:
- 零-shot和few-shot提示:实验结果表明,使用few-shot提示的模型在复杂任务中的表现优于零-shot提示,尤其是在需要理解上下文的任务中。
- 链式思维提示:链式思维提示在数学和常识推理基准测试中表现出色,特别是在使用PaLM 540B模型时,准确率达到了90.2%。
- 自动链式思维提示:通过自动生成推理链,Auto-CoT在算术和符号推理任务中也显示了显著的性能提升,平均准确率提高了1.33%和1.5%。
- 自一致性提示:在复杂推理任务中,自一致性方法通过生成多样化的推理链,显著提高了模型的准确性,尤其是在GSM8K和SVAMP数据集上,准确率提升了17.9%和11.0%。
总体结论
本文系统性地回顾了提示工程在大型语言模型中的应用,强调了其在增强模型适应性和能力方面的重要性。通过对多种提示技术的分类和分析,本文为未来的研究提供了宝贵的参考。同时,尽管提示工程展现出巨大的潜力,但仍需解决诸如偏见、事实不准确性等挑战,以推动该领域的进一步发展。
论文点评
优点与创新
- 论文系统性地综述了29种不同的提示工程技术,填补了当前文献中缺乏系统性概述的空白。
- 提供了详细的分类和比较,涵盖了从基础到高级的提示工程方法,便于研究者理解不同方法的适用场景。
- 通过图表和表格清晰地总结了每种提示技术的优缺点、应用领域及所用数据集,为后续研究提供了宝贵的参考。
不足与反思
- 论文在讨论各提示技术的局限性时,未能深入探讨如何有效解决这些问题。
- 对于一些新兴的提示技术,缺乏足够的实证数据支持其有效性。
- 论文未能充分考虑不同领域应用的多样性,可能导致部分技术的适用性被低估。
- 未来的研究应关注提示工程的伦理问题,以确保技术的负责任使用。
论文十问
1. 论文试图解决什么问题
- 论文试图解决的是当前提示工程领域缺乏系统性组织和理解的问题,提供一个结构化的综述。
2. 这是否是一个新的问题?
- 是的,尽管已有大量关于提示工程的文献,但系统性的综述和分类仍然是一个相对较新的需求。
3. 这篇文章要验证一个什么科学假设?
- 文章并不直接验证科学假设,而是通过综述现有技术和方法,提出了对未来研究的方向和挑战。
4. 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
- 相关研究包括对零-shot、few-shot、链式思维等提示技术的探讨,值得关注的研究员包括Liu et al. 和 Wei et al.等。
5. 论文中提到的解决方案之关键是什么?
- 关键在于提供一个综合的分类框架,使研究者能够更好地理解和选择适合其应用的提示工程技术。
6. 论文中的实验是如何设计的?
- 论文采用系统综述的方法,整合和分析了已有文献中的实验结果,而非独立设计实验。
7. 用于定量评估的数据集是什么?代码有没有开源?
- 论文提到的多个数据集包括GSM8K、TriviaQA等,但未明确指出是否有相关代码开源。
8. 论文中的实验及结果有没有很好地支持需要验证的科学假设?
- 由于论文主要为综述性质,未直接进行实验,因此不适用此问题。
9. 这篇论文到底有什么贡献?
- 贡献在于系统性地梳理和总结了提示工程的现状,提供了对未来研究的指导。
10. 下一步呢?有什么工作可以继续深入?
- 下一步可以深入研究提示工程在不同领域的应用效果,以及如何解决现有技术的局限性。
【20250125】大模型知识管理系统
首先介绍了整体方案架构、业务流程与 4 类知识构建技术,然后重点介绍了检索前处理、知识检索、检索后处理等全流程知识检索技术,并设计了全面的测评框架。
摘要和引言
- RAG的发展可分为 3 个阶段:
1)基础RAG(Native RAG):遵循传统
的工作流程包括索引、检索和生成 3 个模块,也被称为“检索-读取”框架。
2)Advanced RAG:通过丰富的前处理和后处理技术,在信息检索精度和准确率上取得了显著效果。
3)模块化的RAG(Modular RAG):将RAG前、后处理等技术抽离出来并形成模块,进行组合。模块化RAG相比于传统的 Native RAG框架,提供了更好的通用性和灵活性。
1 系统方案
1.1 系统架构
如图 1 所示,LLM知识管理系统架构主要分为以下几个部分:基础设施层、大模型能力层、知识存储层、知识服务层和业务应用层。
如下图所示。知识构建流程包括知识数据预处理、建立索引和知识存储,主要是将企业内部的数据库、知识图谱、文档,外部的 Web 知识以及构建的 QA 对进行统一的处理,并存储为企业知识库的统一形式,以完成企业知识数据的处理和构建。知识检索流程包括检索前处理、知识检索、检索后处理、答案生成等步骤
2 关键技术
2.1 知识构建技术
知识构建是企业知识管理系统的核心部分,负责将企业原始知识数据转化为易于存储和 检索使用的结构化知识,并将其存入知识库进行管理。构建的知识库的知识质量决定了RAG 的最终检索质量。企业的知识来源丰富多样,包括文档、知识图谱、数据库、外部插件等。
- 2.1.1 文档知识
文档型知识需要经过预处理、文档切分、向量嵌入等过程,才能完成从原始文档数据到知识库中知识的转变。 - 2.1.2 知识图谱知识
知识图谱通过将知识组织成网络结构的图来表示,它连接了各种实体和它们之间的关系, 为知识提供了一种直观的结构化表示。 - 2.1.3 数据库知识
数据库知识指的是存储在传统关系数据库、分析型数据库等数据库库中的知识。
2.2 知识检索技术
2.2.1 前处理
前处理是指对用户查询进行预处理的一系列技术和方法,旨在优化查询,以提高检索效率和准确性。
- 2.2.1.1 分解子查询
核心理念:将一个复杂的原始查询拆分成多个更小、更易于处理的子查询。
实现方法:采用多查询检索器,借助LLM(大型语言模型)从多个维度自动生成多个查询,并自动执行提示优化流程。
优势:每个子查询检索到的文档采取并集操作,构建出更广泛的潜在相关文档集合,克服基于向量距离检索方法的局限性,获取更丰富和多元的检索结果。 - 2.2.1.2 指代消解
应用场景:处理用户查询中的指代词,提高检索系统对用户查询的理解和准确性。
技术方法:在LLM时代,采用Few-shot Prompt并结合思考-行动-观察(CoT)策略进行指代消解。
优势:相较于传统微调BERT的方法,能分析并处理更复杂的指代消解问题,适用于更广泛、更复杂的查询语句。 - 2.2.1.3 查询改写
作用:通过优化与调整用户最初的查询,提高检索效率和结果的精准度。
技术方法:依靠LLM的强大能力,利用精心设计的提示词进行查询改写。同时,可以引入辅助模型“重写器”,专门负责调整用户查询,使其更好地适应固定检索器和LLM的处理要求。
优势:能更精确地把握用户的信息需求,返回更相关的检索结果。重写器通过有监督的预训练或微调,能更好地满足实际应用场景中的改写需求。
这三个小节分别介绍了分解子查询、指代消解和查询改写在知识检索系统中的应用,旨在提高检索系统的准确性和效率。通过采用不同的技术和方法,这些技术能够克服传统检索方法的局限性,更好地满足用户的检索需求。
2.2.2 知识检索
常见的检索方法包括数据库查询、向量检索、QA检索、知识图谱检索、插件检索、关键词检索等。
- 2.2.2.1 知识图谱检索
知识图谱检索是一种利用知识图谱信息来检索和提供与特定任务相关信息的技术。基于大模型的知识图谱检索有两种方式:Text2Cypher 和 GraphRAG。
- 2.2.2.2 数据库检索
Text2SQL,也称为 NL2SQL,是指将自然语言(NL)查询转换为关系型数据库中可执行的 SQL 查询语言的过程。 - 2.2.2.3 插件 API 检索
插件 API 检索是指通过 API 调用外部服务或功能的过程,这被视为LLM与外部世界交互的一种方式。这种交互经常涉及函数调用(Function Calling)。
2.2.3 后处理
后处理(Postprocessing)阶段负责对检索结果进行进一步的优化和调整,以提高检索系统性能和检索结果质量。
- 2.2.3.1 上下文压缩
通过 RAG 获得的上下文长度常常达到数千个 token。当检索步骤所获得的结果内容较多 并超出大模型上下文长度时,需要对上下文进行压缩处理以去除冗余信息,查询无关噪声, 同时保持语义不丢失,进而为 LLM 提供更有效的上下文信息。常见的上下文压缩方法有内 容摘要、关键词提取、LongLLMLingua[13]等。 - 2.2.3.2 重排 在检索后处理阶段,为确保最相关且最有价值的检索结果能够优先被用作回答查询的上 下文输入,我们引入了重新排序(Reranking)机制。重排操作通过对检索阶段获得的检索结 果相关性评分进行再次调整,或采用更精细的排序算法,从而实现检索结果的重新排列。
2.3 答案生成技术
答案生成技术是指,依赖LLM本身的推理能力,结合系统提供的上下文信息进行最终的答案生成。
3 测评框架
为全面评估基于RAG架构的知识管理系统的性能表现,我们需要一个科学全面的测评框架。由 Shahul Es 等于 2023 年 9 月提出的检索增强生成评估(RAGAs)开源评估框架在业界取得了良好的反响。
【20250124】抽取-生成式自动文本摘要技术研究综述
- 自动文本摘要技术是一项利用计算机按照某类应用自动地将文本或文本集合转换成简短摘要的信息压缩技术。
- 首先,介绍了抽取-生成式摘要技术中的评价方法以及常用中英文数据集;其次,通过实例分析六类主流技术方法并对比其优缺点:基于强化学习的方法、基于信息论的方法、基于指针网络的方法、基于序列标注的方法、基于预训练的方法、基于联合注意力的方法;最后,总结了抽取-生成式摘要技术面临的挑战并展望了抽取-生成式摘要技术未来的发展方向。
引言
1 相关工作
- 抽取式文本摘要技术利用计算机技术并按照一定的规则计算出词语或句子的重要程度,直接从原文中抽取原词或原句组成摘要,常用于数据规模较小的数据集。
- 生成式文本摘要技术要求计算机模仿人类的思维方式理解文本信息,对输入原文进行概括、转述并总结成摘要。
- 抽取-生成式技术是将摘要生成任务分为两部分:
(1)利用抽取式摘要技术进行关键词或关键句的定位与提取。
(2)采用生成式摘要技术将前一部分定位与提取到的内容改写生成摘要。
2 数据集
3 自动文本摘要的评价方法
- 1 ROUGE( Recall - Oriented Understudy for Gisting Evaluation)
- 2 BLEU(Bilingual Evaluation Understudy)指标是在2002 年由 IBM公司提出的一种以准确度为基础的相似度量方法。
- 3 CIDEr
Vedantm 等人提出了专门针对图像摘要问题的评
价指标 CIDEr(Consensus -based Image Description E-
valuation)