上下文微调(Contextual Fine-Tuning, CFT)提高大型语言模型(LLMs)在特定领域的学习和推理能力
大型语言模型(LLMs)在开放领域任务中表现出色,但在快速演变的专业领域(如医学、金融)中面临挑战:
- 知识更新难题:传统指令微调(Instruction Fine-Tuning, IFT)依赖显式指令,难以适应动态知识。
- 灾难性遗忘:持续预训练(Continued Pretraining, CPT)可能导致模型遗忘已有知识。
- 推理能力限制:模型难以通过纯文本学习建立领域内深层语义关联。
本文提出上下文微调(Contextual Fine-Tuning, CFT),通过模拟人类认知策略的提示语,结合上下文学习和微调的方法,通过简单的领域自适应提示显著提高了LLMs在新领域的知识获取和开放式推理能力。实验结果表明,CFT在医疗和金融领域的基准测试中均优于传统的持续预训练和指令微调方法。
CFT在处理领域特定数据时的具体优势:
提高学习效率:CFT通过上下文提示提供额外的语义信息,帮助模型更好地理解和学习新领域的知识,从而提高了学习效率。实验表明,CFT模型在训练过程中损失更低,收敛速度更快。
增强模型性能:CFT在多个医疗和财务基准测试中均表现出优于CPT和IFT的性能。例如,在医疗领域的多选题数据集中,CFT的平均准确率提高了4.89%。
减少遗忘:CFT通过结合上下文学习和微调,能够在学习新领域知识的同时保留已有的知识,减少了知识遗忘的现象。这与传统的持续预训练方法相比具有显著优势。
适用性广泛:CFT不仅适用于生物医学领域,还可以扩展到其他领域,如金融、法律等,显示出其广泛的适用性和灵活性。
方法创新:上下文微调(CFT)
核心思想
- 认知策略驱动:设计受教育学理论启发的上下文提示(如“关注核心概念”“批判性分析”),引导模型学习新知识时的语义理解。
- 梯度对齐:通过提示语控制模型优化方向,减少无效参数更新,缓解遗忘问题。
技术实现
- 输入构造:
在原始输入序列前添加上下文提示语,例如:
"Critically analyze the upcoming information. Look for underlying assumptions..."
形成新输入:[提示语] + [原始文本]
通过指导GPT-4o-mini根据每个训练批次的内容创建提示来自动生成上下文提示。
具体来说,我们使用以下指令模板:在此模板中,{
{ INSTRUCTION }}被替换为从以下五种不同指令中抽取的一个样本指令,以生成多种提示:
- “给定以下文本,生成一个鼓励读者关注所呈现的主要观点和主题的上下文提示。该上下文提示应简洁并帮助读者深入参与内容。”
- “分析下面的文本,并创建一个引导读者批判性地思考内容的上下文提示,质疑假设并评估论点。”提示应鼓励读者考虑文中提出的不同观点。
- “阅读文本,并生成一个情境提示,鼓励读者思考信息如何与他们现有的知识或经验相联系。提示应促进新见解与先前理解的整合。”
- “阅读以下文本,并创建一个情境提示,引导读者用自己的话总结主要观点。提示应鼓励综合信息以便更好地理解。”
- “根据下面的文本,制定一个情境提示,引导读者比较和对比所介绍的概念与相关话题或先前知识。提示应帮助识别相似之处和差异。”
同样,{
{ TEXT }} 会被每批的文本替换。
以下是适用于 OpenMedText 的生成的上下文提示示例:
- “对这项关于 PCR 技术和 LeHV-5 检测的研究中的方法和发现进行批判性评估。实验设计的基础假设是什么?是否有其他方法或观点可以挑战或补充所提出的论点?考虑这些方法对更广泛的兽医医学科学研究和诊断的影响。”
- “思考钾离子通道与癌症治疗中的化疗耐药性之间的复杂关系。所呈现的机制与你之前对癌细胞生物学和耐药性的了解有何比较?确定不同类型癌症中 K+通道的作用的异同及其对治疗策略的影响。考虑将这种理解纳入临床实践的潜在途径。”
- “从多个角度考虑学校早餐参与情况的发现及其对学生健康的影响。教育工作者、政策制定者、学校管理人员和医疗保健专业人员可能如何不同地解释这些结果?思考每个利益相关者如何在其各自的角色中使用这些信息来改善学生健康和教育成果。”
-
训练目标:
损失函数定义为:
L C F T ( θ ) = − E x , c ∑ k = 1 n log P θ ( x k ∣ c , x < k ) \mathcal{L}_{CFT}(\theta) = -\mathbb{E}_{x,c} \sum_{k=1}^n \log P_\theta(x_k | c, x_{<k}) LCFT(θ)=−Ex,ck=1∑nlogPθ(xk∣c,x