当前位置：首页 > article >正文

无需微调的对齐方法URIAL

article 2025/3/17 8:49:48

研究背景与目的：LLMs的对齐调优通常采用监督微调（SFT）和强化学习从人类反馈（RLHF），但LIMA研究表明少量示例的SFT也能实现较好对齐，暗示对齐调优可能存在“表面性质”。本研究旨在探究对齐调优对基础LLMs的具体影响，并提出不依赖SFT或RLHF的对齐方法。
实验方法
- 对比基础与对齐模型的令牌分布：直接比较基础LLMs和它们的对齐版本（如Llama - 2和Llama - 2 - chat）之间的令牌分布，从标记排名、标记位置分布变化等方面进行分析，以揭示对齐调优的效果。
- 提出URIAL对齐方法：利用上下文学习（ICL），通过少量精心策划的风格示例和精心设计的系统提示，在不调整基础LLMs权重的情况下实现对齐。具体构建上下文示例时，先肯定用户查询并引入背景信息，然后详细列举项目或步骤
实验数据集：创建名为“just - eval - instruct”的数据集，包含来自9个现有数据集（如