华为:LLM工具调用数据合成方法
📖标题:TOOLFLOW: Boosting LLM Tool-Calling Through Natural and Coherent Dialogue Synthesis
🌐来源:arXiv, 2410.18447
🌟摘要
🔸监督微调(SFT)是增强大型语言模型(LLM)工具调用能力的一种常见方法,训练数据通常是合成的。当前的数据合成过程通常涉及对一组工具进行采样,基于这些工具制定需求,并生成调用语句。然而,随机抽样的工具缺乏相关性,使得它们难以组合,从而降低了数据的多样性。此外,目前的工作忽视了对话回合之间的连贯性,导致合成数据与现实世界情景之间存在差距。
🔸为了解决这些问题,我们提出了一种基于图的采样策略来采样更相关的工具组合,以及一种计划生成策略来创建指导连贯对话综合的计划。我们整合了这两种策略,使多个代理能够交互式地合成对话数据,从而使我们的工具调用数据合成管道TOOLFLOW。数据质量评估表明,我们综合对话的自然性和连贯性有所提高。最后,我们使用TOOLFLOW生成的8000个合成对话在LLaMA3.1-8B上应用SFT。
🔸结果表明,该模型在保持强大通用能力的同时,实现了与GPT-4相当甚至超过GPT-4的工具调用性能。
🛎️文章简介
🔸研究问题:大语言模型(LLM)在工具调用数据合成过程中缺乏现实性和自然性,且工具选择和对话生成之间的关联性不足。
🔸主要贡献:论文提出了TOOLFLOW,一个基于图的采样算法和计划生成策略的工具调用数据合成流程,以提高合成对话的自然性、连贯性和多样性。
📝重点思路
🔸工具图构建:首先构建一个工具图,其中节点代表工具,边代表工具之间的关系。通过参数或返回值的相似性来确定工具之间的关系。
🔸基于图的采样:在构建的工具图上进行随机游走,选择可能相关的工具子集。
🔸对话生成:使用用户、助手和工具三个代理,基于选定的工具子集和计划进行对话生成。通过“采样-计划-生成”过程迭代,合成了8000个对话。
🔸质量评估:通过自动评估和模型评估来评估合成对话的自然性、连贯性和多样性。
🔎分析总结
🔸数据质量评估:通过对比不同条件下的数据集(移除图基采样、移除计划生成、移除两者),实验表明,基于图的采样增加了工具调用的数量,而对话生成策略增加了非工具交互的比例,从而提高了对话的自然性和连贯性。
🔸模型性能提升:使用合成的数据对LLaMA-3.1-8B-Instruct进行监督微调,实验结果显示,模型的工具调用能力得到了提升,同时保持了其通用能力。
🔸多样性和连贯性的影响:实验还分析了数据多样性和连贯性对模型性能的影响,结果表明,多样性和连贯性对模型的工具调用能力有积极影响。
💡个人观点
论文的核心在于构建工具调用关系图,基于图来进一步构建多代理的对话,保证数据的工具多样性和语言连贯性。
🧩附录