当前位置：首页 > article >正文

华为：LLM工具调用数据合成方法

article 2025/4/2 15:20:41

在这里插入图片描述

📖标题：TOOLFLOW: Boosting LLM Tool-Calling Through Natural and Coherent Dialogue Synthesis
🌐来源：arXiv, 2410.18447

🌟摘要

🔸监督微调（SFT）是增强大型语言模型（LLM）工具调用能力的一种常见方法，训练数据通常是合成的。当前的数据合成过程通常涉及对一组工具进行采样，基于这些工具制定需求，并生成调用语句。然而，随机抽样的工具缺乏相关性，使得它们难以组合，从而降低了数据的多样性。此外，目前的工作忽视了对话回合之间的连贯性，导致合成数据与现实世界情景之间存在差距。
🔸为了解决这些问题，我们提出了一种基于图的采样策略来采样更相关的工具组合，以及一种计划生成策略来创建指导连贯对话综合的计划。我们整合了这两种策略，使多个代理能够交互式地合成对话数据，从而使我们的工具调用数据合成管道TOOLFLOW。数据质量评估表明，我们综合对话的自然性和连贯性有所提高。最后，我们使用TOOLFLOW生成的8000个合成对话在LLaMA3.1-8B上应用SFT。
🔸结果表明，该模型在保持强大通用能力的同时，实现了与GPT-4相当甚至超过GPT-4的工具调用性能。

🛎️文章简介

🔸研究问题：大语言模型（LLM）在工具调用数据合成过程中缺乏现实性和自然性，且工具选择和对话生成之间的关联性不足。
🔸主要贡献：论文提出了TOOLFLOW，一个基于图的采样算法和计划生成策略的工具调用数据合成流程，以提高合成对话的自然性、连贯性和多样性。

📝重点思路

🔸工具图构建：首先构建一个工具图，其中节点代表工具，边代表工具之间的关系。通过参数或返回值的相似性来确定工具之间的关系。
🔸基于图的采样：在构建的工具图上进行随机游走，选择可能相关的工具子集。
🔸对话生成：使用用户、助手和工具三个代理，基于选定的工具子集和计划进行对话生成。通过“采样-计划-生成”过程迭代，合成了8000个对话。
🔸质量评估：通过自动评估和模型评估来评估合成对话的自然性、连贯性和多样性。

🔎分析总结

🔸数据质量评估：通过对比不同条件下的数据集（移除图基采样、移除计划生成、移除两者），实验表明，基于图的采样增加了工具调用的数量，而对话生成策略增加了非工具交互的比例，从而提高了对话的自然性和连贯性。
🔸模型性能提升：使用合成的数据对LLaMA-3.1-8B-Instruct进行监督微调，实验结果显示，模型的工具调用能力得到了提升，同时保持了其通用能力。
🔸多样性和连贯性的影响：实验还分析了数据多样性和连贯性对模型性能的影响，结果表明，多样性和连贯性对模型的工具调用能力有积极影响。