FOT(Forest-of-Thought):增强大型语言模型推理能力的新框架
一、大语言模型推理能力发展困境
大语言模型(LLMs)近年来在自然语言处理领域取得了革命性进展,像 ChatGPT 和 LLaMA 等模型,能够在众多语言任务中展现出卓越的能力,无论是生成连贯的文章、回答复杂问题,还是进行流畅的多轮对话,都表现出色。在面对复杂推理问题时,LLMs 却常常遭遇瓶颈。
现有的提升 LLMs 推理能力的方法,如思维链(Chain-of-Thought, CoT)、思维树(Tree-of-Thought, ToT)和思维图(Graph-of-Thought, GoT)等,虽然通过不同方式对问题进行分解或优化提示结构,在一定程度上增强了模型的推理能力,但都存在着共同的局限性。以复杂数学应用题为例,ToT 方法将问题分解为多个小步骤,如分离项或简化表达式,但在这个过程中,可能会忽略关键细节,在中间步骤出现错误,而且一旦完成一条推理路径,如果初始路径存在缺陷,它通常不会重新审视其他可能的方法,导致最终答案错误。这种缺乏重新评估的机制,使得模型无法充分探索问题的复杂性,准确性大打折扣。
二、Forest-of-Thought 框架解析
为了解决上述问题,Forest-of-Thought(FoT)这一全新的推理框架应运而生。FoT 的核心是整合多个推理树,利用集体决策的优势来处理复杂逻辑推理任务,其设计理念旨在模拟人类在面对复杂问题时从不同角度反复思考和验证的过程。
(一)框架概述
Forest-of-Thought(FoT)框架是一种专门为增强大型语言模型推理能力而设计的新颖框架。它借鉴了树状思维(Tree of Thought)和蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)等推理框架的思想,通过引入多个推理树进行独立决策,并利用稀疏激活策略筛选关键树的结果,从而构建一个包含多个推理路径的“思维森林”。这个框架的核心在于其结构化的推理过程和动态路径选择机制,使得LLMs能够在解决复杂问题时表现出更高的鲁棒性和效率。
(二)关键策略
- 稀疏激活策略
在推理过程中,FoT 不会对所有推理树进行全面计算,而是通过稀疏激活策略,只选择最相关的推理树进行计算。具体来说,在每个推理树的每一层,都会选择得分最高的节点进行进一步推理,如果某一层的节点无法产生有效输出,该树的分裂过程会提前终止,激活指标设为 0,只有激活指标为 1 的树才会参与最终结果的决策过程。这种策略提高了计算效率,减少了不必要的计算量,同时聚焦于最有价值的推理路径,提升了推理的准确性。
- 动态自我校正策略
受人类自我校正认知方法的启发,FoT 引入了动态自我校正策略。与依赖固定迭代次数的方法不同,该策略通过监测预测的对数几率分数来动态评估每个推理步骤的质量。当分数低于预定义阈值时,校正机制会自动触发,及时检测和修复错误。此外,该策略还融入了预定义的数学规则,进一步提高了推理的准确性和可靠性。在 “24 点游戏” 中,模型可以根据这些规则验证输出中的数字是否由输入数字推导而来,快速发现并纠正错误,有效减少错误传播。
- 共识引导决策策略
为了确保最终答案的高精度和可靠性,FoT 设计了共识引导专家决策(Consensus-Guided Expert Decision, CGED)策略。在推理过程中,每个激活的树都会为其推理路径生成最优解,这些解会经过多数共识投票和专家评估。对于复杂推理任务,如果多数树的结果不一致,LLM 专家会根据专业知识和经验比较不同树的推理过程和结果,做出最终决策,有效减少推理过程中的错误和偏差,增强了整个框架的稳健性。
三、Forest-of-Thought 实验成效
研究人员在多个广泛使用的 LLM 推理基准测试中对 FoT 方法进行了评估,包括 “24 点游戏”、GSM8K 和 MATH 等数据集,实验结果充分验证了 FoT 的有效性和优越性。
(一)“24 点游戏” 实验
在 “24 点游戏” 实验中,FoT 以 ToT 为推理树构建框架。通过一系列消融实验发现,相较于直接使用 ToT 框架且没有任何优化的 BoN 方法(准确率仅为 10.58%),引入自我校正机制的 FoT 准确率显著提升至 60.24%。在此基础上增加输入增强后,准确率进一步提高到 77.98%。而加入稀疏激活策略后,不仅计算效率提高,LLM 调用次数从 32.32 次减少到 26.99 次,准确率仍保持在 77.98%。与单纯扩展 ToT 结构(增加每层叶节点数量)相比,FoT 结合多种优化策略,在准确率提升上表现更为显著,当 ToT 叶节点数量增加到一定程度后,性能提升趋于平缓,而 FoT 持续展现出更好的效果。
(二)GSM8K 基准测试
在 GSM8K 数据集上的实验,研究人员构建了包含多种方法的推理森林,如零样本思维链(Zero-Shot-CoT)、不同 rollouts 次数的 MCTSr 等。结果表明,随着森林中树的数量增加,多方法融合的森林方法优势愈发明显。4-rollouts 的 MCTSr 使用 2 棵树时,比 8-rollouts 的 MCTSr 准确率高出 3.2% ,这说明增加推理结果的多样性对性能的提升比单纯扩展单个树的深度更有效果。通过调整动态自我校正策略的阈值进行实验,发现当阈值设为 0.5 时,模型在 GSM8K 数据集上的准确率达到最佳(90.14%),能够在自我评估中找到最佳平衡,有效识别和纠正错误。研究还对不同基础模型(如 Mistral-7B、Llama3-8B 和 GLM-4-9B)在 FoT 框架下进行了实验,结果显示随着激活子树数量的增加,模型准确率显著提高,呈现出明显的缩放规律,表明 FoT 能有效利用计算资源提升推理准确性,且性能提升虽逐渐递减但持续稳定。
(三)MATH 基准测试
在 MATH 数据集上,FoT 方法在不同难度级别上均优于 MCTSr。从 Level 1 到 Level 4,FoT (n = 4) 的性能持续提升,且在难度最高的 Level 4,FoT 仍能保持良好表现,相比 MCTSr 优势明显,展现出了强大的鲁棒性和通用性,能够有效适应不同复杂程度的问题。
(四)停止策略消融研究
对 FoT 的三种停止策略(多数投票、数学专家和 CGED)进行比较发现,当激活的子树数量较少(如只有两个)时,三种策略的准确率相似;但随着激活子树数量增加(如五个),CGED 策略的优势逐渐显现,准确率比多数投票和数学专家策略高出 2%,表明 CGED 策略在处理复杂推理场景(多个推理路径同时激活)时表现更优,具有更好的适应性和性能。
四、Forest-of-Thought 价值与展望
Forest-of-Thought 框架为提升大语言模型的推理能力提供了一种创新且高效的方法。它通过整合多路径探索、动态激活推理路径、动态自我校正和共识引导决策等机制,有效解决了现有 LLM 推理范式中的关键问题,使模型能够在复杂任务中实现稳健且高效的问题求解,同时生成多样化的推理结果。
在实际应用中,该框架在数学、逻辑以及人工智能驱动的问题解决等领域具有重要意义,能够为这些领域提供更强大、可靠的人工智能系统支持。未来,随着研究的深入,可以进一步探索 FoT 框架在更多复杂任务和领域中的应用,优化其策略和参数设置,以适应不断变化的需求。
paper:https://arxiv.org/pdf/2412.09078v2