当前位置：首页 > article >正文

Whiteboard-of-Thought——让大语言模型在白板上写下它们的推理过程，可以大大提高模型在视觉推理能力

article 2025/1/5 6:59:34

介绍

论文地址：https://arxiv.org/abs/2406.14562
近年来，以 ChatGPT 为代表的**大型语言模型（LLMs）通过思维链（CoT）**在文本中表示中间推理部分，在算术和符号推理中取得了优异的成绩。

另一方面，即使进行了大量的多模态预训练，但无法回答人类通过视觉推理就能轻松解决的文本查询这一难题仍然令许多研究人员头疼不已。

在此背景下，本文提出了 “思维白板”（Whiteboard-of-Thought）这一简单的提示技术来激发大语言模型的视觉推理能力，它为大语言模型提供了一块白板，让他们以图像的形式写下自己的推理步骤，并展示了其在测量视觉推理能力（包括 ASCII 艺术）方面的有效性。本节将介绍一篇证明其基准测试有效性的论文。

导言

“哪个小写字母是一个圆圈右边有一条竖线向下延伸？”

(哪个小写字母是一条触及圆圈右侧并向下延伸的竖线？）

当你读到这段文字时，你可能会先在脑海中画一个圆，然后加上一条线，最后想象出字母 “q”。

人类擅长这种视觉推理，可以轻松地将语言推理和图像推理交织在一起，从而解决问题和交流想法。

另一方面，本文作者验证了最新的 LLM GPT-4o（OpenAI 等人，2023 年）能否解决这一问题，如下图左侧所示。

GPT-4o 错误地指出答案是 “b”，这一结果表明，涉及视觉和空间推理的任务对 LLM 来说可能很困难，即使这些任务对人类来说非常容易。

本文通过利用多模态大语言模型（MLLMs）来解决这一问题，并为 MLLMs 提供创建和推理显式视觉效果（如代表中间想法的白板）的能力，以便我们提出了一种激发类似视觉推理能力的方法。

思想白板

本文的目标是让 MLLM 具备创建图像和可视化处理图像的能力，以处理涉及视觉推理的任务，如上述任务，为此提出了一种新的提示技术–思维白板（WoT）。

该方法的操作步骤如下图右侧所示。

该方法使用 Matplotlib 和 Turtle 等常用 Python 库创建图像（图中的可视化图像），用于可视化推理。

为此，我们将在法律和道德法庭上对这一问题进行讨论、

“您编写代码，使用 Python 中的 {Matplotlib/Turtle} 库创建可视化，用户将运行这些代码并提供图像。在考虑可视化之前，请勿生成在考虑可视化之前，不要生成查询的最终答案”。

(使用 Python 中的 Matplotlib/Turtle 库编写可视化代码，然后用户可以运行并提供图像。在考虑可视化之前，不要创建查询的最终答案）。

立即执行。

然后，LLM 使用可视化库和 Python 解释器生成图像，再利用 MLLM 固有的多模态推理能力输出最终答案。