当前位置：首页 > article >正文

【GPT4】微软 GPT-4 测试报告（9）结论与展望

article 2024/12/23 9:09:48

【ChatGPT】微软 GPT-4 测试报告（9）结论与展望

微软研究院最新发布的论文「人工智能的火花：GPT-4 的早期实验」，公布了对 GPT-4 进行的全面测试。

本文介绍最后一部分：结论与展望。

前几部分参见：

微软 GPT-4 测试报告（1）总体介绍
微软 GPT-4 测试报告（2）多模态与跨学科能力
微软 GPT-4 测试报告（3）编程能力
微软 GPT-4 测试报告（4）数学能力
微软 GPT-4 测试报告（5）与外界环境的交互能力
微软 GPT-4 测试报告（6）与人类的交互能力
微软 GPT-4 测试报告（7）判别能力
微软 GPT-4 测试报告（8）局限性与社会影响
微软 GPT-4 测试报告（9）结论与展望

10. 结论与展望

本文在广泛的任务和领域中对 GPT-4 进行了初步探索，为 GPT-4 的能力在许多方面与人类水平相当的说法提供了支持性的证据。这一结论与 OpenA I在[Ope23]中报告的结论是一致的。

我们实验的主要目标是对 GPT-4 的智能进行初步评估，但由于这个概念缺乏正式的定义，特别是对于人工系统而言，因此这是一项非常艰巨的任务。

我们希望我们的探索为了解 GPT-4 的卓越能力和挑战提供了有愿意的和必要的第一步，并为开发更正式、更全面的方法来测试和分析具有如此广泛智能的未来人工智能系统开辟了新的机会。

上述模型在深度和广度方面的能力表明，机器学习领域需要通过结构化的数据集和任务超越经典的基准测试。

对这些新模型的能力和认知能力的评估，在本质上已经变得更接近于评估人类的能力和认知能力的任务，而不是评估一个狭窄的人工智能模型的能力。

我们希望我们的研究能够促进对 GPT-4 和类似系统的进一步研究，无论是在探索新的应用和领域方面，还是在理解支撑其智能的机制和原理方面。

我们工作的核心观点是，GPT-4 实现了一种通用智能，显示出了通用人工智能的星星之火。这可以从它的智力能力（如推理、创造力和演绎）、专业知识的范围（如文学、医学和编程）以及能够执行的各种任务（如玩游戏、使用工具、解释自己……）。

要创建一个有资格成为完整 AGI 的系统，还有很多工作要做。我们通过讨论几个直接的下一步步骤来总结本文，包括定义 AGI 本身，为 AGI 构建 LLM 中缺失的一些组件，以及更好地理解最近的 LLM 所显示的智能的起源。

10.1 智能、人工智能和通用人工智能的定义

本文使用了一组心理学家1994年对智能的定义[Got97]作为指导框架来探索GPT-4的人工智能。

这个定义捕捉了智能的一些重要方面，如推理、解决问题和抽象，但它也是模糊和不完整的。它没有具体说明如何衡量或比较这些能力。此外，它可能没有反映人工系统的具体挑战和机遇，人工系统可能与自然系统具有不同的目标和约束。因此，我们承认，这个定义并不是关于智能的最终定论，而是我们研究的一个有用的起点。

有丰富且持续的文献试图提出关于智能、人工智能和人工通用智能的更正式和全面的定义[Goe14, Cho19]，但没有一个是没有问题或争议的。

例如，Legg和Hutter [Leg08]提出了一个以目标为导向的人工通用智能定义：智能衡量一个智能体在广泛的环境中实现目标的能力。然而，这一定义并不一定涵盖智能的全部范围，因为它排除了被动或被动系统，这些系统可以执行复杂的任务或回答没有任何内在动机或目标的问题。人们可以想象成一个人工通用智能，例如一个杰出的预言，它没有代理或偏好，但可以提供任何主题或领域的准确和有用的信息。此外，围绕在广泛的环境中实现目标的定义也意味着一定程度的普遍性或最优性，这可能不现实（当然，人类智能绝不是普遍的或最优的）。

在Chollet在[Cho19]中提出的定义中强调了认识先验的重要性(而不是普遍性)的必要性，该定义将智力围绕技能获取效率展开。换句话说，将重点放在1994年定义的一个单一组成部分：从经验中学习（这也恰好是 LLMs 的关键弱点之一）。

Legg and Hutter [LH07]对人工通用智能的另一个定义是：一个可以做任何人类可以做的事情的系统。然而，这个定义也有问题，因为它假设人类的智力或能力有一个单一的标准或衡量标准，而事实显然并非如此。人类有不同的技能、天赋、偏好和局限，没有一个人类能做到任何其他人类能做到的事情。此外，这个定义还隐含着某种以人类为中心的偏见，这对于人工系统来说可能并不合适，也不相关。

虽然我们在本文中没有采用这些定义中的任何一个，但我们认识到它们提供了关于智能的重要角度。例如，智力是否可以在没有任何代理或内在动机的情况下实现，这是一个重要的哲学问题。为 LLM 配备代理和内在动机是未来工作的一个迷人而重要的方向。如果一个系统具有在世界中自主采取行动的能力，还具有通过自主学习实现自我完善的能力，那么在这个方向上，必须非常注意系统价值观与人类的一致性和安全性。

接下来，我们将讨论 LLM 的其他一些关键缺失部分。

10.2 在通往通用人工智能的道路上

为了实现更通用的智能，GPT-4（以及更通用的LLMs）应该改进的一些领域包括（其中许多是相互关联的）：

置信度校准（Confidence calibration）
模型很难知道什么时候应该是可信的，什么时候只是猜测。它既编造了在其训练数据中没有出现过的事实，也表现出生成的内容和提示符之间的不一致，我们称之为开放域和封闭域的幻觉。
这些幻觉可以以一种自信而有说服力的方式陈述，这种方式可能很难被察觉。因此，这样的生成会导致错误，也会导致困惑和不信任。虽然在生成创造性内容时，幻觉是一件好事，但依赖具有幻觉的模型所做的事实声明可能是有代价的，特别是在医疗保健等高风险领域的使用。
有几种补充性的方法可以尝试解决幻觉：一种方法是改进模型的校准（通过提示或微调），这样它要么在不太可能正确的时候避免回答，要么提供一些其他的置信度指标。另一种适合缓解开放域幻觉的方法是将模型缺乏的信息插入提示中，例如允许模型调用外部信息源，如 Section 5.1 中的搜索引擎。对于闭域幻觉，通过使用额外的计算进行事后检查也是有希望的，参见图1.8的例子。最后，考虑到出现幻觉的可能性，构建应用程序的用户体验也可以成为有效缓解策略的一部分。
长期记忆（Long-term memory）：
模型的上下文非常有限（目前有8000个token，但在计算方面无法扩展），它以一种“无状态”的方式运行，并且没有明显的方法来教会模型新的事实。事实上，我们甚至不清楚模型是否能够执行需要不断进化的记忆和上下文的任务，例如阅读一本书，任务是在阅读过程中跟随情节和理解之前章节的参考文献。
持续学习（Continual learning）：
模型缺乏自我更新或适应不断变化的环境的能力。模型一旦被训练就固定了，并且没有整合新信息或来自用户或世界的反馈的机制。人们可以在新数据上对模型进行微调，但这可能会导致性能下降或过拟合。考虑到训练周期之间的潜在滞后，当涉及到最新周期训练后产生的事件、信息和知识时，系统往往会过时。
个性化（Personalization）：
一些应用程序要求模型针对特定的组织或最终用户进行定制。
系统可能需要获取有关组织运作或个人偏好的知识。在许多情况下，系统需要在一段时间内以个性化的方式适应与人员和组织的动态相关的具体变化。
例如，在教育环境中，系统需要理解特定的学习风格，并随着时间的推移适应学生在理解力和能力方面的进步。除了使用既有限又低效的元提示外，该模型没有任何方法将这种个性化信息纳入其响应中。
规划和概念飞跃（Planning and conceptual leaps）：
如第8节中的示例所建议的，该模型在执行需要提前规划的任务或需要在完成任务的过程中构成不连续的概念飞跃的“尤里卡想法”的任务时表现出困难。换句话说，该模型在需要通常代表人类天才的那种概念飞跃形式的任务上表现不佳。
透明度、可解释性和一致性（Transparency, interpretability and consistency）：
模型不仅会产生幻觉，编造事实并产生不一致的内容，而且似乎模型没有办法验证它产生的内容是否与训练数据一致，或者是否自洽。
虽然模型通常能够为其决策提供高质量的事后解释(如6.2节所示)，但使用解释来验证导致某个决策或结论的过程，只有在该过程被准确建模，并且也准确建模了一个足够强大的解释过程时才有效(6.2节)。这两种条件都很难验证，当它们在那里失败时是模型的决策与其解释之间的不一致。由于模型对自身的局限性没有明确的认识，因此如果没有在一个狭窄的领域进行广泛的实验，就很难与用户建立信任或合作。
认知谬误和非理性（Cognitive fallacies and irrationality）：
该模型似乎展示了人类知识和推理的一些局限性，如认知偏差和非理性(如确认偏差、锚定偏差和基础率忽视)和统计谬误。该模型可能继承了其训练数据中存在的一些偏见、偏见或错误，这些偏见或错误可能反映了与人口子集或更大的共同观点和评估相关的观点或观点的分布。
对输入敏感性的挑战（Challenges with sensitivity to inputs）：
模型可能对提示的框架或措辞及其在会话中的顺序的细节非常敏感。
这种非鲁棒性表明，在提示工程（prompt engineeing）及其排序方面往往需要大量的努力和实验，而在人们缺乏这种时间和精力投资的情况下使用，可能会导致次优和不一致的推断和结果。

我们探索的一个局限性是，在强化学习步骤（RLHF）进行的方式中发现的缺陷与更大的架构和方法论中本质上固有的缺陷之间，缺乏明确的区分。例如，目前还不清楚，通过完善的强化学习步骤，或通过集中努力引入关于系统在其生成中可以计算和考虑的替代推理可能性的新形式的校准，可以在多大程度上解决幻觉问题(参见[Ope23]有关这方面的更多讨论)。与人类进行类比，认知偏差和非理性思维可能基于我们文化的人工制品以及我们认知能力的局限性。寻求更好地理解 GPT-4 中幻觉挑战的来源和潜在解决方案，将从比较同一架构上的几种 RL 阶段的研究中受益。

关于已确定的局限性的一个更广泛的问题是：上述哪些缺点可以在下一个单词预测的范围内得到缓解？仅仅是更大的模型和更多的数据将解决这些问题，还是需要对架构进行修改、扩展或重新制定？

对下一个单词预测的可能的发展包括以下内容:

模型对计算器、数据库搜索或代码执行等组件和工具的外部调用，如5.1节所建议的。
一个更丰富、更复杂的“慢思维”深层机制，监督下一个单词预测的“快思维”机制。这样的方法可以让模型执行长期规划、探索或验证，并保持工作记忆或行动计划。慢思考机制将使用下一个单词预测模型作为子程序，但它也可以访问外部信息源或反馈，并能够修正或纠正快速思考机制的输出。
将长期记忆整合为架构的固有部分，也许在这种意义上，模型的输入和输出除了表示文本的token外，还将包括表示上下文的向量。
超越单个单词的预测:用层次结构替换token序列，在嵌入中表示文本的更高层次部分，如句子、段落或想法，并以自上而下的方式生成内容。目前还不清楚是否可以从以下一个单词预测范式为中心的大规模计算和数据中出现关于此类更高层次概念的序列和相互依赖关系的更丰富的预测。

10.3 到底发生了什么?

我们对 GPT-4 的研究完全是现象学的，而不是深入研究其内部结构和机制。我们关注的是 GPT-4 可以做的令人惊讶的事情，但我们没有解决它为什么以及如何实现如此卓越的智力的根本问题——它是如何推理、计划和创造的？

当它的核心仅仅是简单的算法成分——梯度下降和具有极其大量数据的大规模 transformer 的组合时，为什么它会表现出如此通用和灵活的智能？这些问题是 LLM 神秘和迷人的部分，它挑战了我们对学习和认知的理解，激发了我们的好奇心，并促使我们进行更深入的研究。关键的研究方向包括正在进行的对 LLM 中出现现象的研究。然而，尽管对 LLM 能力的问题非常感兴趣，但迄今为止的进展相当有限，只有一些玩具式的模型证实了一些涌现现象。

一个普遍的假设是，大量的数据（特别是内容具有多样性）迫使神经网络学习通用和有用的“神经回路”，例如在[OEN+22, ZBB+22, LAG+22]中发现的“神经回路”，而模型的大尺寸为神经回路提供了足够的冗余和多样性，使其专业化和微调到特定的任务。为大规模模型证明这些假设仍然是一个挑战，而且，几乎可以肯定的是，猜想只是答案的一部分。

在另一个思考方向上，模型的巨大规模可能有其他几个好处，例如通过连接不同的最小值[VBB19]或简单地进行高维数据的平滑拟合[ES16, BS21]，使梯度下降更加有效。总的来说，阐明 GPT-4 等 AI系统的性质和机制是一项艰巨的挑战，而且十分重要和紧迫。

致谢：我们感谢 OpenAI 创造了这样一个了不起的工具，并让我们尽早体验它。我们也感谢 OpenAI 的 Miles Brundage，以及微软的无数同人，他们对这项工作提供了深思熟虑的反馈。

【本节完】

youcans@xupt 作品，转载必须标注原文链接：
【微软 GPT-4 测试报告（9）结论与展望】：https://blog.csdn.net/youcans/category_12244543.html
Copyright 2022 youcans， XUPT
Crated：2023-4-1

参考资料：

【GPT-4 微软研究报告】：
Sparks of Artificial General Intelligence： Early experiments with GPT-4， by Sébastien Bubeck， Varun Chandrasekaran， Ronen Eldan， et al.
下载地址：https://arxiv.org/pdf/2303.12712.pdf

查看全文

http://www.kler.cn/a/6555.html