当前位置：首页 > article >正文

51c大模型~合集69

article 2025/2/22 7:07:27

我自己的原文哦~ https://blog.51cto.com/whaosoft/12221979

#7项基于SAM万物分割模型研究工作

1、CC-SAM: SAM with Cross-feature Attention and Context for Ultrasound Image Segmentation

#ECCV2024 #SAM #图像分割 #医学图像

Segment Anything Model (SAM) 在自然图像分割领域取得显著成功，但在医学成像领域的部署遇到了挑战。具体来说，该模型在处理具有低对比度、模糊边界、复杂形态和小尺寸物体的医学图像时遇到困难。

为解决这些挑战，并增强 SAM 在医学领域的性能，引入全面修改。首先，将一个冻结的卷积神经网络 (CNN) 分支作为图像编码器整合到其中，通过新的变分注意融合模块与 SAM 的原始 Vision Transformer (ViT) 编码器协同工作。这种集成增强了模型捕获局部空间信息的能力，这在医学图像中常常至关重要。

此外，为进一步优化 SAM 用于医学成像，在 ViT 分支中引入特征和位置适配器，优化编码器的表示。发现，与目前用于超声波医学分割的微调 SAM 的提示策略相比，使用作为 SAM 文本提示的文本描述有助于显著提高性能。利用 ChatGPT 的自然语言理解能力，生成提供上下文信息和引导 SAM 的提示，使其更好地理解超声医学图像的细微差别并提高分割准确性。

2、Crowd-SAM: SAM as a Smart Annotator for Object Detection in Crowded Scenes

#ECCV2024 #SAM #目标检测

目标检测是一项重要任务，在各种场景中都有应用。通常需要大量标签进行训练，这在拥挤场景下尤为耗时。近年来，Segment Anything Model (SAM) 已经成为一种功能强大的零样本分割器，提供了一种新的实例分割方法。然而，当处理拥挤场景中经常出现遮挡的物体时，SAM 及其变种的准确性和效率通常会受到影响。

本文提出 Crowd-SAM，一个基于 SAM 的框架，旨在以最少的可学习参数和最少的标注图像成本提升 SAM 在拥挤场景中的性能。引入一个高效的提示采样器 (EPS) 和一个部分-整体判别网络 (PWD-Net)，促进了掩模的选择，并有助于提高拥挤场景下的准确性。

尽管简单，Crowd-SAM 在包括 CrowdHuman 和 CityPersons 在内的多个基准测试中与最先进的全监督目标检测方法相媲美。https://github.com/FelixCaae/CrowdSAM

3、Enhancing Recipe Retrieval with Foundation Models: A Data Augmentation Perspective

#ECCV2024 #SAM #视觉语言模型 #GPT #多模态学习

在共同的嵌入空间中学习食谱和食物图像表示对于跨模态食谱检索是一个非常重要但关键的问题。本文提出一个新视角，通过利用基础模型进行数据增强来解决这一问题。利用 Llama2 和 SAM 出色的能力，提出通过提取与对应部分相关的信息来增强食谱和食物图像。

具体而言，用 Llama2 从食谱生成文本描述，旨在捕捉食物图像的视觉线索，而 SAM 用于生成与食谱中关键成分对应的图像分割。为充分利用增强数据，引入 Data Augmented Retrieval framework (DAR) 来增强跨模态检索的食谱和图像表示学习。首先向经过预训练的 CLIP 模型注入适配器层以降低计算成本，而不是完全微调所有参数。此外，提出多层圆损失来对齐原始和增强数据对，为正负对分配不同的惩罚。

在 Recipe1M 数据集上， DAR 在很大程度上优于所有现有方法。大量消融研究验证 DAR 的每个组件的有效性。https://github.com/Noah888/DAR

4、Generalized SAM: Efficient Fine-Tuning of SAM for Variable Input Image Sizes

#ECCV2024 #SAM #视觉语言模型 #多模态学习

最近关于改进基础模型微调效率的研究很多。这篇论文提出一种新的高效微调方法，允许Segment Anything Model (SAM)的输入图像大小可变。SAM是一种在大型数据集上训练的图像分割强大基础模型，但需要微调以识别任意类别。SAM的输入图像大小固定为1024×1024，导致训练过程中存在大量的计算需求。此外，固定的输入图像大小可能导致图像信息的丢失，例如由于固定的纵横比。

为解决这个问题，提出Generalized SAM (GSAM)。不同于之前方法，GSAM是第一个在SAM训练过程中应用随机裁剪的方法，从而显著降低训练的计算成本。对各种类型和各种像素计数的数据集进行的实验表明，GSAM在训练上比SAM和其他SAM微调方法更加高效，实现了相当或更高的准确性。https://github.com/usagisukisuki/G-SAM

5、IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection

#ECCV2024 #SAM #视觉语言模型 #目标检测

直接利用预训练的 SAM 进行红外小目标检测 (IRSTD) 任务往往难以取得令人满意的性能，原因是自然图像与红外图像之间存在明显的域差异。与可见光相机不同，热像仪通过捕捉红外辐射来显示物体的温度分布。小目标往往在目标边界显示微妙的温度过渡。

为解决这个问题，提出针对 IRSTD 的 IRSAM 模型，改进SAM的编码器-解码器架构，以更好学习红外小物体的特征表示。具体来说，设计基于 Perona-Malik 扩散 (PMD) 的块，并将其整合到 SAM 编码器的多个层级中，以帮助其捕捉关键结构特征并抑制噪声。

此外，设计一个用于融合来自编码器的多粒度特征的 Granularity-Aware 解码器 (GAD)，以捕捉长距离建模中可能丢失的结构信息。在包括 NUAA-SIRST、NUDT-SIRST 和 IRSTD-1K 在内的公共数据集上进行的大量实验验证了 IRSAM 的设计选择，以及它在代表性最先进方法上的显著优越性。https://github.com/IPIC-Lab/IRSAM

6、Lite-SAM Is Actually What You Need for Segment Everything

#ECCV2024 #SAM #视觉语言模型 #多模态学习

Segment Anything model (SAM) 庞大的计算资源需求仍然是一个限制因素。许多方法如 MobileSAM、Edge-SAM 和 MobileSAM-v2，已探索轻量级解决方案。然而，它们用的传统 Grid Search 采样策略或两阶段连接方法，这些方法不允许端到端训练，严重限制了全部分割 (SegEvery) 的性能。

本文介绍Lite-SAM，一个有效端到端解决方案，旨在降低计算成本和冗余。Lite-SAM 由四个主要组件组成：一个简化的 CNN-Transformer 混合编码器 (LiteViT)、一个自动提示网络 (AutoPPN)、一个传统提示编码器和一个掩码解码器。所有这些组件都集成在 SAM 框架内。LiteViT 是一个高性能的轻量级骨干网络，只有 1.16M 参数，相较于最轻的现有骨干网络 Shufflenet，参数减少了 23%。还引入AutoPPN，一种新的端到端提示框和点生成方法。这对传统 Grid Search 采样方法的改进，其独特设计易于整合到任何 SAM 系列算法中，扩展了其可用性。

在各种公共和私有数据集上对 Lite-SAM 进行了广泛基准测试。评估涵盖了广泛的通用度量标准，包括参数数量、SegEvery 执行时间和准确性。研究结果表明，Lite-SAM 以仅 4.2M 参数高效运行，明显优于其对手，在提升 SAM、MobileSAM、Edge-SAM、EfficientViT-SAM 和 MobileSAM-v2 的准确性的同时，性能提升了 43x、31x、20x、21x 和 1.6x，体现 Lite-SAM 在性能和精度之间实现最佳平衡的能力，设定一个新的最先进 (SOTA) 基准。

7、MeshSegmenter: Zero-Shot Mesh Semantic Segmentation via Texture Synthesis

#ECCV2024 #图像分割 #SAM #视觉语言模型 #多模态学习

提出MeshSegmenter，简单有效的框架，专为零样本3D语义分割而设计。该模型成功将2D分割模型的强大能力扩展到3D网格，实现在不同网格和分割描述之间准确的3D分割。

具体来说，利用Segment Anything Model (SAM)模型从3D形状生成的图像中分割目标区域。鉴于纹理对分割的重要性，还利用预训练的扩散模型从3D形状生成具有纹理的图像，并利用SAM从具有纹理的图像中分割目标区域。纹理补充形状以进行分割，并有助于在几何上不突出的区域实现精确的3D分割，例如在汽车网格内分割汽车门。

为实现3D分割，从不同视角渲染2D图像，并对带有纹理和不带纹理的图像进行分割。最后，开发一个多视图重新投票方案，将各种视角的2D分割结果和置信分数整合到3D网格上，确保分割结果的3D一致性，并消除特定视角的不准确性。

通过这些创新，MeshSegmenter可以在定量和定性上提供稳定可靠的3D分割结果。https://github.com/zimingzhong/MeshSegmenter

#libcom

六年、六届学生接力，共铸上交大图像合成工具箱

arXiv:2106.14490v5

如果你对 arXiv 的版本号有所了解，你就知道这篇论文已经更新了 4 次，现在已经来到了第 5 个版本。实际上，这个 arXiv 编号属于上海交通大学牛力团队一篇持续更新了四年的综述报告。

该综述介绍了图像合成（image composition）领域需要解决的问题和应运而生的子任务，总结了各个子任务的数据集、传统方法、深度学习方法和实验现象，从鸿蒙初辟写到尘埃落地。

论文标题：Making Images Real Again: A Comprehensive Survey on Deep Image Composition
论文地址：https://arxiv.org/abs/2106.14490v5

除了持续更新这份关于图像合成的综述，牛力团队还在持之以恒地研发和迭代一个图像合成工具箱：libcom。而这项工作更是已经持续了六年！

该团队自 2018 年底就开始从事图像合成领域的研究，从数据（10 + 原创数据集）到模型（30 + 原创模型）、论文（20 + 已发表论文），再到工具箱（libcom），历时六年，耗资数百万，由六届学生接力完成。

其中，所有数据集的每张图片都经过 2~3 人检查，以严格保证数据集的质量。所有模型的代码都经过 2~3 人检查，以确保没有严重的 bug。该团队打趣地表示：「如果有严重的 bug 请尽快打脸。」

在多年研究积累的基础上，该实验室于 2023 年底推出了尽量无需训练微调、对任意图片开箱即用的图像合成工具箱 libcom。并且牛力老师表示：「该工具箱的形式也是我们首创的，体现了我们对 image composition 领域的理解。」

截至 2024 年 10 月，libcom 已被下载安装了 1.2 万次。

项目地址：https://github.com/bcmi/libcom

可以看到，libcom 的 logo 是一个半人马的形象，实际上这正是为了体现图像合成的目标：融合不同的图像元素。这个半人马就是人和马的融合，同时 logo 中还添加了装饰性的蓝圈和黄圈的融合。另一个有趣的细节是，由于蓝色和黄色的过渡色是绿色，因此半人马系上了一条绿色的腰带。

具体能力上，libcom 集成了十几项图像合成功能（每个功能都有一到两个简单有效的方法），实现了对图像合成的全方位覆盖，并且每一个功能都有对应的仓库。牛力老师谦虚地说：「经过近一年的迭代，大多数功能的效果还凑合。」

另外值得一提的是，每个功能对应的仓库中都有训练代码。这是该团队专门为用户微调准备的：如果用户发现某项功能在自己的数据集上表现欠佳，原因很可能是数据差异，因此用户只需用自己收集的训练数据微调模型，替换掉原来的 checkpoint，就能让这些功能发挥出自己的完整实力。

libcom 的功能

在介绍 libcom 的十几项功能之前，我们首先要了解什么是图像合成（image composition）。

图像合成是图像编辑（image editing）技术的一种，而图像编辑的原子操作包括增、删、改。其中「增」这个研究方向就叫做图像合成，指的是在图像中添加元素。另外，「删」是指从图像中擦除元素，该研究方向叫做图像填充（image inpainting）。「改」是指改变图像中元素的属性，该研究方向叫做属性编辑（attribute manipulation）。其余复杂的图像编辑操作皆可转化为「增」、「删」、「改」这三个原子操作的排列组合。

因此，可以说图像合成在图像编辑的版图中三分天下居其一，并且其在虚拟现实、艺术创作、电商广告、数据增广等领域有着广泛应用。

libcom 的十几项功能涵盖了图像合成的方方面面，从评估合成图的质量到得到高质量合成图：

1. get_composite_image：通过剪切粘贴、alpha 融合和泊松融合混合前景背景，如下图所示。这些是最简单的传统图像融合方法。

2. OPAScoreModel：输入合成图和前景掩码，判断前景物体的放置（位置、大小）是否合理。输出的分数介于 [0,1] 之间，1 表示合理，0 表示不合理。在下图中，左边的合成图分数为 1，右边的合成图分数为 0。

3. FOPAHeatMapModel: 输入一对背景图片和前景物体，输出该物体按照不同尺寸放在背景图片不同位置得到的合成图的合理性分数。假设有 K 个离散的前景物体尺寸，背景图片大小为 H*W, 则输出 H*W*K 的热力图。热力图上的每个像素对应一个放置的合理性分数，因此根据热力图可以获取合理的前景物体放置框。下图展示了单个前景物体尺寸的热力图以及根据热力图得到的前景物体放置框。

4. color_transfer: 传统的颜色迁移方法，用于将背景的颜色迁移到前景，适用于简单场景的图像和谐化。下图是合成图和颜色迁移后的结果。

5. ImageHarmonizationModel：输入合成图和前景掩码，图像和谐化模型调整前景的光照使其与背景和谐，输出和谐化结果。

6. PainterlyHarmonizationModel：艺术图像和谐化与图像和谐化类似，区别在于背景是艺术图片。输入合成图和前景掩码，艺术图像和谐化模型调整前景的风格 (颜色、纹理、笔触等) 使其与背景一致，输出和谐化结果。

7. HarmonyScoreModel: 输入合成图和前景掩码，判断前景和背景的光照是否匹配，输出前景与背景的和谐化分数。分数介于 [0,1] 之间，1 表示和谐，0 表示不和谐。在下图中，左边的合成图分数为 0.25，右边的合成图分数为 0.72。

8. InharmoniousLocalizationModel: 输入一张图片，输出该图片不和谐区域的掩码。下图展示了合成图和模型预测的不和谐区域。

9. FOSScoreModel: 输入一张合成图，预测前景和背景在几何和语义上的适配性分数，包括前景和背景的透视角度是否一致、前景物体的语义上下文是否合理等等。输出的适配性分数介于 [0,1] 之间，1 表示适配，0 表示不适配。

10. ShadowGenerationModel: 输入一张合成图和前景掩码，为前景物体在背景上生成合理的阴影。该功能不是很稳定，通常每随机生成 5 张会有 1~2 张的阴影形状较好。下图展示了随机采样 5 次生成的结果。

11. ControlComModel：输入一对背景图片和前景物体，把前景物体插入背景图片指定位置（黄色边界框），保持前景物体的姿态不变，做图像融合或者图像和谐化。两者的区别在于图像和谐化需要进一步调整前景物体的光照使其与背景和谐。

12. MureObjectStitchModel: 输入一对背景图片和前景物体 (支持多张参考图)，把前景物体插入背景图片指定位置（黄色边界框），调整前景物体的姿态和光照，得到合理的合成图。模型对于细节简单的物体和常见物体效果较好。对于细节复杂的物体，该团队建议用前景物体的 5~10 张图片花 10 分钟微调模型，这样一来，该模型的细节保留能力会大幅提升。该团队也提供了微调模型的代码。微调模型之后替换原来的 checkpoint 即可。

libcom 背后的技术

通常而言，图像合成的用法是把一个前景物体插入到一张背景图片中，得到一张合成图。但是通过简单的剪切粘贴得到的合成图会存在诸多问题，我们可以将这些问题都看作是前景和背景不一致问题，其中包括外观不一致性、几何不一致性、语义不一致性。三种不一致性又可进一步分解成若干子问题（边界、光照、阴影、放置、遮挡、视角等）。

为了解决这些子问题，研究社区又提出了很多子任务（如图像融合、图像和谐化、阴影生成、物体放置等）。在图像合成中，不一致性（inconsistency）、子问题（issue）、子任务（sub-task）三者之间的关系如下图所示。

上述这些子任务可以串行（sequential pipeline）或者并行（parallel pipeline）执行，以解决前景和背景之间的不一致性，得到高质量合成图。

串行流程和并行流程如下图所示，绿勾和红叉表示是否执行该子任务。

给定一对背景图片和前景物体，串行流程是先在背景中寻找前景物体的合理放置，通过图像混合解决边界不自然的问题，通过图像和谐化解决前背景光照不和谐的问题，通过阴影生成为前景物体在背景上生成合理的阴影。

而并行流程则是在一个模型中同时执行多个子任务，直接输出最终的合成图。并行流程也叫做生成式图像合成，近两年随着扩散模型的爆火而进入大众的视野。

libcom 的功能中有的基于串行流程，有的基于并行流程。

图像合成人才留步，团队在召唤

经过多年迭代发展的 libcom 功能虽多，但也有不少地方有待改进和补充。牛力老师表示，目前有待改进地方包括数据集扩充、模型调优、添加新功能、支持任意分辨率、工程优化、推理加速、跨平台迁移、版本升级迭代、用户界面等。

#多智能体框架Swarm

名字重复的太多了这可不是docker 哪个swarm

毫无疑问，多智能体肯定是 OpenAI 未来重要的研究方向之一，前些天 OpenAI 著名研究科学家 Noam Brown 还在 X 上为 OpenAI 正在组建的一个新的多智能体研究团队招募机器学习工程师。

就在几个小时前，这个或许还没有组建完成的新研究团队就已经开源发布了一项重量级研究成果：Swarm。这是一个实验性质的多智能体编排框架，主打特征是工效（ergonomic）与轻量（lightweight）。

项目地址：https://github.com/openai/swarm

Swarm 开源后引起了热烈讨论，有网友表示这能帮助简化许多潜在的多智能体用例的工作流程。

我们先来看一个例子。首先安装 Swarm，很简单：

pip install git+ssh://git@github.com/openai/swarm.git

装好这个框架之后，用起来也很方便。以下代码定义了 2 个智能体，而用户的指令是与智能体 B 交谈：

from swarm import Swarm, Agent


client = Swarm()


def transfer_to_agent_b():
return agent_b


agent_a = Agent(
name="Agent A",
instructinotallow="You are a helpful agent.",
functinotallow=[transfer_to_agent_b],
)


agent_b = Agent(
name="Agent B",
instructinotallow="Only speak in Haikus.",
)


response = client.run(
agent=agent_a,
messages=[{"role": "user", "content": "I want to talk to agent B."}],
)


print(response.messages[-1]["content"])

输出消息：

Hope glimmers brightly,
New paths converge gracefully,
What can I assist?

下面我们就来简单介绍一下这个开源项目。

首先，需要再次强调，Swarm 是一个实验性质的多智能体框架，并不是为生产目的开发的，因此团队表示不会提供任何官方支持。

Swarm 概况

Swarm 关注的重点是让智能体协作和执行变得轻量、高度可控且易于测试。

为此，它使用了两种原语抽象：智能体（agent）和交接（handoff）。其中，智能体包含指令和工具，并且在任何时间都可以选择将对话交接给另一个智能体。

该团队表示，这些原语很强大，「足以表达工具和智能体网络之间的丰富动态，让你可以针对真实世界问题构建可扩展的解决方案，同时避免陡峭的学习曲线。」

另外，该团队指出，请注意 Swarm 智能体与 Assistants API 中的 Assistants 无关。之所以名字相似，只是为了方便。Swarm 完全由 Chat Completions API 提供支持，因此在调用之间是无状态的。

为什么要使用 Swarm？

在设计上，Swarm 是轻量级、可扩展且高度可定制的。它最适合处理存在大量独立功能和指令的情况——这些功能和指令很难编码成单个提示词。

如果开发者想要寻求完全托管的线程以及内置的内存管理和检索，那么 Assistants API 就已经是很好的选择了。但如果开发者想要完全的透明度，并且能够细粒度地控制上下文、步骤和工具调用，那么 Swarm 才是最佳选择。Swarm （几乎）完全运行在客户端，与 Chat Completions API 非常相似，不会在调用之间存储状态。

该团队还展示了一个应用示例，包括天气查询智能体、用于在航空公司环境中处理不同客户服务请求的多智能体设置、客服机器人、可以帮助销售和退款的个人智能体等。具体示例请访问 Swarm 代码库。

简单的天气查询智能体示例，问题先经过筛选智能体处理，再转交给天气智能体解答

Swarm 的核心组件

Swarm 的核心组件包括 client（客户端）、Agent（智能体）、Function（函数）。

运行 Swarm 就是从实例化一个 client 开始的（其就是在内部实例化一个 OpenAI 客户端）。

from swarm import Swarm
client = Swarm()

client.run()

Swarm 的 run() 函数类似于 Chat Completions API 中的 chat.completions.create() 函数——接收消息并返回消息，并且在调用之间不保存任何状态。但重点在于，它还处理 Agent 函数执行、交接、上下文变量引用，并且可以在返回给用户之前进行多轮执行。

究其核心，Swarm 的 client.run() 是实现以下循环：

先让当前智能体完成一个结果
执行工具调用并附加结果
如有必要，切换智能体
如有必要，更新上下文变量
如果没有新的函数调用，则返回

参数

client.run() 的参数包括：

client.run() 完成后（可能进行过多次智能体和工具调用），会返回一个响应，其中包含所有相关的已更新状态。具体来说，即包含新消息、最后调用的智能体、最新的上下文变量。你可以将这些值（加上新的用户消息）传递给 client.run() 的下一次执行，以继续上次的交互——就像是 chat.completions.create()

响应字段

Agent

Agent（智能体）就是将一组指令与一组函数封装在一起（再加上一些额外的设置），并且其有能力将执行过程交接给另一个 Agent。

Agent 字段

指令（instructions）

Agent instructions 会直接转换成对话的系统提示词（作为第一条消息）。只有当前活动的 Agent 的指令会被使用（当发生智能体交接时，系统提示词会变化，但聊天历史不会）。

agent = Agent(
instructinotallow="You are a helpful agent."
)

instructions 可以是常规字符串，也可以是返回字符串的函数。该函数可以选择性地接收 context_variables 参数，该参数将由传入 client.run() 的 context_variables 填充。

def instructions(context_variables):
user_name = context_variables["user_name"]
return f"Help the user, {user_name}, do whatever they want."


agent = Agent(
instructinotallow=instructions
)
response = client.run(
agent=agent,
messages=[{"role":"user", "content": "Hi!"}],
context_variables={"user_name":"John"}
)
print(response.messages[-1]["content"])

输出消息：

Hi John, how can I assist you today?

Function

Swarm Agent 可以直接调用 Python 函数。
函数通常应返回一个字符串（数值会被转换为字符串）。
如果一个函数返回了一个 Agent，则执行过程将转交给该 Agent。
如果函数定义了 context_variables 参数，则它将由传递到 client.run() 的 context_variables 填充。

def greet(context_variables, language):
user_name = context_variables["user_name"]
greeting = "Hola" if language.lower() == "spanish" else "Hello"
print(f"{greeting}, {user_name}!")
return "Done"


agent = Agent(
functinotallow=[print_hello]
)


client.run(
agent=agent,
messages=[{"role": "user", "content": "Usa greet() por favor."}],
context_variables={"user_name": "John"}
)

输出消息：

Hola, John!

如果某个 Agent 函数调用出错（缺少函数、参数错误等），则会在聊天之中附加一条报错响应，以便 Agent 恢复正常。

如果 Ageny 调用多个函数，则按顺序执行它们。

交接和更新上下文变量

通过在返回的函数中包含一个 Agent，可将执行过程交接给这个 Agent。

sales_agent = Agent(name="Sales Agent")


def transfer_to_sales():
return sales_agent


agent = Agent(functinotallow=[transfer_to_sales])


response = client.run(agent, [{"role":"user", "content":"Transfer me to sales."}])
print(response.agent.name)

输出消息：

Sales Agent

它还可以通过返回更完整的 Result 对象来更新 context_variables。如果你希望用单个函数返回一个值、更新智能体并更新上下文变量（或三者中的任何组合），它还可以包含一个 value 和一个 agent。

sales_agent = Agent(name="Sales Agent")


def talk_to_sales():
print("Hello, World!")
return Result(
value="Done",
agent=sales_agent,
context_variables={"department": "sales"}
)


agent = Agent(functinotallow=[talk_to_sales])


response = client.run(
agent=agent,
messages=[{"role": "user", "content": "Transfer me to sales"}],
context_variables={"user_name": "John"}
)
print(response.agent.name)
print(response.context_variables)

输出消息：

Sales Agent
{'department': 'sales', 'user_name': 'John'}

注意：如果一个 Agent 调用了多个交接 Agent 的函数，则仅使用最后一个交接函数。

函数模式

Swarm 会自动将函数转换为 JSON 模式，然后将其传递给聊天补全工具。

文档字符串会转换为函数 description。
没有默认值的参数会设置为 required。
类型提示会映射到参数的 type（默认为 string）。
不明确支持对每个参数进行描述，但如果只是在文档字符串中添加，应该能以相似的方式工作。

def greet(name, age: int, location: str = "New York"):
"""Greets the user. Make sure to get their name and age before calling.


Args:
name: Name of the user.
age: Age of the user.
location: Best place on earth.
"""
print(f"Hello {name}, glad you are {age} in {location}!")
{
"type": "function",
"function": {
"name": "greet",
"description": "Greets the user. Make sure to get their name and age before calling.\n\nArgs:\n name: Name of the user.\n age: Age of the user.\n location: Best place on earth.",
"parameters": {
"type": "object",
"properties": {
"name": {"type": "string"},
"age": {"type": "integer"},
"location": {"type": "string"}
},
"required": ["name", "age"]
}
}
}

流式处理

Swarm 也支持流式处理。

stream = client.run(agent, messages, stream=True)
for chunk in stream:
print(chunk)

使用了与 Chat Completions API streaming 一样的事件，但添加了两个事件类型：

{"delim":"start"} 和 {"delim":"start"}，用于在 Agent 每次处理单个消息（响应或函数调用）时发出信号。这有助于识别 Agent 之间的切换。
为方便起见，{"response": Response} 将在流的末尾返回带有已聚合的（完整）响应的 Response 对象。

#ACDC

李飞飞：不要数字孪生，要数字表兄弟，一张照片生成机器人训练场景

不百分百还原出虚拟场景，效果反而更好。

我们很多人都听说过数字孪生（digital twin），在英伟达等公司的大力推动下，这种高效运营工作流程的方法已经在很多工业场景中得到应用。

但你听说过数字表亲（digital cousin）吗？

近日，斯坦福大学李飞飞团队就做出了一个这样的研究，其可有效地将真实数据变成适用于机器人学习的模拟数据 —— 在降低真实转模拟成本的同时还能提升学习的泛化性能。

简单来说，你只需拍一张照片，就能将照片中的物体变成虚拟版本，并且这个数字虚拟版本还不是照片中物体的一比一复刻，而是存在一定的变化。

我们知道，在真实世界中训练机器人并不安全，而且成本很高，难以大规模扩展。这就是模拟的用武之地，其成本低，并且可以源源不断地获取训练数据。但是，模拟的问题也很明显，模拟环境和真实环境总归不一样，存在含义和物理机制上的差异。

为了解决这种差异，数字孪生的概念诞生了。简单来说，数字孪生就是为真实场景构建一个虚拟副本，但其成本很高，并且难以实现跨域泛化。

为了解决这些局限，李飞飞团队提出了数字表亲（digital cousin）的概念。不同于数字孪生，数字表亲并不是真实物体的虚拟对应，而只是具有相似的几何和语义特质和属性。用whaoの开发板商城测试设备试验

论文标题：ACDC: Automated Creation of Digital Cousins for Robust Policy Learning
论文链接：https://arxiv.org/abs/2410.07408
项目地址：https://digital-cousins.github.io/

如此一来，数字表亲既能降低生成相似的虚拟环境的成本，还能通过提供相似训练场景的分布而实现更好的跨域泛化。基于数字表亲，该团队提出了一种用于自动创建数字表亲的全新方法，该方法就叫做自动数字表亲创建（Automatic Creation of Digital Cousins），简称 ACDC。

他们还提出了一种全自动的「真实→虚拟→真实」流程，可用于生成完全可交互的场景以及训练可以零样本方式部署在原始场景中的机器人策略。

结果表明，ACDC 得到的数字表亲可以成功保留几何与语义特质和属性，同时训练得到的机器人策略也优于使用数字孪生得到的策略：在零样本虚拟→真实迁移条件下，能以 90% 的成功率胜过数字孪生的 25%。

方法概述

ACDC 由三个连续步骤构成：

首先，从输入的 RGB 图像中提取出每个物体的相关信息。
接下来，基于一个资产数据集，使用该信息来为每个检测到的输入物体匹配数字表亲。
最后，对选取的数字表亲进行后处理，生成一个完全可交互的模拟场景。

实验

该团队进行一系列实验，试图解答以下研究问题：

问题 1：ACDC 能否得到高质量的数字表亲场景？给定一张 RGB 图像，ACDC 能否捕获原始场景中固有的高层级语义和空间细节？

问题 2：当在原始设置上进行评估时，基于数字表亲训练得到的策略能否与基于数字孪生得到的策略相媲美？

问题 3：相比于基于数字孪生训练得到的策略，基于数字表亲训练得到的策略是否更加稳健

问题 4：基于数字表亲训练得到的策略能否实现零样本「虚拟→真实」策略迁移

通过 ACDC 进行场景重建

在模拟 - 模拟场景中，ACDC 对场景重建进行定量和定性评估。

其中，「Scale」是输入场景中两个物体的边界框之间的最大距离。「Cat.」表示正确分类的物体与场景中物体总数的比例。「Mod.」显示正确建模的物体与场景中物体总数的比例。「L2 Dist.」提供输入和重建场景中边界框中心之间的欧几里得距离的平均值和标准差。「Ori. Diff.」表示每个中心对称物体的方向幅度差异的平均值和标准差。「Bbox IoU」表示资产 3D 边界框的交并比 (IoU)。

定性 ACDC 真实 - 模拟场景重建结果。针对给定场景显示多个表亲。

基于这些结果，我们可以放心地回答问题 1：ACDC 确实可以保留输入场景的语义和空间细节，从单个 RGB 图像生成现实世界对象的表亲，这些表亲可以准确定位和扩展，以匹配原始场景。

使用数字表亲进行模拟 - 模拟策略学习

模拟-模拟策略结果。

在精确孪生、不同数量的表亲和三个最近类别的所有资产上训练的策略的汇总成功率。策略在四种设置上进行测试：精确数字孪生和三种越来越不相似的设置（以 DINOv2 嵌入距离为衡量标准）以探测零样本泛化。请注意，对于任务 3，使任务可行的橱柜模型要少得多，因此这里仅比较数字孪生和 8 个表亲的策略。

使用数字表亲进行模拟-真实策略学习

数字孪生与数字表亲策略的零样本真实世界评估。任务是打开宜家橱柜的门，衡量标准是成功率：模拟 / 真实结果在 50/20 次试验中取平均值。

真实-模拟-真实的场景生成和策略学习

全自动数字表亲生成。ACDC 的无剪切视频完全自动执行，为真实厨房场景生成了多个数字表亲。ACDC 步骤 1 末尾的轴对齐边界框无需加速即可做到可视化。

零样本模拟到真实世界策略迁移。专门从上面生成的四个数字表亲训练的模拟策略，我们可以零样本迁移到相应的真实厨房场景。

基于这些结果，我们可以放心地回答问题 2、3、4：与在数字孪生上训练的策略相比，使用数字表亲训练的策略表现出相当的分布内性能和更稳健的分布外性能，并且可以实现零样本模拟到真实策略迁移。

一些失败的案例。

结论

作为一种全自动管道，ACDC 用于快速生成与单个现实世界 RGB 图像相对应的完全交互式数字表亲场景。我们可以发现，利用这些数字表亲训练的策略比在数字孪生上训练的策略更稳健，具有可媲美的域内性能和卓越的域外泛化能力，同时也支持零样本模拟到现实的策略转移。

#DAPE

Transformer长度外推，全新位置编码DAPE大幅提升模型性能

本篇论文已被NeurIPS 2024接收，论文第一作者郑传阳来自香港中文大学，共同作者包括新加波国立大学高伊杭，诺亚实验室石涵、任晓哲、蒋欣、李震国，香港中文大学黄敏斌、李靖瑶，香港大学熊璟，香港浸会大学吴国宝，香港中文大学李煜

在当今的人工智能领域，Transformer 模型已成为解决诸多自然语言处理任务的核心。然而，Transformer 模型在处理长文本时常常遇到性能瓶颈。传统的位置编码方法，如绝对位置编码（APE）和相对位置编码（RPE），虽然在许多任务中表现良好，但其固定性限制了其在处理超长文本时的适应性和灵活性。

为了应对这一挑战，提出了一种全新的位置编码方法：Data-Adaptive Positional Encoding（DAPE）。DAPE 通过动态调整位置编码，使其能够根据输入上下文和学习到的固定先验进行自适应调整。这种创新方法不仅保留了局部和反局部信息，还在模型训练长度和长度泛化方面显著提升了模型性能。相关研究成果已被 NeurIPS 2024 收录。

论文地址: https://arxiv.org/abs/2405.14722
代码地址: https://github.com/chuanyang-Zheng/DAPE

背景与挑战

Transformer 模型的成功离不开其强大的序列处理能力，但在超出其训练长度时，其性能往往会显著下降。这主要是由于传统的位置编码方法（如 APE 和 RPE）在处理长文本时的固定性和缺乏适应性，导致模型难以有效捕捉长距离的依赖关系。最近的一些工作（e.g. Kerple, FIRE, BiPE）指出 transformer 通过合适的位置编码可以提升模型长度外推的能力，但是在外推长度达到训练长度 (512) 16 倍 (8192) 的时候，依然出现了 perplexity 的上升。相反的，DAPE 做到了在 128 长度上训练，在 8192 乃至 16384 上拿到了更低的困惑度（perplexity）。

方法

Additive Relative Position Encoding

对于大多数这些加性相对位置编码（RPE）方法，(softmax 之前的) 注意力 logits 的计算可以通过以下公式统一表示：

，其中，偏置矩阵

由位置编码函数

生成，

的

项定义为

。

不同的b的公式和参数化方法导致了各种 RPE 的变体。一些支持任意序列长度的方法包括 T5 的 RPE，ALiBi，Kerple，Sandwich，以及 FIRE。加性 RPE 的示例包括：

(1) ALiBi:

，其中标量

为超参数；

(2) Kerple:

，其中

和

是两个可学习的参数；

(3) FIRE:

，其中位置编码函数

由参数

从数据中学习，

是一个转换函数，旨在为局部位置分配更多的模型能力。

之前方法的局限

这些位置编码的共同特征是它们是预定义且静态的。具体来说，它们在各种任务和模型中都是固定的，这可能导致它们无法有效适应不同的输入长度和上下文。为了解决这个问题，近期的研究提出了相对位置编码的函数插值方法（FIRE），它利用神经网络从输入位置到位置偏置的隐式映射进行学习。尽管 FIRE 使用多层感知机（MLP）来学习位置嵌入，但这些嵌入在训练完成后在不同任务中仍然是固定的。从直观上看，所学习的静态位置编码（如 Kerple 和 FIRE）是所有训练样本的平均最优解。因此，尽管它们通常是有效的，但对于任何特定实例来说，它们本质上是次优的。这种静态特性限制了它们在训练上下文以外的各种实际场景中的灵活性和适用性。

Data-Adaptive Positional Encoding

本文受静态位置编码局限性的启发，提出了一种数据自适应位置编码（DAPE）方法。DAPE 根据语义信息（如当前的注意力值）和位置信息动态调整位置编码。由于 MLP 具有普适逼近能力，本文采用

来根据注意力动态调整位置编码。我们注意到 DAPE 与所有加性相对位置编码兼容，并在可解释性和易于实现方面具有优势。所提出的 DAPE 结合了语义信息和位置信息，使得位置编码能够根据输入数据进行自适应调整。这种适应性使 DAPE 能够克服静态编码的局限性，通过对每个具体输入数据的动态调整，实现相对最优的性能。据我们所知，这是在 Transformer 架构中首次引入的基于数据语义依赖的自适应位置编码方法。

在这里，我们使用注意力

来表示注意力语义信息，使用位置偏置矩阵B（例如 ALiBi, Kerple 和 FIRE）来捕捉位置信息。然后，数据自适应 PE 可表示为

，其中

是一个隐式函数，它将语义和位置信息整合为所需的位置编码。因此，结合 DAPE 的 softmax 前注意力 logit 公式如下：

这里

是逐元素函数。实际上，我们采用一个两层

神经网络来参数化

，因为它具有普适逼近性。所有参数在训练过程中直接从数据中学习。这种架构允许

根据输入上下文动态调整位置嵌入，确保编码方法既具有自适应性又依赖于输入数据。

在自然语言任务中，DAPE 的设计旨在捕捉 token 之间复杂的关系。Arora et al. 指出 aassociate recall 占据了 Transformer 模型、基于 RNN 的模型和卷积模型之间困惑度（perplexity）差异的大部分。比如，我们考虑一个在长段落中 “Hakuna” 总是紧跟 “Matata” 的一致配对。这种模式表明模型对位置信息的依赖减少，而更注重增强词嵌入的相似性，从而使得 “Hakuna” 可以有效地与前面的 “Matata” 联系起来。同样，在涉及长上下文理解和搜索的任务中，注意力机制应该优先考虑语义相似性，而不是被与位置编码相关的信息所掩盖，因为在较长距离上位置编码的相关性可能较低。因此，Transformer 应能够保存信息而不受位置距离的过度影响。相反，一个满意的 PE 应该结合语义和位置信息。因此，基于语义依赖的位置编码方法是更优的，预计能够提升模型性能。

实验结果

相比于之前的方法

在训练长度内更好的效果。DAPE 增强了在序列长度内部的表现，表明其较低的困惑度可能来自对整个句子的充分利用，而不是忽视长距离信息。与 ALiBi、Kerple 和 FIRE 相比，改进后的版本 DAPE-ALiBi、DAPE-Kerple 和 DAPE-FIRE 在序列长度内部的表现始终显著更好。随着序列长度的增加，ALiBi 往往从全局注意力过渡到几乎局部的注意力，这就是为什么 ALiBi 在训练长度内的表现比大多数基线差，但在超出训练长度后表现更好的原因。结果表明 DAPE 在序列长度内部的优越表现具有统计显著性，p 值小于 0.05。因此，在不同训练长度 (长度 128，512 以及 1024) 中的表现表明，DAPE 较低的困惑度是由于它有效利用了整个序列，而不是仅关注局部部分并忽视长距离信息。

在长度外推上更好的效果。与 ALiBi、Kerple 和 FIRE 相比，DAPE 显著提升了长度外推（length extrapolation）性能。在不同长度的训练和评估中，DAPE-Kerple 明显超越 Kerple 等竞争对手。在 Arxiv 数据集上，训练长度为 128 时，DAPE-Kerple 在评估长度为 8192 时达到了惊人的低困惑度 5.00，而 Kerple 的困惑度为 31.93。同样，在 Books3 数据集上，训练长度为 512 时，DAPE-Kerple 在相同的扩展评估长度下的困惑度为 17.88，远远优于 Kerple 的 39.31。这些结果证明，DAPE 通过其语义适应性和灵活性，持续提升了超出训练长度的性能，超越了静态位置编码方法。

在更大模型上上保持更好的结果

DAPE 在更大模型上有效。随着模型规模的增长（如图 4 所示），DAPE 在性能指标上持续展现出提升。当模型规模从 125M 增加到 350M 时，DAPE-ALiBi 在评估序列长度为 8192（训练长度为 512）时的困惑度显著下降，从 3.82 降至 3.57。这些数值明显小于原始 ALiBi 的困惑度，ALiBi 从 4.54 降至 4.21，表明了 DAPE 的强劲性能提升。此外，DAPE-Kerple 大幅减少了 Kerple 的困惑度，从最初的 22.76 降至令人印象深刻的 3.43。在 2.7B 和 6.7B 的模型上，DAPE-Kerple 依然取得了最低的 perplexity。这些结果证实了 DAPE 即使在模型规模增大的情况下仍能保持其有效性，并继续表现出色，主要得益于其采用了语义自适应的位置编码方法。

不同 hidden dimension 情况下的表现

即使是较小的 hidden dimension

也能提升性能。实验在 ALiBi 和 DAPE-ALiBi 上进行。如附录图 6 所示，当训练长度为 128，且

设置为 4 时，DAPE-ALiBi 在评估长度为 128 时的困惑度为 8.25，在评估长度为 8192 时为 5.67，均优于 ALiBi 的 8.31 和 5.85。不论 hiddien dimension 设置为 4、16、32 或 64，DAPE 的性能在所有评估长度上都优于原始 ALiBi。这表明即使使用较小的

，DAPE 仍然具有有效性。

关于偏置矩阵 Bias Matrix 的消融实验

我们进一步对函数 f 进行了消融研究，证明 f 有助于增强偏置矩阵。DAPE（动态位置编码）改进了偏置矩阵，使得最终的注意力矩阵

得到了提升，而

用于计算

。对于未见过的位置，偏置矩阵 B 部分可以一定程度上处理（FIRE 将问题转化为插值），但不够准确，因此 DAPE 通过注意力得分帮助增强偏置矩阵 B。实验结果表明两点：1).

优于

，这表明通过提高偏置矩阵的表达能力可以获得更好的效果；2). DAPE 的

优于简单的

，这表明上下文自适应是重要的。

在 CHE 基准上的表现

DAPE 在需要位置信息的任务中表现更好。DAPE（与 Kerple 和 FIRE 结合）在 11 项需要位置信息的任务中有 10 项表现最佳，并在 Solve Equation 任务中取得了第二好的表现。这凸显了 DAPE 通过语义适应性处理需要位置信息的任务的有效性。

可视化结果

DAPE 展现 local pattern 和 anti-local pattern. 我们在图 1 中绘制了第 8192 个位置的查询 token 的学习位置编码偏置，涵盖了所选层中的所有注意力头。我们想强调 DAPE 的两个特点。首先，与固定的局部归纳偏置（如 Kerple 和 ALiBi）相比，DAPE 的偏置矩阵在不同的注意力头中，能够学习到既包含局部注意力模式，又包含 “反局部” 注意力模式 (DAPE Bias Head-8)，强调更远的 key（类似于 FIRE）。其次，与为所有注意力固定的静态偏置相比，DAPE 的偏置矩阵可以根据不同的注意力值动态调整。

代码实现

未来展望

通过引入语义和位置信息的结合，DAPE 极大地提升了 Transformer 模型在长文本处理上的表现。同时，应将继续优化 DAPE 的方法，提高其计算效率和适应性，探索其在更多实际应用中的潜力。

#淘宝在大模型问答领域的实践

随着大模型应用持续火热，应用门槛也越来越低，去年底，淘宝团队开始在大模型方面进行探索和实践，完成了业务所在垂直领域答疑机器人产品的上线。

在这篇文章中，作者从普通使用者的视角，把一边学习一边实践的过程记录了下来，和读者一起学习交流。

文章定位无门槛。受众主要是入门玩家，对于对大模型感兴趣想做一些小工具，或者在平常的业务工作中希望使用大模型来提效的读者也很价值。

#01

背景

当前大模型的应用还是处于比较初期的阶段，以物流领域常见场景为例，可以看到一些行业常见要求和当前大模型能力有较多冲突，在这些业务生产环境应用之前，我们还是希望先在容错性较高的场景进行一些实践。因此我们尝试基于大模型来优化答疑机器人，为后续更多的深度应用积累实践经验。（下面的示例图片由大模型生成，仅供参考）

传统答疑机器人的痛点

在大模型崛起之前，传统答疑机器人一般有两种模式：

基于多级目录分类，让用户慢慢翻到想了解的知识。
基于传统关键词检索方式，根据用户提问，在知识库中找到和用户提问相关的知识。

核心痛点是，不能快速准确找到用户想寻找的答案。

我们的目标

由于我们答疑机器人受众不是 C 端普通用户，而是内部作业人员，因此机器人给出的回答在语气或者回答方式上不需要过多润色，但我们希望它具备以下一些特点：

可以准确理解提问人员自然语言提问的语义给出标准答案；
希望可以比较快速给出答案（比如 5s 之内）；
不希望答非所问，提供不属于我们业务范围内的回答，如果提问的问题确实没有答案，希望拒绝回答并引导到人工。

#02

迭代过程

我们结合业内经验和自身诉求，大致进行了如下五个迭代，下面详细展开。

阶段一：向量搜索

嵌入（Embedding）是一种向量化方法，把文本，图像，视频等数据转换为向量，同时特别强调保留数据之间的语义关系。比如“苹果”和“橘子”要比“苹果”和“太阳”的向量值更为接近（语义相似）。
Embedding 模型服务：提供具体的 Embedding 能力的在线服务，可以直接调用 OpenAI，阿里云等远程服务，也可以本地部署。低成本试用可以尝试阿里云灵积。
向量数据库是用于存储和检索高维向量数据的数据库系统，特别擅长相似性搜索。低成本试用可以使用阿里云的 Hologres 数据库。

向量搜索可以类比我们传统的关系型数据库检索，只不过向量搜索是按照语义来进行相似度匹配搜索。

可以看到一端文本转为向量存在向量数据库中的字段展示，根据不同的 Embedding 模型维度也有不同，通常达到上千维。

1、向量搜索流程

下图是一个简化版的向量搜索流程图，分为数据准备和在线推理两个部分：

数据准备部分，需要把历史沉底的知识库数据清洗为多个 QA 问答对的格式，把问题，答案，问题对应的向量，存储在向量数据库。
在线推理部分，先把用户提出的问题通过向量服务转为向量，在向量数据库中找到与该问题最为相似的一条数据，然后通过相似度阈值来判断用户提问的问题和数据存储的标准问题是否足够相似，来决定是否把对应的答案返回给用户。

2、效果分析

假设有这样一个标准问答対：

Q：遇到不可抗力因素无法配送，如何操作？

A：1. 系统进行提报，详细步骤 XXX

提问类型	现场提问	结果分析
长度和语义相似的泛化问题提问	不可抗力因素无法配送，该怎么办？	问题比较接近时，通过取向量距离最小的问题对应的答案，正确率较高
问题较长且看起来差不多但语义不同的问题提问	不可抗力因素比较难以配送，怎么办？下雪封路了，不能作业该怎么办？	问题较长时，或者和标准问题类似但语义不同，纯靠向量无法很好地识别语义。导致错误率较高
不相关问题提问	今天天气怎么样？	拒绝回答的向量距离阈值不好把控

尝试下来，纯靠向量搜索的优势在于：对于原始问题或者细微修改的问题，可以比较快速、准确找到答案。

不足之处是：

问题较长且多个问题语义相近时，准确率下降
向量距离的阈值不好把控，对于无关问题的拒绝回答机制不好处理。

阶段二：RAG

RAG 是知识问答领域业内落地最多的实践，同时 RAG 也是应用很广且很容易上手的一种大模型应用方式。

RAG（Retrieval-Augmented Generation 检索增强生成）：因为大模型本身没有垂域的知识，RAG 其实就是把“查资料”和“写答案”这两个步骤结合在一起。先用检索系统找到一些跟问题相关的资料，然后再用大模型（类似于 GPT）来编写一个详细的答案，来提高AI回答垂直领域问题的准确性。

RAG 就像让一个大学理科生（知识储备丰富的大模型）拿着初中生的历史课本做开卷考试（相似度检索），虽然他本来不会，但靠查资料准确率还可以（效果不错）。就算书上没有，他也可以凭借自己的本事写满试卷（存在幻觉）。

1、RAG 流程

下图是简化版本的通过 RAG 实现知识问答的流程图，可以看到，整体和第一阶段的向量搜索是比较类似的：

在数据准备阶段，这里的原始数据可能是大量的文档资料，我们需要尽量清洗为统一格式的文档，每个文档都按照一定的规则进行分段。这里的分段规则和大小需要多次尝试，来保证最终的检索速度和总结效果。然后把分段后的知识向量化，存入向量数据库。
在线推理阶段，首先要做的事情是把用户提问的问题从数据库中检索出N条相似的分段，作为下一步大模型总结的参考资料，然后大模型拿着这些资料按照要求，总结出一个答案给到提问者。

2、RAG 上手

目前业内有很多现成的产品可以快速体验 RAG，整体可配置的交互和原理大同小异，推荐阿里云百炼的应用中心来进行相关操作。

平台对应的文档中心有详细的实践教程，在准备好基础文档的前提下，基本五分钟就可以搭出来一个智能体应用。以下用一个简单的示例演示下 RAG 流程和需要关注的点（以下相关截图来源阿里云百炼平台）：

核心步骤：

创建一个 RAG 智能体应用，主要关注模型选择，prompt（希望大模型怎么帮你总结），知识库，召回策略等。
上传知识库，重点关注向量模型的选择，分段规则。
在检索配置这里，设置召回类型和规则。
测试问答效果

3、效果分析

优势：

【正确率高】正确率基本可以达到 90% 以上。
【话术控制】回复话术可以根据 prompt 较为灵活的控制。包括期望的语气，回复格式等。
【兜底返回】可以控制知识库没有的内容拒绝回答，只是返回固定文案。

不足：

耗时较长，经常一次完整回复需要 10s 以上
按调用量产生调用费用，QPS 较高时，费用也会较高
因为允许大模型发挥，因此会存在幻觉的情况，也就是会有偶发的答非所问的 case。

阶段三：SFT

上面两种方案各有优劣，之后我们继续尝试了垂域模型微调技术，看看能不能训练出一个无所不知的垂直领域小模型。先贴一些相关的概念：

PT（Pre-Training 预训练），使用大量机器和未标记数据，如 GPT-4、Qwen2-7B 等；
SFT（Supervised Fine-Tuning 监督式微调），使用少量标注好的领域数据来训练基座大模型，来获得可处理专属领域任务的专有模型过程；
FFT（全参数微调），模型整个参数结构和权重会变，需要资源多，训练彻底，但容易过拟合和灾难遗忘；
lora 微调（一种常用的部分参数微调方式），通过矩阵运算原理，只微调小部分参数，达到和全参数微调类似的不错效果；
Instruction-Tuning（指令微调），旨在提高对多种自然语言指令的多任务处理能力，训练数据要求特定格式。

SFT 的过程就像一个家长教五岁（一个懂不少东西的小模型）的小孩背 20 篇古诗，背了三天发现还是不会（欠拟合），背了三个月发现挺好的（到位），可以倒背如流，背了三年，还是只会这几首（过拟合），不仅不会自己写诗（并没有理解诗的本质），而且 1 + 1 等于几都不知道了。(灾难性遗忘)

1、SFT 流程

一个 SFT 的简化版流程图如下所示，一般分为三块内容：

构建数据，高质量的数据非常重要，数据量的大小和质量会极大影响最终模型的效果。
模型微调和评测部分，是 SFT 最核心的部分，除了选择合适的大模型基座外，重点需要根据评测效果来多次调整训练所需的超参数，直到大模型表现达到自己的预期。
模型部署阶段，可以根据评测结果，选择表现最佳的模型快照进行部署，来为后续提供服务。

2、SFT 上手实践

目前模型微调平台也有很多，这里使用阿里云百炼平台简单展示下核心步骤。（以下截图来源阿里云百炼平台）

数据准备：

以知识问答机器人为例，这一步需要整理日常积累的原始问答数据，经过人工打标，转换为指令微调数据集的格式并上传到平台。

创建微调的训练任务，重点关注基座模型，评测下来，小模型中，最新的 qwen2-7B 表现较好。

调整训练配置

一些比较核心的配置：

循环次数，表示模型看几遍训练资料，根据我们的目的来，测试下来，这里循环次数越多，模型泛化能力越差，但也更加稳定。
学习率：模型开始更新参数时的幅度，可以决定是否学习到数据特征。
批次大小：根据训练轮数选择合适的步数，保证一次完整的训练可以保存若干个快照。

等待训练完成观察日志，是否有 loss（损失函数）跳跃过大，未收敛等异常情况。

模型评测：选择刚才训练好的模型进行数据推理，可以人工评测，也可以利用更强大的大模型来进行评测。

对推理数据打分，可以根据我们的要求来选择评测和打分方式，也可以借助平台能力完成打分。

比如可以写个脚本直接比标准答案完全一致
也可以用评测大模型给评测结果打分

测评通过后，将模型部署到平台并进行测试，运维，服务提供等。

3、一些尝试下来的有效手段

数据构造：

通过人工 + 通义千问 72B 等大模型同义改写问题来扩充训练数据数量以及让模型更好学习特征，进行了十倍扩充。

大模型改写：遇到不可抗力因素无法配送，如何操作？-> 遇到不可抗力因素无法配送，该怎么办？
人工改写：遇到不可抗力因素无法配送，如何操作？-> 遇到大雪等特殊情况，不能作业了！

打乱训练数据中相似数据的顺序，防止学到顺序相关的错误的特征。

是否有必要放大量无关的数据集？

这里还是和我们训练的期望效果来决定，如果我们希望模型回答稳定，且只希望它处理和训练数据相关的知识，不需要它的通用能力，那这里不需要混合数据训练。

微调：

通过观察 loss 收敛曲线和测评效果；调整初始学习率和训练轮数；我们的场景下，一般会把最终 loss 收敛在 0.1 以下。
尝试当 loss 曲线不再收敛时对应的快照作为最终的产出模型，避免过拟合。

评测——构建丰富的评测数据集：

【是否欠拟合】先使用训练集数据进行推理评测，然后再试用改写后的相同语义的测试集进行推理评测，保证两者都有较高分数。
【是否过拟合】对和训练数据语义无关的问题进行评测，看是否答案是训练数据集内的。

4、效果分析

实践下来发现的一些不一定对的认知：

【过拟合】经过 sft，大模型的一些通用能力的遗忘和一些过拟合行为是经常会发生的，不需要完全避免，还是要根据我们的目标来。
【prompt】sft 的小模型，使用常见的提示词工程技巧构造 prompt 提升作用不大，基本保证提问时和训练时的 prompt 保持一致即可。
【推理能力】可能和我们较少的原始训练数据（万条）和训练目标（保证准确率）有关，当前微调后的小模型比较难有举一反三的能力，所以构造多样化的训练集和评测集很重要。

优势：

由于使用的 7B 的小模型，因此响应快，一般全量结果 3s 左右可以返回。
准确率高：经过了完整的测评流程产出，只要提问和训练数据语义相关，就可以有较高的准确率。

缺点：

有一定的微调和部署成本。
对于未训练过的问题因为模型本身无法判断，因此会有乱回答的情况。

阶段四：多种技术结合使用

1、SFT + 向量数据库

希望微调后的大模型，对于未训练过的问题直接拒绝回答：

思路：如果 SFT 大模型返回的结果和向量搜索返回的前几条结果相似度不高，认为是未训练过的数据，直接拒绝回答。

2、RAG + SFT

将SFT后的模型作为 RAG 里的总结推理模型？
不可行，因为 RAG 部分的总结推理模型，用的是大模型的通用的总结能力，而不是 QA 问答能力，因此这里不适合使用经过 QA 训练数据微调后的模型。
命中 SFT 未训练过的问题时，跳转到 RAG 流程回答
综合考虑 RAG 强大的兜底能力和费用问题，可以根据我们的诉求选择性开启

于是有了让向量搜索，RAG，SFT 各司其职来实现更好问答效果的实践，以下是一次问答的简化版本的流程图：

阶段五：工程优化

【体验优化】丰富点赞点踩，图片和视频回答，展示相似语义问题列表等体验能力。
【自我迭代】数据清洗，模型训练部署等环节通过工程自动化实现模型的自我学习能力（大模型在快速发展，我们需要有快速微调模型并切换的能力，而且未来成本一定会降低）。
【数据沉淀】一线反馈数据，高质量人工答疑数据，统一沉淀为文档，作为后续数据资产。

#03

结语

作为从事工程应用领域的开发，我们不能只根据 “目前AI能做什么” 来构建自己的产品，也要看到未来AI的发展方向，比如之前大家一致诟病的大模型推理能力较弱，于是我们看到很多很重的提示词工程和思维链模式来解决推理问题。但可能在推理方面的表现，很多很重的解决方案并不如最新发布的 OpenAI o1 大模型。

可以预见的是，随着技术的发展，大模型的能力一定会越来越强，相关的调用成本一定会越来越低，对模型定制的确定性也会越来越好。除了保持学习实践之外，哪些才是工程应用真正需要沉淀的能力和方向，是我们需要思考的命题。

#PDF-WuKong

华科&华为发布首款基于国产芯片适配的多模态大模型“PDF悟空”，解析长文档多模态数据能力 SOTA

2024年10月，华中科技大学白翔团队与华为研究人员合作，推出了基于国产芯片的多模态文档大模型PDF-WuKong。

这一创新成果针对复杂多页PDF文档问答场景，提出了两项关键技术：端到端稀疏采样机制和多页PDF问答高质量数据生成方法。这些技术突破使得输入长度有限的多模态大模型能够有效处理理论上无限长的PDF文档，实现深度理解和精准问答。

PDF-WuKong不仅解决了现有多模态大模型难以处理长PDF文档的技术难题，其性能还超越了多个知名的国际闭源商业产品，该成果展示了国产芯片在支持复杂大模型应用方面的实力。

论文链接：https://arxiv.org/abs/2410.05970
代码地址：https://github.com/yh-hust/PDF-Wukong

研究背景

在大模型技术快速发展的今天，处理复杂的多页PDF文档仍然是一个重大挑战。学术文献、技术报告等长篇PDF文档通常包含文本、图表、公式等多模态内容，这种复杂性使得现有的AI模型难以全面理解和处理。

目前，处理多页PDF文档主要有两种主流技术路线：纯语言模态和纯视觉模态。纯语言模态方法将PDF文档中的所有信息转换为文本，然后使用长文本技术（如位置编码外推或稀疏注意力机制）或检索增强生成（如Self-RAG）技术进行处理。这种方法虽然可以应对长文档，但难以充分理解文档中的视觉元素。

另一方面，纯视觉模态方法擅长处理文档中的图像和视觉布局，但在面对长文档时计算成本极高（特别是对于高分辨率的文档图片），且难以有效捕捉页面间的上下文关系。

事实上，长篇文档中大量的冗余信息不仅增加模型推理的成本，也会使模型对于文档的理解带来干扰。为了解决这些问题，PDF-WuKong引入了稀疏采样器，通过对文档中最相关的文本段落或图表进行稀疏采样，显著减少输入的冗余信息。

然而，要实现这一目标，仍然面临一个核心问题：缺乏用于有效训练和评估多模态模型处理长文档能力的数据集。

为此，文章提出了一种高质量PDF文档问答数据的生成方法，并基于此方法构建并开源了全新数据集PaperPDF，专门用于模型训练和长文档理解能力的评估。

方法思路简述

为了实现对长篇PDF文档的多模态理解，并克服现有模型仅将PDF文档视为纯文本或图像单一模态的局限性，作者提出了PDF-WuKong。其核心动机在于，用户的查询通常只涉及文档中的少量文本块或图表。

因此，为了提升多模态大模型（MLLM）的准确性和效率，文章设计了一种稀疏采样器，并将其与多模态大模型进行了端到端的集成。

PDF-WuKong的核心结构包括三个主要部分：文档解析，稀疏采样和答案生成。

文档解析：文档解析任务旨在将PDF文档解析成符合人类阅读顺序、包含文本块和图像块的结构化内容。
稀疏采样：稀疏采样通过计算用户查询与文档各部分的相似度，从缓存的嵌入中选择与查询最相关的文本段落和图像块，并传递给后续的模型部分。
答案生成：将筛选出的关键信息联合问题和指令送入大模型，并且生成准确的答案。

在训练过程中，稀疏采样器和大语言模型可以通过端到端方式进行联合优化。稀疏采样器不仅提高了长文档的处理效率，还提升了模型的解释性。

高质量多页文档问答对数据生成方法

在长篇PDF文档的问答场景中，问题的答案通常只涉及文档的一部分内容。这种情况下，模型需要具备识别并提取相关内容的能力，以提高推理的准确性。

然而，现有的文档问答数据集大多局限于单页文档或单一证据的问题，无法支持多页文档的处理，且缺乏复杂的多证据推理场景。这些局限使得训练像稀疏采样器这样的技术变得困难。

为了解决这一问题，作者提出了一种可靠的长文档高质量问答对生成方法，并基于此方法构建了PaperPDF数据集，用于模型的训练和评估。数据生成的过程大体分为文档解析、规则抽取、指令构建以及后续的数据过滤。

文档解析：使用开源工具Grobid对从arXiv等来源获取了大约89,000篇PDF学术论文进行解析，将其拆分为多个文本块（如段落）和图像块（如图表）
规则抽取：使用预定义的规则随机选择部分解析出的文本块和图像块
指令构建：根据不同类型问答数据相应的提示模板构建生成提示送入现有的多模态大模型产品（如Gemini、GPT4v）产生相应的问题和答案
数据过滤：使用一系列自动化规则过滤生成的训练集，例如去除问题过短、答案过长或非英文的样本；人工检查生成的测试集确保评估的准确性。

最终构建了一个包含两种单证据类型和三种多证据类型的100万条训练样本和6,000条测试样本的PaperPDF数据集，专门用于训练和评估模型在长篇、多模态文档上的问答能力，其统计量如下所示。

实验结果

作者进行了在长文档理解任务和面向单、多页文档VQA任务上测试了他们的方法。

长PDF理解任务

作者在提出的PaperPDF上测试了他们的方法。实验结果表明得益于稀疏采样器的引入，PDF-WuKong显著减少了处理的冗余信息，在多个评估指标上均优于其他开源模型和主流的商业PDF问答产品。

面向文档的VQA任务

作者同时也在多个面向文档VQA任务上进行了测试。结果表明，PDF-WuKong不仅能在单页文档上表现出色，还能在多页文档场景中展示出极高的准确性和效率。

更重要的是，PDF-WuKong在最近的另外一个多模态长文档benchmark MM-NIAH上表现优异，尤其是对于64K的上下文长度，PDF-WuKong实现了最佳的性能，这展现出了它对长文档的鲁棒性。

文档长度对模型性能的影响

实验表明，PDF-WuKong的性能和时间效率在不同长度的文档中保持相对稳定。这是因为，无论原始文档的长度如何，稀疏采样器能有效地将输入大小减小到合理的水平。

可视化对比

作者也提供了一些与现阶段主流的PDF问答商业产品的可视化对比。可以看出PDF-WuKong准确的找到了PDF文档中的依据，并正确回答了提出的问题。而其他商业产品的回答都有一定的错误。

总结与展望

PDF-WuKong是首个基于国产化芯片的多模态长文档大模型，开创性地为输入窗口长度受限的多模态大模型理解和处理包含大量文本和图像信息的长篇PDF文档提供了高效解决方案。此外，文章还提出了一套高质量的长文档问答对的生成方法，并开源了相应的数据集PaperPDF，为后续在长文档理解和多模态检索领域的研究和应用探索提供了有力的支持。

目前，PDF-WuKong主要聚焦于单文档、单轮对话的局部问题回答，即针对文档中的局部内容进行精确的理解和响应。对于全局性的问题，如总结整篇文档的核心思想或分析文档的整体结构，模型的能力还有待提升。此外，在跨文档问答和多轮对话方面，模型尚未充分支持，无法有效处理涉及多个文档的信息整合和连续的对话交互。

未来的工作将重点从以下几个方向提升模型性能：首先，从引入全局语义表示的角度，利用图神经网络等技术增强模型对文档整体结构和主题的理解，提升全局信息捕捉能力。其次，通过引入跨文档的信息检索和融合机制，促进模型对多文档之间关联信息的理解，实现更准确的跨文档问答。

最后，探索在多轮对话中保持上下文连贯性的技术，例如引入对话记忆机制和上下文增强方法，增强模型对用户连续意图的理解，更好地适应复杂的交互场景。通过这些具体的改进措施，PDF-WuKong有望在处理更复杂的应用场景中发挥重要作用，充分展现其在长文档多模态数据解析领域的潜力。

#中国移动九天善智多模态大模型震撼发布

长文本、语音、视觉、结构化数据全覆盖

善智者，动于九天之上。

善智者，启于十年之前。十年系统性人工智能创新，中国移动九天善智多模态基座大模型以其全栈国产化、复杂系统智能化的卓越性能，让 AI 不仅会 “作诗”，也要会 “做事”，还能做 “更复杂更具创造性的事”。

10 月 12 日，在第十二届中国移动全球合作伙伴大会主论坛上，中国移动发布了最新的九天善智多模态基座大模型，全面解析了九天系列大模型的亮点能力、特色技术。

四大亮点：九天善智多模态大模型的强大功能解析

中国移动将新发布的多模态大模型命名为 “善智”，在人工智能高速发展的时代，平衡 “大善” 与 “大智” 至关重要。这一命名体现了中国移动追求技术卓越与社会责任并重的理念，使大模型不仅文理兼修、德艺双馨，更能普惠应用，进而创造人类文明新的福祉。

据了解，中国移动九天系列大模型包括九天善智多模态大模型、九天众擎语言大模型、九天智绘视觉大模型、九天语荷语音大模型、九天数童结构化数据大模型等，可以提供 1.5B、3B、8B、13.9B、100B、200B 等不同参数量的模型版本，模型性能实现整体飞跃！

在国际竞赛中，中国移动九天模型表现可谓十分突出。不仅在 2024 年 INTERSPEECH 语音合成声码器赛道中获得国际第一名，也在 2023 年获得 CVPR VSS（视觉语义分割）赛道中视觉理解方面的第一名。

此外，大模型多项关键技术指标在国际主流榜单中取得优秀名次。根据最新测评数据，多任务语言理解能力在权威 BBH 榜单上名列第二名，图像内容理解对话、视频内容理解对话、文生视频分别在 MME-P 榜单、MVBench 榜单和 VBench 榜单位列第三名，代码生成在 MBPP 榜单位列第二名，数学推理排名第四，综合能力在司南 Opencompass 多模态模型评测榜单（闭源模型）名列前茅，平均分 64.2。

长文本、全双工、机器视觉和结构化数据等多模态是走向通用智能的必经之路。这次九天善智多模态基座大模型的全面升级在这四个赛道均取得了不俗的技术突破：

长文本理解与生成，赋能产业态势感知

九天善智多模态基座大模型能够支持处理复杂的任务资料收集并深度解析给出专业报告，目前已拓展至 128K 超长上下文的理解与生成。

，时长00:54

长文本理解与生成

在本次大会主论坛上，九天善智多模态大模型展示了其基于可信数据的高效文档信息收集与秒级分析能力。该模型能够迅速提炼行业资料中的关键信息，并以直观的文字、柱状图、折线图等可视化形式生成通信产业月报。不仅如此，它还能解读国内外及地方政府发布的相关政策，并通过自动化专家访谈机制不断完善报告内容，确保报告修订过程透明可追溯，助力企业实现高效决策。

全双工语音交互，实现 “边听边说” 的自然对话

九天善智多模态大模型支持全双工语音交互，即使用户随时打断，也能保持对话的连贯性和一致性，实现自然流畅的交互体验。这一特性显著增强了模型与人类交流的自然度和流畅性，使对话更加贴近日常交流方式。目前，九天大模型不仅支持多模态输入与生成，还能实现实时的语音到图片转换；语音指令即可触发联网搜索并实时总结信息。用户可以从天气查询无缝切换至美食推荐，此外，它还能轻松管理日程，化身您的超级小助手，让生活变得更加便捷高效。

，时长00:42

全双工语音交互

在现场视频演示中，移动员工通过全双工语音交互进行日程管理，实现赴广州参加中国移动全球合作伙伴大会的机票预定、会议议程问答和电话提醒多种场景服务，演示中，工作人员还即兴打断，询问了股市的实时状况，并同时生成了一张广州塔的夜景图留作纪念，展现了无缝切换话题与即时响应的卓越能力。

，时长00:38

全双工语音交互

视频与图像处理的双重飞跃，成为视觉创作 “魔术师”

凭借自主研发的 JTVLM 架构，中国移动创新性地融合了多模态深度表征、精细化特征对齐与多层次自回归优化策略，引入 P-LoRA 跨模态训练方案，使大模型在图像感知、检测、理解、推理等多样化下游任务中展现卓越性能。此外，通过自研扩散 Transformer 去噪网络与 3D VAE 重建模型，大幅提升了视频画质、连续性、文本与画面一致性等核心指标，实现全方位的技术突破。

在主论坛上，九天善智多模态基座大模型通过 “广州早茶” 和 “小猫和小狗玩，猫脸部特写” 两个提示词，与业界其他模型进行了文生图表现对比。结果显示，九天模型展现了更为复杂的视角和构图能力，光线光影协调运用能够在符合美学前提下捕捉更多关键细节，在指令遵循方面也有更优异的表现。

在文生视频方面，不论是包含 “广州早茶店、小蛮腰、烟花” 等元素的城市宣传片，还是 “蓝天白云、森林、小溪、矿泉水” 元素的商业广告片，抑或是 “珊瑚礁、鱼群” 元素的海洋生态环保视频，九天善智多模态基座大模型能够灵活运镜，通过特写、近景、中景和远景的充分调度呈现光影流动，让多个主题画面和谐一致，同时生成配乐，让创意无限延伸，不断突破想象边界。

，时长00:54

文生视频

中国移动此次发布的多模态大模型不仅体现在语言到视觉，也能从视觉到语言，具备高效精准、多场景识别、动态追踪等诸多能力，能够精准理解分析生产生活等丰富场景。在现场视频中，它可以多种语言解读视频里多个人物的动作、表情、交互状态和环境，精准捕捉到家庭聚会中各个成员的 “微笑、亲吻动作、拍照姿势”，还能准确判断工人的爬塔动作，以及工人着装是否符合要求等。

，时长00:10

视频理解

结构化数据能力，实现业务精准分析预测

九天善智多模态基座大模型创新实现跨领域结构化数据通用表征建模、大模型多任务训练和推理框架，覆盖通信、交通、工业、金融营销、医疗等 11 + 行业领域，已经在多个行业深度使用。在主论坛上，九天善智多模态基座大模型对长沙橘子洲头的通信数据进行理解分析、可视化展示和未来趋势推理预测，并在仿真系统呈现了预测数据的真实覆盖情况。

，时长00:47

结构化数据

目前，结构化数据能力已经支持通信、交通、能源行业等流量预测、指标异常检测、用户营销推荐和能耗优化等场景的典型任务。即便在零样本或者少样本的情况下同样能出色实现跨域应用，服务复杂系统智能化，为业务决策提供了前瞻性依据，助力产业及时、精准地调整策略。借助其强大支持，产业就像是装上了强大的数据引擎，迈着坚实的步伐从数字化走向智能化。

技术揭秘：九天善智背后的国产化与体系化 AI 创新

九天善智多模态基座大模型的超强实力，得益于中国移动独有的技术秘籍和实战经验。

在国产化方面，为了摆脱 “缺芯少魂” 的问题，九天大模型的训练和推理已经全面转向了国产，实现从芯片、算法到框架的全栈国产化，万卡训练能力可以做到连续稳定训练时长超过 480 小时，并支持在三类训练芯片算力集群间的平滑转化和续训，在推理方面，目前已对 11 个厂商的 17 款芯片进行适配、迁移和测试及标准拉齐。

在科研创新方面，原创性提出体系化人工智能（Holistic AI）技术以提供泛在可控的社会级智能服务，原创性提出体系化人工智能（Holistic AI）技术，主要研究对 AI 技术进行体系化重构所需的理论、技术、机制、范式和框架，基于 AI 服务大闭环、AI 能力原子化重构、网络原生 AI 及安全可信 AI 等技术特征，利用无处不在的网络和强大的算力，可以随时调整和分配 AI 的各种技能，应对不断变化的需求，就像在繁忙的城市中灵活调度交通资源，确保每个地方都能得到及时高效的服务。

在复杂系统智能化方面，中国移动深入金融、交通、能源、制造等 10 + 个行业，全自研 30 个横跨多领域的行业大模型，加快推动各个行业智能化应用在人工智能驱动下由微观走向宏观，从复杂系统典型的混沌性走向清晰，形成面向经济社会各领域的赋能辐射圈。目前，九天海算政务大模型已与黑龙江合力打造全国首例政务领域综合搜索平台，营造便利政务环境，充分解决了在省、市、县等不同级别政府政务应用中的集约化赋能挑战；九天医疗大模型已在北京协和、广州 120 等龙头医疗机构落地部署，全面赋能升级包含医疗辅助决策、病历文书生成、智能随访等各类医疗场景；与头部能源化工企业合作研发国内首个能源化工行业大模型，孵化 “AI + 油气”“AI + 炼化”“AI + 运营” 等标杆示范应用，推动 “AI+” 行动走深向实。

战略布局：中国移动如何打造行业领先的 AI 生态

高性能基座大模型是如何炼成的？这首先离不开中国移动始终将人工智能作为公司战略转型的重要方向。

十年间，中国移动组建了由 IEEE Fellow、中国移动集团首席科学家冯俊兰博士领衔的 2000 + 人才雁阵，引入超 150 个海内外 TOP 高校 AI 专业博士，牵头承担了开放创新平台等 20 + 项国家 AI 重大重点专项任务，申请超过 930 项专利，发表 160 余篇顶会顶刊论文，获顶级 AI 竞赛 TOP5 奖项 19 项，主导了国内外 86% 的网络智能化标准，成为全球公认最领先的自智网络运营商，同时也是国资央企在人工智能领域的骨干力量。

基于生态优势，中国移动设立 “九天揽月” 合作计划，通过联合研发、成果引进、资本合作等多种方式引入业界优质能力，以科技部支持建设的 “智慧网络国家新一代人工智能开放创新平台” 和国资委、发改委支持建设的 “中央企业人工智能协同创新平台” 两大国家级重大平台为依托，与产业共同攻关大模型核心技术、共建先进大模型基础设施、共创行业大模型和相关标准，加快推动基于大模型的规模化行业应用蓬勃发展。

可以发现，中国移动在人工智能这条道路上，要比我们想象的走得更远。它早已不是一家单纯的通信运营商，而是通过构建多模态基座大模型，打造全要素 “AI+” 服务运营体系，成为通用人工智能时代的供给者、汇聚者和运营者。

#除了Ilya，刚拿诺奖的Hinton还教出了这些AI博士

自近日获知自己摘得诺贝尔物理学奖之后，76 岁的人工智能教父 Geoffrey Hinton 便「闲不住」了。

这不，谷歌首席科学家 Jeff Dean 晒出了自己参加 Hinton 诺贝尔奖派对前与老爷子的合照，以及短时间内可以参加该派对的 Hinton 博士们。

在几十年研究生涯中，Hinton 培养出了 40 位博士生，其中不乏前 OpenAI 首席科学家 Ilya Sutskever、前苹果 AI 总监 Ruslan Salakhutdinov 这样的大牛。

在周二的一次演讲中，Hinton 表示自己非常幸运，遇到了很多聪明的学生，他们取得了非常大的成功，有的做出了伟大的成果。其中他为弟子 Ilya「解雇」奥特曼而感到自豪，并认为奥特曼现在更关心利润而不是安全。他同时呼吁加强对 AI 安全以及由好奇心驱使的基础研究的支持。

桃李满天下

Hinton 的博士跨越了近 40 年

Peter Brown（1987）

Peter Brown 现在是文艺复兴科技（Renaissance Technologies）的首席执行官，他也是 Hinton 的第一位博士生，当时 Hinton 还是 CMU 计算机科学教授。

Peter Brown 博士期间主要研究自动语音识别中的声学建模问题。他曾在 IBM 研究所从事语音识别、机器翻译和大规模语言模型的研究。

David Ackley（1987）

David Ackley 是新墨西哥大学计算机科学名誉教授，致力于在无限可扩展的计算机架构上研究、开发和倡导稳健优先、尽力而为的计算。David Ackley 的工作涉及神经网络、机器学习、进化算法，以及安全、架构和计算模型的生物学方法。

值得一提的是，Hinton 与 David Ackley 和 Terry Sejnowski 共同发明了玻尔兹曼机。

Mark Derthick（1988）

Mark Derthick 自 1995 年开始在卡内基梅隆大学（CMU）任访问科学家、项目科学家、研究科学家，但目前已经离任。他的研究兴趣包括人机信息交互、交互式信息可视化、知识表征、探索性数据分析等。

Richard Szeliski（1988）

Richard Szeliski 是华盛顿大学计算机科学与工程系兼职教授、ACM Fellow、IEEE Fellow。Szeliski 在计算机视觉贝叶斯方法、基于图像的建模和渲染以及计算摄影领域进行了开创性研究，是计算机视觉领域的大师级人物，他在计算机视觉研究方面有 30 多年的丰富经验，主攻计算机视觉和计算机图形学，是 CV 经典教材《计算机视觉：算法与应用》的作者。

Richard Szeliski 先后任职于 DEC（美国数字设备公司）、微软研究院、Facebook、谷歌。1996 年，他在微软研究院任职期间提出了一种基于运动的全景图像拼接模型，采用 L-M 算法，通过求图像间的几何变换关系来进行图像匹配。此方法是图像拼接领域的经典算法，Richard Szeliski 也因此成为图像拼接领域的奠基人。2017 年，Richard Szeliski 获得 ICCV 大会颁发的杰出研究奖。

Kevin Lang（1989）

1989 年，Kevin Lang 在 Hinton 的指导下获得了 CMU 的计算机科学博士学位。根据网上查询到的有限资料显示，他的研究兴趣包括计算模型、细胞结构、形状建模以及量子点和细胞自动机、语音识别。

Steven Nowlan（1991）

Steven Nowlan 是 Epsilon 公司决策科学高级副总裁，他曾在 Motorola 工作近 20 年，在移动和基于位置的应用程序、复杂的软件架构以及研究科学家和软件开发人员的组合管理方面拥有丰富的经验，致力于将创新理念转化为成功的软件产品和服务。

David Plaut（1991）

David Plaut 是卡内基梅隆大学的心理学教授，致力于使用计算模型并辅以实证研究来研究高级视觉、阅读和语言以及语义领域正常和无序认知处理的本质。

David Plaut 的建模工作是在神经网络框架内进行的，其中认知过程是通过大量类似神经元的处理单元之间的合作和竞争交互来实现的，以深入了解认知过程如何在大脑中实现，以及大脑功能障碍如何导致认知障碍。

Conrad Galland（1992）

1992 年，Conrad Galland 在 Hinton 的指导下获得了多伦多大学的博士学位。根据网上查询到的有限资料显示，他的研究重点是矩阵计算。

Susanna Becker（1992）

Susanna Becker 是麦克马斯特大学心理学、神经科学和行为学名誉教授。1992 年，她在 Hinton 的指导下获得多伦多大学博士学位，研究兴趣包括记忆、计算神经科学、海马神经发生、脑机接口和神经反馈。

Richard Zemel（1994）

Richard Zemel 是美国国家科学基金会（NSF）人工智能和自然智能研究所（ARNI）主任，研究致力于用少量标签进行学习，创建强大且可控的机器学习系统，并且该系统可以迁移到各种任务和领域。他还对算法公平性有着浓厚的兴趣。Richard Zemel 还是 NVIDIA 人工智能先锋奖的获得者。

Tony Plate（1994）

1994 年，Tony Plate 在 Hinton 的指导下获得了多伦多大学计算机科学与人工智能博士学位。在攻读博士期间研究了如何在神经网络中表示复杂的概念。博士毕业以后，他曾在新墨西哥州立大学担任研究员、在不列颠哥伦比亚大学担任博士后研究员、在惠灵顿维多利亚大学担任助理教授，并在 2020 年 3 月之后加入谷歌担任工程师至今。

Sidney Fels（1994）

Sidney Fels 自 1998 年起担任不列颠哥伦比亚大学（UBC）电气与计算机工程系教授。他因在人机交互、3D 显示、生物力学建模、神经网络、智能体等方面的工作而享誉国际。

Christopher Williams（1994）

Christopher Williams 是爱丁堡大学信息学院机器学习教授。他的研究兴趣包括机器学习、统计模式识别、概率图形模型和计算机视觉。他还是《机器学习的高斯过程》一书的作者之一。

Radford Neal（1994）

Radford Neal 是多伦多大学统计系和计算机科学系荣休教授。他的研究兴趣包括贝叶斯推理、蒙特卡洛方法、信息论、机器学习和神经网络。

Carl Rasmussen（1996）

Carl Rasmussen 是剑桥大学工程系教授，研究领域包括机器学习和气候变化，研究重点包括概率推理、强化学习、近似推理、决策、非参数建模、随机过程等。

Brendan Frey（1997）

Brendan Frey 是国际知名机器学习和基因组生物学研究者，主要研究因子图、深度学习的 wake-sleep 算法，以及使用机器学习建模基因组生物学和理解遗传性疾病。他创立了 Deep Genomics，现任首席执行官，并且是多伦多大学计算机科学和医学教授。

Evan Steeg（1997）

Evan Steeg 是初创公司 stealth synthetic biology 的联合创始人兼首席人工智能官，还是 BTC 咨询公司总裁。他的研究兴趣包括 AI、ML、计算生物学、创业和战略规划。

Radek Grzeszczuk（1998）

Radek Grzeszczuk 是初创公司 SkinBit 联合创始人，曾在微软担任首席软件工程师主管。他为增强现实、基于图像的建模、视觉搜索和计算成像等领域的发展做出了贡献。

Brian Sallans（2002）

Brian Sallans 是机器学习、软件开发、移动软件专家，在奥地利第一储蓄银行（Erste Group）任高级数据科学家。

Sageev Oore（2002）

Sageev Oore 是加拿大 CIFAR 人工智能主席，戴尔豪斯大学计算机科学学院副教授，曾任谷歌大脑访问研究科学家。

Andrew Brown（2002）

Andrew Brown 查询到的信息不多，从 Google Scholar 主页可以看到，他的研究兴趣包括机器学习、神经网络、隐马尔可夫模型、循环神经网络。

他的博士毕业论文为《Product Models for Sequences》。论文介绍了一系列新的时序图模型，采用的思路是通过大量更简单模型的密度组合来构建一个复杂的时序密度模型。

论文地址：https://dl.acm.org/doi/abs/10.5555/936308

Alberto Paccanaro（2002）

2002 年，Alberto Paccanaro 在 Hinton 的指导下获得多伦多大学的博士学位，专攻机器学习，并主要从事基础研究，在毕业论文中引入了线性关系嵌入，这是一种解决从示例中学习符号关系问题的新方法。

2006 年 2 月，他开始在伦敦大学皇家霍洛威学院的计算机科学系工作，此后晋升为教授。他的研究兴趣包括应用模式识别 / 机器学习技术来解决计算生物学问题。

Yee Whye Teh（2003）

Yee Whye Teh 是牛津大学统计系教授，也是 DeepMind 研究科学家。2003 年，他在 Hinton 的指导下获得了多伦多大学的计算机博士学位。此后在加州大学伯克利分校和新加坡国立大学从事博士后研究。他的研究兴趣包括机器学习、计算统计学，尤其是概率模型、贝叶斯非参数、大规模学习和深度学习。

2006 年，他与 Hinton、Simon Osindero 合著提出了深度信念网络的论文。深度信念网络是第一批成功应用深度架构训练的非卷积模型之一。在引入深度信念网络之前，研究社区通常认为深度模型太难优化，还不如使用易于优化的浅层 ML 模型。

而借助深度信念网络，研究者可以在未标注数据上预训练深度神经网络，这是一种生成模型的方式。预训练完成后，神经网络可以在标注数据上实现判别式的精调，从而获得很好的效果。

论文地址：https://www.cs.toronto.edu/~hinton/absps/fastnc.pdf

Simon Osindero（2004）

Simon Osindero 在取得剑桥大学的实验和理论物理硕士学位之后，选择攻读英国伦敦大学学院的计算神经科学博士学位，导师为 Hinton，还得到了神经学家 Peter Dayan 的指导。2004 年获得博士学位后，他加入了 Hinton 团队，成为博士后研究员。2006 年，他与 Hinton、Yee Whye Teh 合著提出了深度信念网络的论文。

毕业以后，他就职于多家企业，包括 2009 年至 2013 年 10 月担任 LookFlow 的联合创始人兼 CTO、2013 年 10 月至 2015 年 12 月先后担任雅虎的高级工程经理、AI 架构师和高级负责人、2017 至 2019 年英国伦敦大学学院担任客座讲师、2016 年至今担任谷歌首席研究科学家、DeepMind 研究总监。

Roland Memisevic（2008）

2008 年，Roland Memisevic 在 Hinton 的指导下获得了多伦多大学的计算机科学博士学位。2012 年 9 月至 2016 年 5 月，他担任蒙特利尔大学的助理教授。2016 年 5 月至 2021 年 7 月，他先后担任其联合创立的 AI / 计算机视觉初创公司 Twenty Billion Neurons 的首席科学家和 CEO。

2021 年 7 月，Twenty Billion Neurons 被高通收购，Roland Memisevic 担任高通高级总监至今。他的研究兴趣包括类人 AI 和神经网络中出现的常识。

Ruslan Salakhutdinov（2009）

Ruslan Salakhutdinov 是卡内基梅隆大学的 UPMC 计算机科学教授，主要从事统计机器学习领域的工作。他的研究兴趣包括深度学习、概率图模型和大规模优化。

2009 年，他在 Hinton 的指导下完成了在多伦多大学的机器学习博士学位。此后他担任了 MIT 博士后研究员、多伦多大学助理教授（2011 年 - 2016 年）、AI 初创公司 Perceptual Machines 联合创始人（被苹果收购）、苹果 AI 研究总监（2016 年 - 2020 年）、卡内基梅隆大学教授（2016 年至今）、Meta 生成式 AI 研究副总裁（2024 年 6 月至今）。

Graham Taylor（2009）

2009 年，Graham Taylor 在 Hinton 和另一位导师 Sam Roweis 的指导下获得了多伦多大学计算机科学博士学位。此后，他在纽约大学柯朗数学科学研究所做了两年的博士后研究员，与 Yann LeCun 等人一起工作。2012 年，他加入圭尔夫大学工程学院担任助理教授。2017 年，他晋升为副教授，并成为 Vector 人工智能研究所的成员。

2018 年至 2019 年，他在蒙特利尔的 Google Brain 担任客座教员。2021 年，他晋升为教授，并成为 Vector 人工智能研究所的临时研究主任。2022 年，他正式成为研究主任。2023 年，他结束了 Vector Institute 研究主任的两年任期，此后更专注于自己的研究。他对生成模型、图表示学习和顺序决策等领域感兴趣。

Andriy Mnih（2009）

Andriy Mnih 是 Google DeepMind 的研究科学家。2009 年，他在 Hinton 的指导下获得了博士学位。此后到 2013 年 2 月，他担任 Gatsby 的博士后研究员。他的研究兴趣包括隐变量模型、变分推理、蒙特卡洛梯度估计和表征学习。

Vinod Nair（2010）

Vinod Nair 是雅虎班加罗尔实验室的研究员，2010 年，他在 Hinton 的指导下获得了多伦多大学的机器学习博士学位。他的研究兴趣包括机器学习和计算机视觉。

Josh Susskind（2011）

在多伦多大学攻读博士期间，Josh Susskind 接受了 Hinton（机器学习）和 Adam Anderson（行为科学）两位教授的指导。他开发出了第一个可以识别和生成面部表情的深度神经网络，并展示了这些计算模型学习到的统计学规律如何预测人类感知到的元素。他的工作成果曾发表在《自然神经科学》和《科学》等高影响力期刊以及计算机视觉顶会上。

2012 年，他联合创立了一家专注于实时感知人类行为的初创公司 Emotient，该公司在 2016 年被苹果收购。此后至今，他担任苹果的研究经理、深度学习科学家。

Ilya Sutskever（2012）

Ilya Sutskever 可称得上 Hinton 最得意的博士生了。在多伦多大学本科期间，Ilya Sutskever 从一个「改进随机邻域嵌入算法」的项目开始，与 Hinton 合作，后来在攻读博士学位时正式加入了 Hinton 团队。

2012 年，Hinton 带着 Ilya Sutskever 和另一名研究生 Alex Krizhevsky 建立了一个名为 AlexNet 的神经网络，其识别照片中物体的能力远远超过了当时的其他系统。

Ilya Sutskever（左）、Alex Krizhevsky（中）、Geoffrey Hinton（右）

2012 年毕业后，Ilya Sutskever 在斯坦福大学跟随吴恩达做了两个月的博士后，随后返回多伦多大学并加入了 Hinton 研究小组的衍生公司 DNNResearch 。

2013 年 3 月，Google 收购了 DNNResearch，聘请 Ilya Sutskever 担任 Google Brain 的研究科学家。在谷歌，Ilya Sutskever 展示了如何将深度学习的模式识别能力应用于数据序列，包括单词、句子。

他与 Oriol Vinyals 和 Quoc Le 合作创建了序列到序列（Seq2seq）学习算法，深度参与了 TensorFlow 的研究，也是 AlphaGo 论文的众多作者之一。对语言的浓厚兴趣，或许推动了 Ilya Sutskever 加入 OpenAI 的脚步。

2015 年 7 月，Ilya Sutskeve 参加了 Y Combinator 总裁 Sam Altman 在 Sand Hill Road 一家餐厅举办的晚宴，在那里遇到了 Elon Musk 和 Greg Brockman。那场晚宴上诞生了 OpenAI。

2015 年底，Ilya Sutskever 以「研究总监」的头衔开始领导 OpenAI 的研究和运营，这个组织还吸引了几位世界知名的人工智能研究者，包括「GAN 之父」Ian Goodfellow、UC 伯克利的 Pieter Abbeel 以及 Andrej Karpathy。

2016 年，OpenAI 的第一个 GPT 大型语言模型问世。从 GPT-2 到 GPT-3，模型的能力越来越强大，证明了这条路线的实际正确性。每一次发布，OpenAI 都在不断提高人们的想象力上限。

随着 GPT-4 以及后续一系列更强大的大语言模型的更新，以 Ilya Sutskever 为代表的一部分 OpenAI 成员越来越担忧 AI 的可控性问题。于是有了后来的突然与 Sam Altman 所代表的派系决裂、离职收场的故事。

今年 5 月 15 日，Ilya Sutskever 官宣从 OpenAI 离职，并在 6 月 20 日宣布成立安全超级智能公司（SSI），追求安全的超级智能，希望通过一支精干顶尖的小团队取得革命性的成果，进而实现这一目标。9 月，SSI 宣布融资 10 亿美元，投资者包括了顶级风险投资公司 Andreessen Horowitz、Sequoia Capital、DST Global 和 SV Angel。

Abdel-rahman Mohamed（2013）

Abdel-rahman Mohamed 是 FAIR 研究科学家。在加入 FAIR 之前，他是 Amazon Alexa AI 团队的首席科学家经理。2014 年至 2017 年，他是微软雷德蒙德研究院（MSR）的研究员。

2013 年，他在 Hinton 和另一位导师 Gerald Penn 教授的指导下获得了多伦多大学的博士学位。他还是 2009 年开启口语处理深度学习革命的团队成员，并在 2016 年获得了 IEEE 信号处理协会最佳期刊论文奖。他的研究兴趣包括深度学习、口语处理和自然语言理解。

Vlad Mnih（2013）

Vlad Mnih 是 Google DeepMind 的一名研究科学家。2013 年，他在 Hinton 的指导下获得了多伦多大学的机器学习博士学位。在此之前，他在阿尔伯特大学获得了计算机科学硕士学位。他的研究兴趣包括深度强化学习、多目标识别、视觉注意力等。

Navdeep Jaitly（2014）

2014 年，Navdeep Jaitly 在 Hinton 的指导下获得了多伦多大学机器学习和计算机科学博士学位。毕业以后，他先后任职于 Google Brain（高级研究科学家）、英伟达（杰出研究科学家）、再次 Google Brain（科学家）、投资管理公司 The D. E. Shaw Group（深度学习负责人、副总裁）以及 2021 年至今苹果（机器学习研究科学家）。他的研究兴趣在于前沿深度学习。

Tijmen Tieleman（2014）

2014 年，Tijmen Tieleman 在 Hinton 的指导下获得了多伦多大学的深度学习博士学位。2018 年以来，他先后担任 AI 初创公司 minds.ai 的 CTO、CEO、联合创始人和首席科学家。他的研究兴趣包括具有不寻常成分的多层确定性前馈神经网络以及使用受限玻尔兹曼机的多层神经网络等。

George Dahl（2015）

George Dahl 是美国山景城 Google Brain 团队的一名研究科学家。2015 年他在 Hinton 的指导下获得了博士学位，攻读博士期间，他与其合作者训练出了第一个成功的自动语音识别深度声学模型，还领导团队赢得了 Kaggle 主办的默克分子活性挑战赛。他的研究兴趣包括深度学习、自然语言处理和统计机器学习。

Yichuan Charlie Tang（2015）

Yichuan Charlie Tang 从事深度学习和统计机器学习领域的工作。2015 年，他在 Hinton 和另一位导师前苹果 AI 总监 Ruslan Salakhutdinov 的指导下获得了多伦多大学的机器学习博士学位。他的研究兴趣广泛，包括机器人 / 自主技术应用、计算机视觉、自然语言处理和强化学习。

2017 年 1 月至 2020 年 6 月，他在苹果先后担任研究科学家和高级研究科学家。此后他在投资管理公司 The D. E. Shaw Group 担任机器学习研究副总裁。

Nitish Srivastava（2016）

Nitish Srivastava 的研究兴趣包括机器学习、深度网络和人工智能。他在多伦多大学计算机科学系攻读博士，导师为 Hinton 和前苹果 AI 总监 Ruslan Salakhutdinov 的博士，并于 2016 年获得博士学位。

2017 年 2 月至 2022 年 2 月，他在苹果先后担任机器学习工程师和机器学习研究科学家。2022 年至今，他联合创立了机器人初创公司 Vayu Robotics 并担任 CTO。

Jimmy Lei Ba

Jimmy Lei Ba 是多伦多大学助理教授。他从本科（2011）、硕士（2014）到博士（2018）都是在多伦多大学完成的，博士期间导师为 Hinton。他的研究兴趣涵盖了 NeurIPS、ICLR 和 ICML 等研究社区的广泛主题，并对强化学习、自然语言处理和人工智能感兴趣。他是 CIFAR AI 主席，还曾是 2016 年 Facebook 机器学习研究生奖学金获得者。

Cem Anil（在读博士生）

Cem Anil 是多伦多大学和 Vector Institute 的在读博士生，接受 Hinton 和 Roger Grosse（副教授）的指导。他还是 Anthropic 对齐科学团队的成员。他的工作涉及深度学习和 AI 安全，并对大语言模型的稳健性和泛化性模式感兴趣。他同时致力于推导 Scaling law 来预测潜在危险能力的发展。

参考链接：https://www.cs.toronto.edu/~hinton/gradstuphd.html

#陶哲轩众包数学项目完成度99.99%

仍未看到AI工具的重大贡献

陶哲轩发起的「众包」数学研究项目终于快要迎来胜利时刻！

大约在三周前，陶哲轩提出了一个众包项目，结合专业和业余数学家、自动定理证明器、AI 工具和证明辅助语言 Lean，来描述与 4694 条 magma（原群）方程定律相关的蕴含图，这些定律可以使用最多四次 magma 操作调用来表达。也即，需要确定这 4694 条定律之间可能蕴含的

的真假。

该项目已运行 19 天，从已解决的原始蕴含的角度来看，该项目（截至撰写本文）已完成 99.9963%：待解决的

蕴含中，

已被证明为真，

已被证明为假，只有

悬而未决。尽管在这个集合中，也有

蕴含推测为假，但可能很快就正式反驳。

出于编译效率的原因，他们没有在 Lean 中记录这些推测中的每一个证明；只在 Lean 中证明一组较小的蕴含

，然后通过传递性来暗示一组更广泛的蕴含（例如，使用以下事实：如果方程 X 蕴含方程 Y，且方程 Y 蕴含方程 Z，则方程 X 蕴含方程 Z）；他们还将很快利用蕴含图的对偶对称性实现进一步简化。

除了感谢众多志愿者为该项目付出的不懈努力，陶哲轩表示现在拥有许多出色的可视化工具来检查（尚未完成的）蕴含图的各个部分。例如，下图描绘了方程 1491：

的所有结果，陶哲轩将其昵称为「Oberlix 定律」（它有一个「同伴」——Asterix 定律，即方程 65：

）。

下面是正在研究的所有方程定律的表格，以及它们蕴含或被蕴含的定律数量。这些界面也与 Lean 有某种程度的集成：例如，你可以单击来尝试证明 Oberlix 定律蕴含方程 359，

；陶哲轩将此留作一个挑战（Lean 中可以进行四行证明）。

过去几周，陶哲轩了解到其中许多定律以前都出现在文献中，并在下图项目中对这些方程进行介绍。例如，除了非常著名的交换律（公式 43）和结合律（公式 4512）之外，一些方程（比如公式 4、公式 29、公式 381、公式 3722 和公式 3744）出现在一些 Putnam 数学竞赛中；公式 168 定义了一个有趣的结构，被称为「中心群」，学者 Evans 和 Knuth 对其进行了研究，并成为 Knuth-Bendix 完成算法的主要灵感来源；公式 1571 对指数为 2 的阿贝尔群进行了分类。

方程汇总地址：https://github.com/teorth/equational_theories/wiki/Tour-of-selected-equations

陶哲轩表示 Birkhoff 完备定理起了大作用，如果一个方程定律蕴含另一个，那么可以通过有限次数的重写操作来证明，但是所需要的重写次数可能相当长。上面提到的从方程 1491 推导出 359 的蕴含已经相当有挑战性，需要重写四五次；从方程 1681 推导出 2 的蕴含非常长。尽管如此，标准自动定理证明器（例如 Vampire）完全能够证明这些蕴含中的绝大多数。

更微妙的是反蕴含，他们必须证明一条定律 X 并不蕴含另一条定律 Y。原则上，他们只需展示一个服从 X 但不服从 Y 的 magma。在很大一部分情况下，他们可以简单地搜索小的有限 magma（例如两个、三个或四个元素的 magma）来获得这种反蕴含。但它们并不总是足够的，事实上，他们知道只有通过构造无限的 magma 才能证明反蕴含。

例如，现在已知「Asterix 定律」并不蕴含「Oberlix 定律」，但所有反例必然是无限的。奇怪的是，已知的构造与集合论中著名的强迫技术有某种相似之处，因为他们不断地将「通用」元素添加到（部分）magma 中，以强迫存在具有某些特定属性的反例，尽管这里的构造肯定比集合论的构造简单得多。

他们还从交换和非交换环中的「线性」magma 构造中获得了可观的收益，比如与「合流」方程定律相关的自由 magma，以及更普遍的具有完整重写系统的定律。因此，未解决的蕴含数继续稳步减少，不过还没有到宣布该项目胜利的时候。

虽然该项目仍在进行中，但陶哲轩对迄今为止取得的进展感到非常满意，而且对该项目的许多希望已经实现。

在科学方面，他们发现一些新技术和构造，可以证明给定的方程理论并不蕴含另一个方程理论，并且还发现一些奇特的代数结构，如「Asterix」和「Oberlix」，它们具有有趣的特征。除了此处进行系统搜索之外，其他任何方式都可能无法发现它们。参与者非常多样化，包括各个职业阶段的数学家和计算机科学家、以及感兴趣的学生和业余爱好者。Lean 平台在整合人类生成和机器生成的贡献方面效果很好，后者在是迄今为止最大的贡献来源，但许多自动生成的结果首先由人类在特定情况下获得，然后被泛化和形式化（通常由项目的不同成员完成）。

他们仍在提出许多非正式的数学论证，但它们往往在 Lean 中被迅速形式化，此时关于正确性的争议就会消失，从而专注如何最好地部署各种经过验证的技术来解决剩下的问题。

也许陶哲轩目前唯一期待但尚未看到现代 AI 工具的重大贡献，它们正在以多种次要方式应用于该项目，例如通过 GitHub Copilot 等工具来加速编写 Lean 证明、LaTeX 蓝图和其他软件代码。此外一些可视化工具也主要使用 Claude 等大型语言模型共同编写。

对于解决蕴含这一核心任务，更「老式」的自动定理证明器迄今为止已被证明更为优越。然而，剩余 700 个左右蕴含中的大多数都不适合这些旧工具，尤其涉及 Asterix 和 Oberlix 的蕴含让人类合作者困惑了好几天。所以仍然希望看到现代 AI 在完成剩余蕴含中最难、最顽固的部分发挥更积极的作用。

博客地址：https://terrytao.wordpress.com/2024/10/12/the-equational-theories-project-a-brief-tour/

查看全文

http://www.kler.cn/a/555763.html