当前位置：首页 > article >正文

SEKI —— 基于大型语言模型的自进化与知识启发式神经架构搜索

article 2025/3/5 0:34:27

01、项目概述

我们引入了一种基于新型大型语言模型（ LLM ）的神经架构搜索（ NAS ）方法，名为 SEKI 。SEKI 受到现代 LLM 中思维链（ CoT ）范式的启发，分为两个关键阶段运行：自进化和知识蒸馏。在自进化阶段， LLM 最初缺乏足够的参考示例，因此我们实施了一种迭代细化机制，该机制基于性能反馈增强架构。随着时间的推移，这个过程积累了一个高性能架构的存储库。在知识蒸馏阶段， LLM 分析这些架构中的共同模式以生成新的、优化的设计。结合这两个阶段， SEKI 极大地利用了 LLM 在 NAS 上的能力，并且不需要任何特定领域的数据。实验结果表明， SEKI 在各种数据集和搜索空间上实现了最先进的（ SOTA ）性能，同时只需要0.05 GPU-Days ，无论是在效率还是准确性方面都优于现有方法。此外， SEKI 展示了强大的泛化能力，在多个任务上都取得了与 SOTA 相竞争的结果。

02、主要特点

创新的自进化机制：SEKI 采用了一种新颖的自进化机制，该机制允许大型语言模型（ LLM ）在初始缺乏足够参考示例的情况下，通过迭代细化逐步提升神经网络架构的性能。这种机制基于性能反馈不断优化架构，随着时间的推移，积累了大量高性能的架构设计。
知识启发机制：从历史高性能架构中提取共性，通过 LLM 生成更优的架构设计，有效避免搜索陷入局部最优。
无需特定领域数据：SEKI 的一个显著优势是它不依赖于任何特定领域的数据。这与传统的 NAS 方法不同，后者通常需要大量特定领域的数据来训练和优化模型。SEKI 的方法更加灵活，可以广泛应用于不同的领域和任务。
强大的泛化能力：SEKI 不仅在特定的数据集上表现优异，还展现了强大的泛化能力。在多个任务上， SEKI 都能够取得与 SOTA 相竞争的结果，这证明了 SEKI 方法的通用性和适应不同任务的能力。
无需领域特定数据：该方法不依赖特定领域的数据，降低了数据收集和预处理的需求，使得架构搜索更加灵活和广泛适用。
高效计算：SEKI 在 CIFAR-10 任务上的搜索成本仅为 0.05 GPU-Days ，而传统方法如 AmoebaNet 需 3150 GPU-Days ，计算效率显著提升。
广泛适用性：在多个任务（图像分类、目标检测、语义分割等）和搜索空间中均表现优异，展现了良好的泛化能力。

03、技术细节

两阶段的搜索策略

自进化（Self-Evolution）阶段

架构初始化：从一个随机初始化或预定义的神经网络架构开始。

性能评估：在验证数据集上评估当前架构的性能，记录关键性能指标，如准确率和损失。

反馈驱动的优化：利用性能反馈来指导 LLM 生成优化策略。这可能包括增加新的网络层、调整超参数或改变层间的连接。

生成新架构：应用 LLM 生成的优化策略来产生一个新的神经网络架构。

迭代细化：重复上述步骤，每次迭代都基于前一次迭代的性能反馈来改进架构。

知识库更新：将每次迭代产生的新架构及其性能指标存储在知识库中，为后续的知识蒸馏阶段提供数据支持。

ii. 知识启发（ Knowledge Inspiration ）阶段

模式识别：LLM 分析知识库中积累的高性能架构，识别共同的设计模式和原则。

知识筛选：从知识库中选择性能表现最优秀的前 K 个架构，并且从 K 个中随机选择 ξ 个架构组成输入 prompt 。

知识总结和架构生成：对输入的架构进行总结和启发，直接生成新的候选架构，这些架构旨在结合历史最佳实践并探索新的优化空间。

架构评估与迭代：对新生成的架构进行评估，并将结果反馈到知识库中，以便在未来的迭代中使用。

Prompt 设计

SEKI 采用两种 Prompt 设计，指导 LLM 进行架构优化：

自进化 Prompt ：提供任务信息、搜索空间、当前架构及其性能， LLM 生成优化策略，并基于该策略生成新架构。
知识启发 Prompt ：输入历史高性能架构及其评估分数， LLM 提取共性，生成更优架构。

搜索算法

SEKI 通过迭代优化搜索最优架构，主要流程如下：

初始化架构并计算评估分数。
前 λ 轮执行自进化（ Self-Evolution ），优化架构并存入知识库。
后 γ 轮执行知识启发（ Knowledge Inspiration ），基于知识库提炼新架构。
最终从知识库中选择最佳架构作为输出。

性能表现

SEKI 在多个搜索空间（ DARTS、NAS201、Trans101 ）上的实验结果表明，其性能优于现有 NAS 方法。

Results on Trans101

下表展现了 SEKI 在 Trans101 Benchmark 上的多个任务都展现了极具竞争力的表现，其中多个任务达到最优的性能表现：

在 Trans101 任务上，SEKI 同样展现了卓越的适应性。相比其他 NAS 方法，SEKI 在多个子任务（目标分类、语义分割、自动编码等）上均获得了更优的性能，并在平均排名上保持领先。实验表明，SEKI 在保持高精度的同时，仍能兼顾计算效率，尤其是在计算资源有限的情况下，能够快速找到具有竞争力的架构。此外，SEKI 在不同任务间的泛化能力强，说明其优化策略不仅适用于特定数数据集，也能推广至更广泛的计算机视觉任务。

Results on DARTS search space

下表展现了在 DARTS 搜索空间下，不同的数据集，SEKI 方法不仅体现了搜索效率的高效，同时兼具优异的性能表现：

在 DARTS 搜索空间中 CIFAR-10 和 CIFAR-100 数据集上，SEKI 性能表现分别为97.71%和84.14%，仅耗费 0.05 GPU-Days ，相比传统 NAS 方法具有明显优势。从结果来看，SEKI 在 CIFAR-10 和 CIFAR-100 上都表现出色，相比 DARTS、PC-DARTS 及 GENAS，在保持较高准确率的同时，显著减少了搜索时间。实验表明，SEKI 的知识启发机制能够有效提取高质量架构模式，并持续优化，使得架构的整体性能不断提升。