当前位置: 首页 > article >正文

SEKI —— 基于大型语言模型的自进化与知识启发式神经架构搜索

01、项目概述

我们引入了一种基于新型大型语言模型( LLM )的神经架构搜索( NAS )方法,名为 SEKI 。SEKI 受到现代 LLM 中思维链( CoT )范式的启发,分为两个关键阶段运行:自进化和知识蒸馏。在自进化阶段, LLM 最初缺乏足够的参考示例,因此我们实施了一种迭代细化机制,该机制基于性能反馈增强架构。随着时间的推移,这个过程积累了一个高性能架构的存储库。在知识蒸馏阶段, LLM 分析这些架构中的共同模式以生成新的、优化的设计。结合这两个阶段, SEKI 极大地利用了 LLM 在 NAS 上的能力,并且不需要任何特定领域的数据。实验结果表明, SEKI 在各种数据集和搜索空间上实现了最先进的( SOTA )性能,同时只需要0.05 GPU-Days ,无论是在效率还是准确性方面都优于现有方法。此外, SEKI 展示了强大的泛化能力,在多个任务上都取得了与 SOTA 相竞争的结果。

02、主要特点

  • 创新的自进化机制:SEKI 采用了一种新颖的自进化机制,该机制允许大型语言模型( LLM )在初始缺乏足够参考示例的情况下,通过迭代细化逐步提升神经网络架构的性能。这种机制基于性能反馈不断优化架构,随着时间的推移,积累了大量高性能的架构设计。

  • 知识启发机制:从历史高性能架构中提取共性,通过 LLM 生成更优的架构设计,有效避免搜索陷入局部最优。

  • 无需特定领域数据:SEKI 的一个显著优势是它不依赖于任何特定领域的数据。这与传统的 NAS 方法不同,后者通常需要大量特定领域的数据来训练和优化模型。SEKI 的方法更加灵活,可以广泛应用于不同的领域和任务。

  • 强大的泛化能力:SEKI 不仅在特定的数据集上表现优异,还展现了强大的泛化能力。在多个任务上, SEKI 都能够取得与 SOTA 相竞争的结果,这证明了 SEKI 方法的通用性和适应不同任务的能力。

  • 无需领域特定数据:该方法不依赖特定领域的数据,降低了数据收集和预处理的需求,使得架构搜索更加灵活和广泛适用。

  • 高效计算:SEKI 在 CIFAR-10 任务上的搜索成本仅为 0.05 GPU-Days ,而传统方法如 AmoebaNet 需 3150 GPU-Days ,计算效率显著提升。

  • 广泛适用性:在多个任务(图像分类、目标检测、语义分割等)和搜索空间中均表现优异,展现了良好的泛化能力。

03、技术细节

  • 两阶段的搜索策略

  1. 自进化(Self-Evolution)阶段

架构初始化:从一个随机初始化或预定义的神经网络架构开始。

性能评估:在验证数据集上评估当前架构的性能,记录关键性能指标,如准确率和损失。

反馈驱动的优化:利用性能反馈来指导 LLM 生成优化策略。这可能包括增加新的网络层、调整超参数或改变层间的连接。

生成新架构:应用 LLM 生成的优化策略来产生一个新的神经网络架构。

迭代细化:重复上述步骤,每次迭代都基于前一次迭代的性能反馈来改进架构。

知识库更:将每次迭代产生的新架构及其性能指标存储在知识库中,为后续的知识蒸馏阶段提供数据支持。

ii.  知识启发( Knowledge Inspiration )阶段

模式识别:LLM 分析知识库中积累的高性能架构,识别共同的设计模式和原则。

知识筛选:从知识库中选择性能表现最优秀的前 K 个架构,并且从 K 个中随机选择 ξ 个架构组成输入 prompt 。

知识总结和架构生成:对输入的架构进行总结和启发,直接生成新的候选架构,这些架构旨在结合历史最佳实践并探索新的优化空间。

架构评估与迭代:对新生成的架构进行评估,并将结果反馈到知识库中,以便在未来的迭代中使用。

  • Prompt 设计

SEKI 采用两种 Prompt 设计,指导 LLM 进行架构优化:

  1. 自进化 Prompt :提供任务信息、搜索空间、当前架构及其性能, LLM 生成优化策略,并基于该策略生成新架构。

  2. 知识启发 Prompt :输入历史高性能架构及其评估分数, LLM 提取共性,生成更优架构。

  • 搜索算法

SEKI 通过迭代优化搜索最优架构,主要流程如下:

  1. 初始化架构并计算评估分数。

  2. 前 λ 轮执行自进化( Self-Evolution ),优化架构并存入知识库。

  3. 后 γ 轮执行知识启发( Knowledge Inspiration ),基于知识库提炼新架构。

  4. 最终从知识库中选择最佳架构作为输出。

  • 性能表现

SEKI 在多个搜索空间( DARTS、NAS201、Trans101 )上的实验结果表明,其性能优于现有 NAS 方法。

  • Results on Trans101

下表展现了 SEKI 在 Trans101 Benchmark 上的多个任务都展现了极具竞争力的表现,其中多个任务达到最优的性能表现:

在 Trans101 任务上,SEKI 同样展现了卓越的适应性。相比其他 NAS 方法,SEKI 在多个子任务(目标分类、语义分割、自动编码等)上均获得了更优的性能,并在平均排名上保持领先。实验表明,SEKI 在保持高精度的同时,仍能兼顾计算效率,尤其是在计算资源有限的情况下,能够快速找到具有竞争力的架构。此外,SEKI 在不同任务间的泛化能力强,说明其优化策略不仅适用于特定数数据集,也能推广至更广泛的计算机视觉任务。

  • Results on DARTS search space

下表展现了在 DARTS 搜索空间下,不同的数据集,SEKI 方法不仅体现了搜索效率的高效,同时兼具优异的性能表现:

在 DARTS 搜索空间中 CIFAR-10 和 CIFAR-100 数据集上,SEKI 性能表现分别为97.71%和84.14%,仅耗费 0.05 GPU-Days ,相比传统 NAS 方法具有明显优势。从结果来看,SEKI 在 CIFAR-10 和 CIFAR-100 上都表现出色,相比 DARTS、PC-DARTS 及 GENAS,在保持较高准确率的同时,显著减少了搜索时间。实验表明,SEKI 的知识启发机制能够有效提取高质量架构模式,并持续优化,使得架构的整体性能不断提升。

  • LLM 选择对 SEKI 的影响

实验比较了 SEKI 使用不同 LLM( Qwen2.5-32B 和 GPT4o-mini )的表现:

结果表明,SEKI 在不同 LLM 上,相较于传统的方法均保持高性能,这也体现了该方法良好的鲁棒性。


该论文已发布在 arXiv :https://arxiv.org/pdf/2502.20422v1

点击“阅读原文”即刻学习


http://www.kler.cn/a/570833.html

相关文章:

  • SSM家谱管理系统
  • 蓝桥杯备考:动态规划入门题目之下楼梯问题
  • 华硕电脑开启电池保养模式的方法
  • 用Python+Flask打造可视化武侠人物关系图生成器:从零到一的实战全记录
  • Linux 下使用vmstat监控系统性能
  • Socket是什么接口
  • java2025springboot面试题第二弹
  • C#保存应用启动位置例子 - 开源研究系列文章
  • uniapp笔记-项目中使用iconfont图标
  • vue3之echarts仪表盘
  • leetcode_字典树 140. 单词拆分 II
  • Leetcode 206 -反转链表
  • iOS实现一个强大的本地状态记录容器
  • 爬虫系列之【数据解析之bs4】《四》
  • 决策树(Decision Tree):机器学习中的经典算法
  • 多用户MIMO预编码技术的对比
  • 基于RK3588的重症监护信息系统应用解决方案
  • 动漫短剧小程序源码|动漫短剧app搭建
  • NL2SQL-基于Dify+阿里通义千问大模型,实现自然语音自动生产SQL语句
  • 【愚公系列】《Python网络爬虫从入门到精通》040-Matplotlib 概述