当前位置: 首页 > article >正文

STT-MRAM CIM 赋能边缘 AI:高性能噪声鲁棒贝叶斯神经网络宏架构详解

引言

近年来,基于卷积神经网络(CNN)和视觉转换器(ViT)的存算一体(CIM)边缘AI设备因其低延迟、高能效、低成本等性能受到越来越广泛的关注。然而,当环境中存在噪声时(例如,雨、风),面向图像识别的边缘AI设备的推理精度会由此下降。贝叶斯神经网络(BNN)在噪声容忍度方面优于 CNN 和 ViT ,有望解决当前边缘AI设备面临的噪声问题。此外,STT-MRAM 在写入期间具备随机性、高耐用性和非易失性,这使得其与CIM的结合更有利于实现BNN。

为此,来自国立清华大学与台积电企业研究部的团队在2025 ISSCC上发表了题为《A 22nm 104.5TOPS/W μ-NMC-Δ-IMC Heterogeneous STT-MRAM CIM Macro for Noise-Tolerant Bayesian Neural Networks》的论文,提出了基于 STT-MRAM 的 Compute-in-Memory 架构,提升了BNN 在边缘设备上的性能和可靠性。下面将从当下问题、创新点、实验数据和总结与改进四个方面进行论文详解。

当下问题

边缘AI设备在可穿戴设备、环境检测、机器人、国防等领域得到了广泛应用,如图1所示[1]。然而,边缘AI设备也面临着许多挑战:功耗开销较大,难以长期待机工作,影响设备的稳定性和寿命;外部噪声干扰,影响设备内部信号的传输和处理,进而影响算法的准确性;传统 CNN/ViT 模型局限,能效不高,噪声鲁棒性不足,难以满足边缘 AI部署的 需求。

图1 边缘智能的典型应用场景

基于STT-MARM的CIM电路架构与BNN算法的结合将有望解决上述挑战,但仍面临着三个重要问题,如图2所示:1)缺乏对 BNN 友好的设备和架构的协同设计。数字电路面积开销大、功耗大,ReRAM、PVM噪声容忍度低。此外,如何实现推理准确度与能效之间的权衡也是一个重要的问题。2)需要精确且可配置的增量生成。STT-MRAM会导致写入监视器感应裕量 (WM-SM) 较小,因此在 STT-MRAM 器件中需要精确和低功耗的写入操作。3)存内计算(IMC)的乘积累加感知裕度(SM)较低。由 BL 的近远效应和大量激活的 WL 引起的 IMC 传感裕量退化,显着影响 IMC 读出精度。

图2 BNN 软件的优势和硬件实施的挑战

为解决上述三个挑战,本文提出了三个创新点:1) 使用 NMC 进行μ计算和 IMC 进行 Δ计算(μN-ΔI)的异构 CIM 结构,以实现高能效和推理精度;2)一种自比较写入终止(SCWT)方案,可增强 WM-SM 以准确生成Δ权重,同时将性能、功耗和面积的 影响降至最低;3)具有检测裕量补偿(2D-CVS-SMC)的 2D 钳位电压缩放,可提高 IMC 读出精度,同时降低功耗。

创新点

  1. 异构 CIM 架构(μN-ΔI):如图3所示,文中提出采用近内存计算(NMC)处理 μ 计算,内存计算(IMC)处理 Δ 计算的异构结构。通过初步分析发现,μ 计算误差对推理精度影响显著,而 Δ 计算误差影响较小。基于此,将更精确的 NMC 用于 μ 计算,更节能的 IMC 用于 Δ 计算。在计算过程中,μ-NMC 采用字输入、位加权方式,每次仅激活一条字线(WL),8bIN-1bμ 的乘积累加(MAC)操作 1 个周期就能完成,8bIN-8bμ 的 MAC 操作则需要 8 个周期;Δ-IMC 采用位输入、字加权方式,可同时激活多条 WL,1bIN-8bΔ 的 MAC 操作 1 个周期即可完成。二者共享 72×8b 自定义输入寄存器(IN-DFF),这一设计有效减少了硬件面积和功耗。同时,通过专用权重映射方案降低了 NMC 和 IMC 之间异构计算的延迟,最终实现了高能源效率和推理精度。

图3 μ-NMC 的计算流程(上),Δ-IMC 的计算流程(下)

  1. 自比较写终止(SCWT)方案:该方案旨在增强写监控检测裕度(WM-SMs),从而精确生成 Δ 权重。在生成 Δ 权重时,利用 STT-MRAM 写操作的随机性,依据中心极限定理(CLT)生成符合特定分布的 Δ 权重。SCWT 能够跟踪位线(BL)的远近效应以及工艺、电压、温度(PVT)变化,并且无需片上或片外参考电压或电流。在写脉冲开始时,SCWT 会采样单元电流(ISAMP),随后等待电流变化(ΔIDL)。一旦检测到电流变化,即表明 STT-MRAM 单元已切换,此时 SCWT 会终止写过程。这一操作重复 N0 次,通过总切换计数 X 计算得到 Δ 权重(Δ-weight = X - N0×p)。

图4 通过 SCWT 方案生成 Δ 权重的过程

从图5中可以直观地看出,与基线和传统写终止方案相比,SCWT 将 WM-SM 提高了 3.25 至 3.74 倍,同时写能量降低了 2.46 至 3.11 倍。

图5 该方案与基线和传统写终止方案性能比较

  1. 二维钳位电压缩放与检测裕度补偿(2D-CVS-SMC):依据图 6,该方案由二维钳位电压缩放(2D-CVS)和二维检测裕度补偿(2D-SMC)两部分构成。2D-CVS 与传统仅基于 WL 地址调整钳位电压(VCLP)的方式不同,它基于 WL 地址(XA)和激活的 WL 数量(NWL)进行二维调整。芯片制造完成后,会为每个 Δ 阵列建立 2D-V 缩放表,其中 2b 的 XA [7:6] 和 4b 的 NWL 对应一个 3b 偏置索引,通过该索引选择 8 个 VCLP [7:0] 中的一个作为 V2D-CLP。例如,当 XA 远且 NWL 大时,偏置索引大,对应的 V2D-CLP 也大;当 XA 近且 NWL 小时,偏置索引小,V2D-CLP 则小。2D-SMC 操作分为四个阶段:在 PH0 阶段,C1 充电至 VDD,X0 和 X1 放电至 VSS;PH1 阶段采样 MAC 电流(Imac);PH2 阶段捕捉失真,根据 Imac 确定 Vxc ,并且可以通过调整 SW2 导通时间来减轻工艺变化的影响;PH3 阶段进行裕度补偿和失调消除,根据 Vx0 - x1 确定补偿电流(I2D-OST),再减去参考电流(I2D-REFO)的失调电流,最终得到 I2D-OUT ,这一过程有效降低了 ADC 功耗。

图6  2D-CVS 的原理(左),2D-SMC 的四个操作阶段(右)

从图 7可知,相比传统静态 BL 钳位,2D-CVS-SMC 将 IMC 的能量效率(EFMAC)提高了 2.48 倍,MAC 检测裕度提高了 1.90 倍。

图7 相比传统静态 BL 钳位2D-CVS-SMC的性能表现

实验数据

在芯片性能方面,该芯片能有效控制功耗,适合资源受限的边缘设备。CIM宏芯片在22nm STT-MRAM工艺下,采用8b输入、8b权重、8b增量、27b输出的配置,实现了104.5 TOPS/W的卓越能效。这一能效水平在同类CIM芯片中处于领先地位,充分展现了STT-MRAM技术在能效方面的巨大潜力。为了适配吞吐量的需求并提升STT-MRAM的写入性能,研究团队提出的SCWT方案与传统写入方案相比能够将写入监控感测裕度(WM-SM)提升3.25至3.74倍,并将写入能量降低2.46至3.11倍。WM-SM的提升显著增强了写入操作的可靠性和精度,而写入能量的降低则。SCWT方案的成功验证为STT-MRAM在CIM芯片中的应用扫清了写入性能障碍,直接提升了芯片的整体能效。最终,该芯片在0.8V的低电压下实现了18ns的整体低计算延迟,满足边缘AI应用对实时性的需求。

研究团队提出的μN-ΔI异构计算架构充分发挥了NMC的高精度和IMC的高能效优势。实验结果表明,μN-ΔI架构相较于全NMC架构,能够将宏级MAC功耗降低43%,而推理精度损失仅为0.05%,几乎可以忽略不计。针对IMC架构在读取过程中可能面临的精度问题而设计的2D-CVS-SMC方案通过动态调整钳位电压并结合感测裕度补偿电路,提升了IMC的读取能效。实验中2D-CVS-SMC方案能够将IMC宏能效(EFMAC)提升2.48倍,并将MAC感测裕度(SM)提升1.90倍,增强了IMC架构在CIM芯片中的实用性。

此外,噪声鲁棒性是评价CIM芯片性能的重要指标,尤其是考虑到边缘设备的工作环境往往充斥着复杂噪声,比服务器型芯片具有更高的要求。研究团队对CIM宏芯片进行噪声环境性能测试的结果表明,在标准化的RGB噪声(σ=0.01)条件下,BNN宏芯片的推理精度退化程度比CNN低2.55倍。这一结果可以说明BNN宏芯片在噪声环境下有一定的优越性,验证了该CIM宏芯片的抗干扰潜力。

图8 CNN和BNN的抗干扰对比

总结与改进

该研究提出的22nm STT-MRAM CIM宏芯片,通过SCWT写入方案、μN-ΔI异构架构和2D-CVS-SMC读取方案等多项创新技术的集成,在能效、速度、精度和噪声鲁棒性方面均取得了显著进展。该研究成果不仅论述了STT-MRAM技术在CIM领域的巨大潜力,还验证了μN-ΔI异构架构、SCWT写入方案和2D-CVS-SMC读取优化方案的有效性。同时针对贝叶斯神经网络的硬件加速进行了深入探索,为BNN在边缘设备上的实际应用提供了较高的噪声环境下的解决方案。在未来,高性能、低功耗和高噪声鲁棒性的CIM宏芯片能够支持在资源受限的边缘设备上部署更复杂、更强大的神经网络模型,从而提升边缘设备的智能化水平,拓展边缘AI应用的范围。


[1] 李桂宏, 乔飞. 面向边缘智能设备的持续感知集成电路与系统[J]. 微纳电子与智能制造, 2019, 1(2): 47-61.


http://www.kler.cn/a/596233.html

相关文章:

  • 日语学习-日语知识点小记-构建基础-JLPT-N4N5阶段(25):解释说明:という
  • 手动集成sqlite的方法
  • SpringSecurity配置(自定义认证过滤器)
  • Oracle转化为MySQL数据库
  • 当下主流 AI 模型对比:ChatGPT、DeepSeek、Grok 及其他前沿技术
  • cfca 申请国密证书流程
  • 面试总结之Android Bitmap 深度解析与性能优化
  • 第9章:Docker Compose企业级多容器编排
  • 19.课程发布-freeMarker
  • 读取Table的结构转换为Model类
  • kOps + Karpenter 集成实践:实现 K8s 集群的动态扩展
  • [Vue]条件渲染
  • Python 应用部署云端实战指南 —— AWS、Google Cloud 与 Azure 全解析
  • 基于香橙派 KunpengPro学习CANN(2)——Ascend Extension for PyTorch 配置与安装
  • docker搭建云盘
  • 说一下yolo的一些概念 和 自己对 置信度阈值 和图像处理模板匹配的理解
  • 如何把全局坐标系转到机器人本体坐标系
  • Android数据加密方案
  • 深入解析计算机组成原理:从硬件架构到程序运行的本质
  • 【access开发】导入excel 并生成表