当前位置：首页 > article >正文

STT-MRAM CIM 赋能边缘 AI：高性能噪声鲁棒贝叶斯神经网络宏架构详解

article 2025/3/24 3:55:03

引言

近年来，基于卷积神经网络（CNN）和视觉转换器（ViT）的存算一体（CIM）边缘AI设备因其低延迟、高能效、低成本等性能受到越来越广泛的关注。然而，当环境中存在噪声时（例如，雨、风），面向图像识别的边缘AI设备的推理精度会由此下降。贝叶斯神经网络（BNN）在噪声容忍度方面优于 CNN 和 ViT ，有望解决当前边缘AI设备面临的噪声问题。此外，STT-MRAM 在写入期间具备随机性、高耐用性和非易失性，这使得其与CIM的结合更有利于实现BNN。

为此，来自国立清华大学与台积电企业研究部的团队在2025 ISSCC上发表了题为《A 22nm 104.5TOPS/W μ-NMC-Δ-IMC Heterogeneous STT-MRAM CIM Macro for Noise-Tolerant Bayesian Neural Networks》的论文，提出了基于 STT-MRAM 的 Compute-in-Memory 架构，提升了BNN 在边缘设备上的性能和可靠性。下面将从当下问题、创新点、实验数据和总结与改进四个方面进行论文详解。

当下问题

边缘AI设备在可穿戴设备、环境检测、机器人、国防等领域得到了广泛应用，如图1所示[1]。然而，边缘AI设备也面临着许多挑战：功耗开销较大，难以长期待机工作，影响设备的稳定性和寿命；外部噪声干扰，影响设备内部信号的传输和处理，进而影响算法的准确性；传统 CNN/ViT 模型局限，能效不高，噪声鲁棒性不足，难以满足边缘 AI部署的需求。

图1 边缘智能的典型应用场景

基于STT-MARM的CIM电路架构与BNN算法的结合将有望解决上述挑战，但仍面临着三个重要问题，如图2所示：1）缺乏对 BNN 友好的设备和架构的协同设计。数字电路面积开销大、功耗大，ReRAM、PVM噪声容忍度低。此外，如何实现推理准确度与能效之间的权衡也是一个重要的问题。2）需要精确且可配置的增量生成。STT-MRAM会导致写入监视器感应裕量（WM-SM）较小，因此在 STT-MRAM 器件中需要精确和低功耗的写入操作。3）存内计算（IMC）的乘积累加感知裕度（SM）较低。由 BL 的近远效应和大量激活的 WL 引起的 IMC 传感裕量退化，显着影响 IMC 读出精度。

图2 BNN 软件的优势和硬件实施的挑战

为解决上述三个挑战，本文提出了三个创新点：1）使用 NMC 进行μ计算和 IMC 进行 Δ计算（μN-ΔI）的异构 CIM 结构，以实现高能效和推理精度；2）一种自比较写入终止（SCWT）方案，可增强 WM-SM 以准确生成Δ权重，同时将性能、功耗和面积的影响降至最低；3）具有检测裕量补偿（2D-CVS-SMC）的 2D 钳位电压缩放，可提高 IMC 读出精度，同时降低功耗。

创新点

异构 CIM 架构（μN-ΔI）：如图3所示，文中提出采用近内存计算（NMC）处理 μ 计算，内存计算（IMC）处理 Δ 计算的异构结构。通过初步分析发现，μ 计算误差对推理精度影响显著，而 Δ 计算误差影响较小。基于此，将更精确的 NMC 用于 μ 计算，更节能的 IMC 用于 Δ 计算。在计算过程中，μ-NMC 采用字输入、位加权方式，每次仅激活一条字线（WL），8bIN-1bμ 的乘积累加（MAC）操作 1 个周期就能完成，8bIN-8bμ 的 MAC 操作则需要 8 个周期；Δ-IMC 采用位输入、字加权方式，可同时激活多条 WL，1bIN-8bΔ 的 MAC 操作 1 个周期即可完成。二者共享 72×8b 自定义输入寄存器（IN-DFF），这一设计有效减少了硬件面积和功耗。同时，通过专用权重映射方案降低了 NMC 和 IMC 之间异构计算的延迟，最终实现了高能源效率和推理精度。

图3 μ-NMC 的计算流程（上），Δ-IMC 的计算流程（下）

自比较写终止（SCWT）方案：该方案旨在增强写监控检测裕度（WM-SMs），从而精确生成 Δ 权重。在生成 Δ 权重时，利用 STT-MRAM 写操作的随机性，依据中心极限定理（CLT）生成符合特定分布的 Δ 权重。SCWT 能够跟踪位线（BL）的远近效应以及工艺、电压、温度（PVT）变化，并且无需片上或片外参考电压或电流。在写脉冲开始时，SCWT 会采样单元电流（ISAMP），随后等待电流变化（ΔIDL）。一旦检测到电流变化，即表明 STT-MRAM 单元已切换，此时 SCWT 会终止写过程。这一操作重复 N0 次，通过总切换计数 X 计算得到 Δ 权重（Δ-weight = X - N0×p）。

图4 通过 SCWT 方案生成 Δ 权重的过程

从图5中可以直观地看出，与基线和传统写终止方案相比，SCWT 将 WM-SM 提高了 3.25 至 3.74 倍，同时写能量降低了 2.46 至 3.11 倍。

图5 该方案与基线和传统写终止方案性能比较

二维钳位电压缩放与检测裕度补偿（2D-CVS-SMC）：依据图 6，该方案由二维钳位电压缩放（2D-CVS）和二维检测裕度补偿（2D-SMC）两部分构成。2D-CVS 与传统仅基于 WL 地址调整钳位电压（VCLP）的方式不同，它基于 WL 地址（XA）和激活的 WL 数量（NWL）进行二维调整。芯片制造完成后，会为每个 Δ 阵列建立 2D-V 缩放表，其中 2b 的 XA [7:6] 和 4b 的 NWL 对应一个 3b 偏置索引，通过该索引选择 8 个 VCLP [7:0] 中的一个作为 V2D-CLP。例如，当 XA 远且 NWL 大时，偏置索引大，对应的 V2D-CLP 也大；当 XA 近且 NWL 小时，偏置索引小，V2D-CLP 则小。2D-SMC 操作分为四个阶段：在 PH0 阶段，C1 充电至 VDD，X0 和 X1 放电至 VSS；PH1 阶段采样 MAC 电流（Imac）；PH2 阶段捕捉失真，根据 Imac 确定 Vxc ，并且可以通过调整 SW2 导通时间来减轻工艺变化的影响；PH3 阶段进行裕度补偿和失调消除，根据 Vx0 - x1 确定补偿电流（I2D-OST），再减去参考电流（I2D-REFO）的失调电流，最终得到 I2D-OUT ，这一过程有效降低了 ADC 功耗。

图6 2D-CVS 的原理（左），2D-SMC 的四个操作阶段（右）

从图 7可知，相比传统静态 BL 钳位，2D-CVS-SMC 将 IMC 的能量效率（EFMAC）提高了 2.48 倍，MAC 检测裕度提高了 1.90 倍。

图7 相比传统静态 BL 钳位2D-CVS-SMC的性能表现

实验数据

在芯片性能方面，该芯片能有效控制功耗，适合资源受限的边缘设备。CIM宏芯片在22nm STT-MRAM工艺下，采用8b输入、8b权重、8b增量、27b输出的配置，实现了104.5 TOPS/W的卓越能效。这一能效水平在同类CIM芯片中处于领先地位，充分展现了STT-MRAM技术在能效方面的巨大潜力。为了适配吞吐量的需求并提升STT-MRAM的写入性能，研究团队提出的SCWT方案与传统写入方案相比能够将写入监控感测裕度（WM-SM）提升3.25至3.74倍，并将写入能量降低2.46至3.11倍。WM-SM的提升显著增强了写入操作的可靠性和精度，而写入能量的降低则。SCWT方案的成功验证为STT-MRAM在CIM芯片中的应用扫清了写入性能障碍，直接提升了芯片的整体能效。最终，该芯片在0.8V的低电压下实现了18ns的整体低计算延迟，满足边缘AI应用对实时性的需求。

研究团队提出的μN-ΔI异构计算架构充分发挥了NMC的高精度和IMC的高能效优势。实验结果表明，μN-ΔI架构相较于全NMC架构，能够将宏级MAC功耗降低43%，而推理精度损失仅为0.05%，几乎可以忽略不计。针对IMC架构在读取过程中可能面临的精度问题而设计的2D-CVS-SMC方案通过动态调整钳位电压并结合感测裕度补偿电路，提升了IMC的读取能效。实验中2D-CVS-SMC方案能够将IMC宏能效（EFMAC）提升2.48倍，并将MAC感测裕度（SM）提升1.90倍，增强了IMC架构在CIM芯片中的实用性。

此外，噪声鲁棒性是评价CIM芯片性能的重要指标，尤其是考虑到边缘设备的工作环境往往充斥着复杂噪声，比服务器型芯片具有更高的要求。研究团队对CIM宏芯片进行噪声环境性能测试的结果表明，在标准化的RGB噪声（σ=0.01）条件下，BNN宏芯片的推理精度退化程度比CNN低2.55倍。这一结果可以说明BNN宏芯片在噪声环境下有一定的优越性，验证了该CIM宏芯片的抗干扰潜力。

图8 CNN和BNN的抗干扰对比

总结与改进

该研究提出的22nm STT-MRAM CIM宏芯片，通过SCWT写入方案、μN-ΔI异构架构和2D-CVS-SMC读取方案等多项创新技术的集成，在能效、速度、精度和噪声鲁棒性方面均取得了显著进展。该研究成果不仅论述了STT-MRAM技术在CIM领域的巨大潜力，还验证了μN-ΔI异构架构、SCWT写入方案和2D-CVS-SMC读取优化方案的有效性。同时针对贝叶斯神经网络的硬件加速进行了深入探索，为BNN在边缘设备上的实际应用提供了较高的噪声环境下的解决方案。在未来，高性能、低功耗和高噪声鲁棒性的CIM宏芯片能够支持在资源受限的边缘设备上部署更复杂、更强大的神经网络模型，从而提升边缘设备的智能化水平，拓展边缘AI应用的范围。

[1] 李桂宏, 乔飞. 面向边缘智能设备的持续感知集成电路与系统[J]. 微纳电子与智能制造, 2019, 1(2): 47-61.

查看全文

http://www.kler.cn/a/596233.html