当前位置: 首页 > article >正文

【论文解析】基于开源 Matrix 指令集扩展(矢量点积)的高性能 RISC-V 处理器“香山”(nanhu 版本)的 LLM 加速的研究

作者及发刊详情

摘要

正文

主要工作贡献

1)针对大模型自定义矢量点积扩展指令,并设计了专用硬件加速大语言模型的运算

2)基于香山处理器增加矢量点积计算单元和流水线处理逻辑,开发了包含上述指令的处理器nanhu-vdot

3)在FPGA上做测试,硬件资源和功耗几乎没有增加,矢量点积运算速度相比标量方法提高了 4 倍以上

4)在FPGA上进行GPT-2的推理,速度比纯软件实现提高了30%

实验评估

实验验证平台:Xilinx VU19P FPGA

选用模型: GPT-2

选用了三种模型。
在这里插入图片描述

工具:

  • 该测试系统基于香山处理器的操作系统环境
  • 通过测试接口将os可执行文件传输到FPGA的DDR中
  • 模型代码和推理程序存在linux的临时文件系统中

在这里插入图片描述

PPA

性能

对 GPT-2 小型模型、中型模型、大型模型的推理速度提升分别为 30.9%、27.8%、27.9%。
在这里插入图片描述

资源消耗

nanhu-vdot 相比“香山”(nanhu 版本)增加 15677 个 LUT 单元,占比 2.8%,增加 2486 个 Flip-Flop 单元,占比 0.9%,BRAMs 未增加。
在这里插入图片描述

功耗

“香山”(nanhu 版本)的功耗开销为 8.454W,nanhu-vdot 功耗为 8.494W。nanhu-vdot 相比于“香山”(nanhu版本)的功耗仅增加 0.5%.

软硬协同设计

硬件:编写矢量点积计算定制自定义扩展指令的单元设计代码,对矢量点积进行加速,与高性能处理器“香山”(nanhu 版本)一起编译,生成可仿真的比特流。
软件:

  • 增加自定义矢量点积计算指令
  • 修改编译器,使其支持扩展的指令
  • 修改 GPT-2 开源 C/C++代码,其中对于 int8 类型矢量点积计算部分通过汇编指令调用硬件执行单元,在调用硬件前后进行数据类型转换,最终通过硬件的加速计算得到文本输出。

自定义点积扩展指令

  • R-type 译码模式
  • Inst[11:7]表示交换后数据写回的目的寄存器号
    在这里插入图片描述

模型修改

实现 GPT-2 大模型推理中元素类型为 int8 的矢量点积计算实现

硬件设计

设计了矢量点积计算单元和流水线处理逻辑,即VDOTU模块。

与CPU的集成方式

  • 将矢量点积扩展指令与高性能处理器“香山”(nanhu 版本)的流水线紧密、耦合。
  • 充分利用 “香山”的现有译码逻辑、寄存器堆和功能单元,尽可能减少额外的面积开销
  • 作为流水线中的执行部件,如下图中的EXE单元

在这里插入图片描述

VDOTU模块

该模块作为扩展指令的核心执行单元,采用SIMD向量化的执行方式。

  • VDOTU 默认配置为 8bit 的整形计算
  • 包含八路 8-bit 乘法器和七个加法器
  • 输出采用 64-bit,与处理器的通用寄存器大小一致
    在这里插入图片描述

参考文献

该工作的硬件设计较为简单,大量的工作在原软件工作,特别是模型算子的移植。
值得借鉴的是该方案的测试流,极大的简化的软件工作,详细参考实验评估部分。


http://www.kler.cn/news/327796.html

相关文章:

  • 828华为云征文|部署多功能集成的协作知识库 AFFiNE
  • mysql如何不使用窗口函数,去统计出入库情况
  • 全视通智慧养老护理呼叫求助,打造安心舒适的养老生活
  • JavaScript 可视化案例详解
  • 了解Webpack并处理样式文件
  • 黑马头条day5- 延迟任务精准发布文章
  • NVIDIA Hopper 架构深入
  • spring cache,Spring data redis
  • OpenCV视频I/O(5)视频采集类VideoCapture之从视频流中获取下一帧的函数grab()的使用
  • 【mod分享】山脊赛车无限高清重置mod,替换高清贴图和光影材质,可实现reshade光追
  • Oracle(145)如何进行数据库的日常维护?
  • Map put的过程
  • ELK--收集日志demo
  • 清美项目 vue总结
  • PPT 快捷键使用、技巧
  • 卷积神经网络(CNN)的计算量和参数怎么准确估计?
  • 独立样本t检验及其案例分析
  • 代码训练营 day17|LeetCode 235,LeetCode 701,LeetCode 450
  • 线性方程组的迭代方法
  • IP协议讲解
  • 唱响红色志愿,赞歌献给祖国——杭州建德市庆祝中华人民共和国成立75周年联欢盛宴纪实
  • 等保测评中的密码学应用分析
  • Artec Leo 3D扫描助力Illumaesthetic公司加速汽车定制
  • DCIM系统的作用
  • 【Power Query】M函数-List.Sum
  • OpenCV视频I/O(7)视频采集类VideoCapture之初始化视频捕获设备或打开一个视频文件函数open()的使用
  • css 边框流光效果
  • 算法刷题笔记 约数个数(详细注释的C++实现)
  • 钉钉如何请求webhook发送信息
  • 基于JAVA+SpringBoot+Vue的校园商铺管理系统