AI硬件系统(一):计算范式
目前看到的几种关键加速计算范式包括 Cube、脉动和空间计算
文章目录
- cube
- 脉动
- 空间计算
cube
- 顾名思义完成立方体计算。其实质来自于对高维 tensor的拆分执行,对立方体进行取截面或者取部分块实现密集计算的方案
- 此类方法优势在于直观好理解,实现简洁
- 不足在于,一方面会受限与硬件可实现的规模(主要是数据广播和时延控制);另一方面软件编程接口的粒度被严重锁死,灵活性差
脉动
- 主要通过对数据的分区域复用实现对计算规模的渐次增加。完全并行后计算规模可以做的更大
- 不足在于计算时延会被拉长
空间计算
- 可以理解为对脉动或者cube的空间展开。主要做很对更大规模的AI加速方案,例如celebras。或者众核的设计思路
- 逻辑在于通过多个小计算核对任务进行空间展开实现。并实现空间流水
- 优势在于流水起来之后可以实现近似硬件的PP并行,由于在单个芯片或者die内,所以有效地控制了写出芯片的带宽问题