深度学习加速性能分析与Roofline Model
深度学习加速性能分析
- 动因:由于深度学习加速器普遍采用时分复用(当然随着Graphcore等dataflow类型的芯片除外,他们是空间划分)。此时,硬件资源在不同时刻执行的计算发生变化,很难以单一时刻的计算类型进行硬件设计。所以寻找平均资源利用率就变得更重要
- 方法:针对不同任务建立benchmark,评估模型与计算平台的亲和能力。
- 收益:亲和度高的架构设计,可以实现同等算力(硬件规格)下执行更多的有效计算。例如,同是16Tops算力下执行ResNet50,A芯片可以达到50fps,B芯片可能仅有20fps。
- 指标:计算能力与带宽能力
Roofline Model
- 基于计算强度的性能评估方式,在给定算力 π \pi π下,计算平台提供带宽