capter7:全局内存的合理使用
全局内存的合理使用
在各种设备内存中,全局内存具有最低的访问速度,往往是一个 CUDA 程序的性能瓶颈
。
GPU存储资源:寄存器,本地内存,共享内存,缓存,显存等存储器细节
全局内存的合并与非合并访问
对全局内存的访问将触发内存事务,即数据传输。
- 在启用了 L1 缓存的情况下,对全局内存的读取将首先尝试经过 L1 缓存;
- 如果未命中,则尝试经过 L2 缓存;
- 如果再次未命中,则直接从 DRAM(全局内存) 读取。
一次 数据传输处理 的数据量在默认情况下是 32 字节。
一次数据传输中,从全局内存转移到 L2 缓存的一片内存的首地址一定是 32 的整数倍。
也就是说,一次数据传输只能从全局内存读取地址为 0-31 字节、32-63 字节等片段的数据。
合并度