当前位置: 首页 > article >正文

Hopper架构 GEMM教程

一 使用

1.1 makefile

compile:
	nvcc -arch=sm_90a -lcuda -lcublas -std=c++17 matmul_h100_optimal.cu -o test

run:
	./test

加入-lcublas,不然会有函数无法被识别 

二 代码分析

2.1 kernel外参数分析

2.1.1 基本参数

    constexpr int BM = 64*2;
    constexpr int BN = 256;
    constexpr int BK = 64;
    constexpr int NUM_THREADS = 128*3;
    constexpr int QSIZE = 3;
    constexpr int CLUSTER_M = 2;
    constexpr int CLUSTER_N = 1;
    constexpr int NUM_SM = 128;
    static_assert(NUM_SM % (CLUSTER_M*CLUSTER_N) == 0);

2.1.2 SMem结构体

template <int BM, int BN, int BK, int QSIZE&

http://www.kler.cn/a/555723.html

相关文章:

  • 人工智能驱动的自动驾驶:技术解析与发展趋势
  • C# 生成二维码隐藏ASCII码
  • Unitree Project
  • DPVS-2:单臂负载均衡测试
  • Java的Kotlin/Java互操作性
  • OSPF基础知识总结
  • HarmonyOS NEXT 开发实战指南(基于API 12+)
  • 迅为RK3568开发板篇Openharmony配置HDF控制UART-实操-HDF驱动配置UART-修改HCS配置
  • 机器视觉3D深度图颜色含义解析
  • java中 kafka简单应用
  • python脚本实现接入企微机器人
  • CTA策略【量化理论】
  • vscode复制到下一行
  • 企业建站源码系统 php企业网站源码模板
  • 【后端基础】布隆过滤器原理
  • flutter将utf-8编码的字节序列转换为中英文字符串
  • vxe-table 如何实现跟 Excel 一样的数值或金额的负数自动显示红色字体
  • 大数据技术之HBase操作归纳
  • PyTorch 源码学习:Dispatch Autograd Operators
  • 高级SQL技术在Python项目中的应用:更进一步的数据分析与集成