当前位置: 首页 > article >正文

Triton矩阵乘

目的是计算分块之后的结果c矩阵的一小块。

c矩阵的一小块需要a矩阵的一行和b矩阵一列。

上述两种计算c小块顺序会影响缓存的命中率,所以官方文档的意思就是我们试图让代码运行按照下方的顺序进行矩阵乘法。

所以当分块完毕之后,每个块任务需要加载a的一个小块和b的一个小块不断进行矩阵乘累加,在k方向上迭代。

如果k维度非常大,一个块任务的迭代次数过多,会导致计算资源浪费在迭代上,所以这种情况下需要对k进行切分,也就是增加一个维度的分块,也就是改变grid。本质上就是比如原来计算0块是一个块任务,现在分为两个块任务去计算,最后结果在累加。因为这里两个计算任务会往一个结果空间去写,所有有相关的同步机制。


http://www.kler.cn/a/350964.html

相关文章:

  • 卷积神经05-GAN对抗神经网络
  • [操作系统] 深入理解操作系统的概念及定位
  • 使用Newtonsoft.Json插件,打包至Windows平台显示不支持
  • 人工智能之深度学习-[1]-了解深度学习
  • windows 极速安装 Linux (Ubuntu)-- 无需虚拟机
  • 1️⃣Java中的集合体系学习汇总(List/Map/Set 详解)
  • 数据分析:R语言计算XGBoost二分类模型的SHAP值
  • python基于大数据的电影市场预测分析
  • 什么是MoE?
  • electron 操作 cookie
  • 大数据与人工智能在金融风险控制中的应用
  • Ajax(web笔记)
  • 《京东金融APP的鸿蒙之旅系列专题》鸿蒙工程化:Hvigor构建技术
  • 考研日语 - 高频核心 2200 词(十)
  • 【从零开始的LeetCode-算法】3158.求出出现两次数字的 XOR 值
  • latex公式输入-矩阵
  • 《深度学习》OpenCV 风格迁移、DNN模块 案例解析及实现
  • MyBatis-Plus 记录
  • wireshark 解密浏览器https数据包
  • 【Oracle篇】SQL执行计划之多表连接(含内连接、外连接、半连接、反连接、笛卡尔连接五种连接方式和嵌套、哈希、排序合并三种连接算法)(第四篇,总共七篇)
  • docker-compose里定义的参数来创建容器
  • Apache jmeter中MIME类型如何定义
  • 网络安全之密码学
  • StarRocks大批量数据导入方案-使用 Kafka connector 导入数据
  • 软考中级 - 软件设计师学习笔记 - 1.3 计算机安全
  • 自动驾驶系列—自动驾驶操作系统选型指南:如何选择最适合的系统?