当前位置：首页 > article >正文

cuda实现flash_attn_mma_share_kv源码分析

article 2025/1/8 7:50:05

一源码分析

1.1 函数入口

void flash_attn_mma_stages_split_q_shared_kv(torch::Tensor Q, 
                                             torch::Tensor K, 
                                             torch::Tensor V, 
                                             torch::Tensor O, 
                                             int stages) {
  CHECK_TORCH_TENSOR_DTYPE(Q, torch::kHalf) // Q [B,H,N,D]
  CHECK_TORCH_TENSOR_DTYPE(K, torch::kHalf) // K [B,H,N,D]
  CHECK_TORCH_TENSOR_DTYPE(V, torch::kHalf) // V [B,H,N,D]
  CHECK_TORCH_TENSOR_DTYPE(O, torch::kHalf) // O [B,H,N,D]
  const int d = Q.size(3); // B, H, N, d

  if (stages > 1) {
    switch (d)
    {
    case 32:
      launch_flash_attn_mma_stages_split_q_shared_kv<32,  2>(Q, K, V, O);

http://www.kler.cn/a/471262.html

相关文章：

HarmonyOS开发：传参方式

C#使用MVC框架创建WebApi服务接口

ECharts系列：echart中折线图折线设置不平滑显示

IO: 作业：Day1

Electron使用记录

oracle基础：将字段从 VARCHAR 修改为 CLOB

vue el table 不出滚动条样式显示 is_scrolling-none，如何修改？

Airflow：SQL Sensor 监控数据库业务变化

力扣--283.移动零

presto权限管理

计算机网络之---无线网络的传输介质

使用 Flink CDC 构建 Streaming ETL

C++ 提升编译速度的利器：前向声明

【ABAP开发环境】（三）ABAP GIT

根据python代码自动生成类图的实现方法[附带python源码]

Python实现应用决策树的实例程序

model_selection.cross_val_score函数介绍

CES 2025：ROG打造极致游戏体验

python-leetcode-加油站

VLMs之Agent之CogAgent：《CogAgent: A Visual Language Model for GUI Agents》翻译与解读

《医院项目驻场半月记：从憧憬到反思的旅程》

AWS re:Invent 2024 现场实录 - It‘s all about Scale

Mac 安装psycopg2出错：Error:pg_config executable not found的解决

黄仁勋演讲总结(2种显卡，1个开源大模型，1个数据采集平台)

决策树模型与随机森林一文入门，原理、R语言示例

Kubernetes Ingress：流量管理的利器