当前位置: 首页 > article >正文

debug 笔记:llama 3.2 部署bug 之cutlassF: no kernel found to launch!

1 问题描述 

按照官方的写法

import torch
from transformers import pipeline
import os
os.environ["HF_TOKEN"] = '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'
model_id = "meta-llama/Llama-3.2-3B"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("The key to life is")

2 解决方法

torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)

禁用 PyTorch 2.x 中默认启用的 Flash Attention 和 Memory-Efficient Attention 内核


http://www.kler.cn/a/612928.html

相关文章:

  • 歌词json
  • 【redis】持久化之RDB与AOF
  • [c语言日寄]柔性数组
  • [Java微服务架构]7-3_事务处理——分布式事务
  • UML之包含用例
  • 基于 Qt / HTTP/JSON 的智能天气预报系统测试报告
  • 智慧电力:点亮未来能源世界的钥匙
  • 推荐:大模型靠啥理解文字?通俗解释:词嵌入embedding
  • 网络安全法律法规简介
  • RFID技术在机器人中的核心应用场景及技术实现
  • AI PPT哪家强?2025年4款高效工具深度测评
  • 【数据分享】基于联合国城市化程度框架的全球城市边界数据集(免费获取/Shp格式)
  • 对匿名认证的理解
  • [Java微服务架构]7-2_事务处理——全局事务与共享事务
  • Python每日一题(7)
  • springboot 四层架构之间的关系整理笔记五
  • 怎样进行服务器的日常安全监控和审计?
  • uniapp用户登录及获取用户信息(头像昵称)
  • 全国职业技能大赛_网络安全_中职A模块解析
  • spring security的过滤器链