当前位置：首页 > article >正文

debug 笔记：llama 3.2 部署bug 之cutlassF: no kernel found to launch!

article 2025/3/31 23:19:20

1 问题描述

按照官方的写法

import torch
from transformers import pipeline
import os
os.environ["HF_TOKEN"] = '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'
model_id = "meta-llama/Llama-3.2-3B"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("The key to life is")

2 解决方法

torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)

禁用 PyTorch 2.x 中默认启用的 Flash Attention 和 Memory-Efficient Attention 内核

查看全文

http://www.kler.cn/a/612928.html

歌词json

【redis】持久化之RDB与AOF

[c语言日寄]柔性数组

[Java微服务架构]7-3_事务处理——分布式事务

UML之包含用例

基于 Qt / HTTP/JSON 的智能天气预报系统测试报告

智慧电力：点亮未来能源世界的钥匙

推荐：大模型靠啥理解文字？通俗解释：词嵌入embedding

网络安全法律法规简介

RFID技术在机器人中的核心应用场景及技术实现

AI PPT哪家强？2025年4款高效工具深度测评

【数据分享】基于联合国城市化程度框架的全球城市边界数据集（免费获取/Shp格式）

对匿名认证的理解

[Java微服务架构]7-2_事务处理——全局事务与共享事务

Python每日一题(7)

springboot 四层架构之间的关系整理笔记五

怎样进行服务器的日常安全监控和审计？

uniapp用户登录及获取用户信息（头像昵称）

全国职业技能大赛_网络安全_中职A模块解析

spring security的过滤器链

1 问题描述

2 解决方法

相关文章：