当前位置：首页 > article >正文

多张GPU卡

article 2025/2/21 3:13:44

from transformers import pipeline
from accelerate import init_empty_weights, infer_auto_device_map
from transformers import AutoModelForCausalLM, AutoTokenizer

初始化加速器

from accelerate import Accelerator

accelerator = Accelerator()

加载模型和 tokenizer

tokenizer = AutoTokenizer.from_pretrained(“/app/model/”)
model = AutoModelForCausalLM.from_pretrained(“/app/model/”)

将模型分布到多张 GPU 上

device_map = infer_auto_device_map(model, max_memory={0: “16GB”, 1: “16GB”, 2: “16GB”, 3: “16GB”, 4: “16GB”, 5: “16GB”, 6: “16GB”, 7: “16GB”})

将模型加载到设备上

model = model.from_pretrained(“/app/model/”, device_map=device_map)

使用 pipeline

generator = pipeline(“text-generation”, model=model, tokenizer=tokenizer, device_map=device_map)

进行推理

output = generator(“Your input text”, max_length=30)
print(output)

查看全文

http://www.kler.cn/a/306617.html

【C++】c++ 11

【Git】初识Git

检查Tomcat是否启动成功

Baumer工业相机堡盟工业相机如何通过BGAPISDK获取相机接口数据吞吐量（C语言）

【YashanDB知识库】YAS-02025 no free space in virtual memory pool

初识时序数据库InfluxDB

【ARM】中断的处理

中间件安全（一）

基于Selenium的新闻爬取技术实操

【AIGC cosplay】让大模型扮演求职者，我当hr来面试

语言哲学（Philosophy of Language）

PMP--一模--解题--81-90

Python 常用模块（二）：json模块

拒绝低效！开发者必备AI工具助你事半功倍！

WPF利用Path自定义画头部导航条(TOP)样式

C# 网口通信（通过Sockets类）

Vue 生命周期与 TypeScript：深入理解组件生命周期

5-【JavaWeb】JUnit 单元测试及JUL 日志系统

uniapp使用高德地图设置marker标记点,后续根据接口数据改变某个marker标记点,动态更新

CentOS 7上安装Docker