当前位置: 首页 > article >正文

多张GPU卡

from transformers import pipeline
from accelerate import init_empty_weights, infer_auto_device_map
from transformers import AutoModelForCausalLM, AutoTokenizer

初始化加速器

from accelerate import Accelerator

accelerator = Accelerator()

加载模型和 tokenizer

tokenizer = AutoTokenizer.from_pretrained(“/app/model/”)
model = AutoModelForCausalLM.from_pretrained(“/app/model/”)

将模型分布到多张 GPU 上

device_map = infer_auto_device_map(model, max_memory={0: “16GB”, 1: “16GB”, 2: “16GB”, 3: “16GB”, 4: “16GB”, 5: “16GB”, 6: “16GB”, 7: “16GB”})

将模型加载到设备上

model = model.from_pretrained(“/app/model/”, device_map=device_map)

使用 pipeline

generator = pipeline(“text-generation”, model=model, tokenizer=tokenizer, device_map=device_map)

进行推理

output = generator(“Your input text”, max_length=30)
print(output)


http://www.kler.cn/a/306617.html

相关文章:

  • 优化时钟网络之时钟抖动
  • C++中的栈(Stack)和堆(Heap)
  • 重构代码之内联临时变量
  • 【深圳大学】数据结构A+攻略(计软版)
  • 若依笔记(八):Docker容器化并部署到公网
  • 深度学习——权重初始化、评估指标、梯度消失和梯度爆炸
  • 【C++】c++ 11
  • 【Git】初识Git
  • 检查Tomcat是否启动成功
  • Baumer工业相机堡盟工业相机如何通过BGAPISDK获取相机接口数据吞吐量(C语言)
  • 【YashanDB知识库】YAS-02025 no free space in virtual memory pool
  • 初识时序数据库InfluxDB
  • 【ARM】中断的处理
  • 中间件安全(一)
  • 基于Selenium的新闻爬取技术实操
  • 【AIGC cosplay】让大模型扮演求职者,我当hr来面试
  • 语言哲学(Philosophy of Language)
  • PMP--一模--解题--81-90
  • Python 常用模块(二):json模块
  • 拒绝低效!开发者必备AI工具助你事半功倍!
  • WPF利用Path自定义画头部导航条(TOP)样式
  • C# 网口通信(通过Sockets类)
  • Vue 生命周期与 TypeScript:深入理解组件生命周期
  • 5-【JavaWeb】JUnit 单元测试及JUL 日志系统
  • uniapp使用高德地图设置marker标记点,后续根据接口数据改变某个marker标记点,动态更新
  • CentOS 7上安装Docker