当前位置: 首页 > article >正文

人工智能之基于阿里云快速搭建Llama-3.2-11B-Vision-Instruct

人工智能之基于阿里云快速搭建Llama-3.2-11B-Vision-Instruct

需求描述

  1. 基于阿里云搭建图片生成文字模型,模型名称:LLM-Research/Llama-3.2-11B-Vision-Instruct
  2. 使用上述模型输入图片生成文字,模型路径

业务实现

阿里云配置

阿里云配置如下:
在这里插入图片描述
代码验证

import requests
import torch
from PIL import Image
from transformers import MllamaForConditionalGeneration, AutoProcessor
from modelscope import snapshot_download
model_id = "LLM-Research/Llama-3.2-11B-Vision-Instruct"
model_dir = snapshot_download(model_id, ignore_file_pattern=['*.pth'])

model = MllamaForConditionalGeneration.from_pretrained(
    model_dir,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_dir)

url = "https://vcg01.cfp.cn/creative/vcg/800/new/VCG41519623066.jpg"
image = Image.open(requests.get(url, stream=True).raw)

messages = [
    {"role": "user", "content": [
        {"type": "image"},
        {"type": "text", "text": "如果你需要对图片描述,你会怎么描述?"}
    ]}
]
input_text \
       = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(image, input_text, return_tensors="pt").to(model.device)

output = model.generate(**inputs, max_new_tokens=30)
print(processor.decode(output[0]))

结果展示如下,生成的文本信息如下:

The image shows a baby in a white outfit being held by an adult, with the baby looking at the camera and smiling.

从多次搭建的经验来看,建议在搭建模型相关的内容的时候,优先选择阿里云的相关服务,很多东西阿里云的容器云已经提供底层技术,可以很快的使用modelscope提供的操作内容进行快速的模型搭建。


http://www.kler.cn/a/501058.html

相关文章:

  • 解决计算机管理无法连接远程电脑
  • 开源模型应用落地-qwen2-7b-instruct-LoRA微调合并-ms-swift-单机单卡-V100(十三)
  • HTML5 语义元素:网页构建的新时代
  • Microsoft Sql Server 2019 函数理解
  • Trimble自动化激光监测支持历史遗产实现可持续发展【沪敖3D】
  • 【LeetCode】:删除回文子数组【困难】
  • 用 Python 从零开始创建神经网络(十九):真实数据集
  • 【Cocos TypeScript 零基础 7.1】
  • Android Compose 显示底部对话框 (ModalBottomSheet),实现类似BottomSheetDialog的效果
  • (五)ROS通信编程——参数服务器
  • 多 Agent 框架入门:开启智能协作新时代(24/30)
  • 2025年01月11日Github流行趋势
  • 通义文生视频模型升级,天工推理模型正式上线,微软开源小模型Phi-4!AI Weekly『1月6-1月12日』
  • CV 图像处理基础笔记大全(超全版哦~)!!!
  • 什么是PHP?
  • MR30分布式 IO 在物流分拣线的卓越应用
  • 小米路由器IPv6 功能使用指南
  • 【vscode】VSCode 设置ctrl或alt+mouse(left)跳转到定义
  • 书说 MySQL 的悲观锁和乐观锁
  • springmvc的获取请求数据
  • containerd系统分析(五)-网络分析
  • 判断两个字符串是不是旋转字符串
  • 《探索鸿蒙Next上开发人工智能游戏应用的技术难点》
  • 【MySQL】NOT IN需要外部套一层SELECT
  • Linux 发行版介绍与对比:Red Hat、Ubuntu、Kylin、Debian
  • 百度视频搜索架构演进