当前位置：首页 > article >正文

在本地使用 Llama 3.2-Vision：分步指南

article 2025/2/23 7:01:05

通过直观的用户界面或强大的端点服务，在本地与先进的多模态 Llama 模型进行交互。

Llama 3.2-Vision 是一个强大的多模态模型，能够处理文本和图像数据。它具有 110 亿（11B）和 900 亿（90B）参数规模，专为目标识别、图像字幕生成和场景解析等任务而设计。

在本教程中，我们将探索如何在本地 GPU 上使用 Llama 3.2-Vision，而无需互联网连接。我们将使用 Msty 桌面应用 来下载、管理并通过其用户界面和 API 与该模型进行交互。

使用 Msty 桌面应用访问 Llama 3.2-Vision

步骤 1：下载并安装 Msty 应用

访问官方网站，下载最新版本的 Msty 桌面应用。
按照安装向导完成安装。

步骤 2：下载 Llama 3.2-Vision 模型

打开 Msty 应用，进入 “本地 AI 模型” 菜单。
- 点击左下角的“齿轮”图标 > 选择 “本地 AI” > 点击 “管理本地 AI 模型”。
从该菜单下载 Llama 3.2-Vision 模型。
确保该模型与你的计算机兼容（应用内会显示 GPU 和系统要求）。
如果你的设备兼容该模型，则可以顺利运行它。

在本地使用 Llama 3.2-Vision

步骤 3：选择 Llama 3.2-Vision 模型

下载完成后，进入 “聊天” 菜单。
默认情况下，Llama 3.2-Vision 模型会被选中。
- 如果没有被选中，你可以手动从下拉菜单中选择它。

步骤 4：加载图像

使用聊天面板中的 “回形针” 图标上传一张图片。

上传后，你可以向模型提问，例如：
- “这张图片里有什么？”
- 或请求详细描述。

通过 Msty API 访问 Llama 3.2-Vision

Msty 还提供了 API，允许你以编程方式与 Llama 3.2-Vision 交互。以下是具体步骤：

步骤 1：启用 API 端点

在 Msty 应用中进入 “设置” 菜单。
在 “本地 AI” 部分，启用 “本地 AI 端点服务”。
这将显示本地 API URL（例如：http://localhost:10000）。

步骤 2：使用 Python 调用 API

你可以使用 requests 库与 API 进行交互。以下是一个 Python 脚本，
它会将图像编码为 Base64 字符串，并使用 requests 库将其发送到 API 端点。

import requests
import base64

# 将图像编码为 Base64
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

# 设置图像路径
image_path = "burn_out_image.jpg"

# 获取 Base64 编码的图像
base64_image = encode_image(image_path)

# API 端点
url = "http://localhost:10000/api/generate"

# 请求参数
payload = {
    "model": "llama3.2-vision",
    "prompt": "这张图片里有什么？",
    "stream": False,
    "images": [base64_image],
}

# 发送 POST 请求
response = requests.post(url, json=payload)

# 解析并显示返回的 "response" 字段
response_json = response.json()
print(response_json.get("response", "未找到响应"))

该 API 返回的结果简洁且准确。如果你希望获得更长的回复，可以调整 max token 设置。

示例返回结果：