当前位置：首页 > article >正文

试用 Llama-3.1-8B-Instruct AI 模型

article 2025/2/22 16:34:21

IT 从业人员累的一个原因是要紧跟时代步伐，甚至是被拽着赶，更别说福报 996. 从早先 CGI, ASP, PHP, 到 Java, .Net, Java 开发是 Spring, Hibernate, 而后云时代 AWS, Azure, 程序一路奔波在掌握工具的使用。而如今言必提的 AI 模型更是时髦，n B 参数, 量化, 微调, ML, LLM, NLP, AGI, RAG, Token, LoRA 等一众词更让坠入云里雾里。

去年以机器学习为名买的(游戏机)一直未被正名，机器配置为 CPU i9-13900F + 内存 64G + 显卡 RTX 4090，从进门之后完全处于游戏状态，花了数百小时对《黑神话》进行了几翻测试。

现在要好好用它的 GPU 来体验一下 Meta 开源的 AI 模型，切换到操作系统 Ubuntu 20.04, 用 transformers 的方式试了下两个模型，分别是

Llama-3.1-8B-Instruct: 显存使用了 16G，它的老版本的模型是 Meta-Llama-3-8B-Instruct(支持中文问话，输出是英文)
Llama-3.2-11B-Vision-Instruct: 显存锋值到了 22.6G(可以分析图片的内容)

都是使用的 torch_dtype=torch.bfloat16, 对于 24 G 显存的 4090 还用不着主内存来帮忙。如果用 float32 则需更多的显存，对于 Llama-3.2-11B-Vision-Instruct 使用 float32, 则要求助于主内存，将看到

Some parameters are on the meta device because they were offloaded to the cpu.

反之，对原始模型降低精度，量化成 8 位或 4 位则更节约显卡，这是后话，这里主要记述使用上面的 Llama-3.1-8B-Instruct 模型的过程以及感受它的强大，可比小瞧了这个 8B 的小家伙。所以在手机上可以离线轻松跑一个 1B 的模型。阅读全文 >>

查看全文

http://www.kler.cn/a/414289.html

如何使用 Codegen 加速 React Native 开发？

[网络安全]XSS之Cookie外带攻击姿势详析

C#身份证识别接口集成、身份证文字信息提取、身份证信息录入

区块链：比特币-Binance

【论文阅读】点云预测-机器人操作

Three.js渲染较大的模型之解决方案

重学 Android 自定义 View 系列(八)：星星评分控件（RatingBar）

Hello World C#

uniapp强制修改radio-group内单选组件的状态方法

deepin V23笔记本电脑安装NVIDIA闭源驱动经验分享

黑马2024AI+JavaWeb开发入门Day02-JS-VUE飞书作业

taro使用createAsyncThunk报错ReferenceError: AbortController is not defined

qml调用c++类内函数的三种方法

操作系统的设计哲学：Linux与Windows的对比

CRMEB 多商户PHP版 v3.1更新内容

探索运维新视界，CMDB的3D机房功能深度解析

JVM（七、性能监控、故障处理工具）

vue安装步骤

JVM指令集概览：基础与应用

讲懂http和https

相关文章：