当前位置: 首页 > article >正文

试用 Llama-3.1-8B-Instruct AI 模型

IT 从业人员累的一个原因是要紧跟时代步伐,甚至是被拽着赶,更别说福报 996. 从早先 CGI, ASP, PHP, 到 Java, .Net, Java 开发是 Spring, Hibernate, 而后云时代 AWS, Azure, 程序一路奔波在掌握工具的使用。而如今言必提的 AI 模型更是时髦,n B 参数, 量化, 微调, ML, LLM, NLP, AGI, RAG, Token, LoRA 等一众词更让坠入云里雾里。

去年以机器学习为名买的(游戏机)一直未被正名,机器配置为 CPU i9-13900F + 内存 64G + 显卡 RTX 4090,从进门之后完全处于游戏状态,花了数百小时对《黑神话》进行了几翻测试。

现在要好好用它的 GPU 来体验一下 Meta 开源的 AI 模型,切换到操作系统 Ubuntu 20.04,  用 transformers 的方式试了下两个模型,分别是

  1. Llama-3.1-8B-Instruct: 显存使用了 16G,它的老版本的模型是 Meta-Llama-3-8B-Instruct(支持中文问话,输出是英文)
  2. Llama-3.2-11B-Vision-Instruct: 显存锋值到了 22.6G(可以分析图片的内容)

都是使用的 torch_dtype=torch.bfloat16, 对于 24 G 显存的 4090 还用不着主内存来帮忙。如果用 float32 则需更多的显存,对于 Llama-3.2-11B-Vision-Instruct 使用 float32, 则要求助于主内存,将看到

Some parameters are on the meta device because they were offloaded to the cpu.

反之,对原始模型降低精度,量化成 8 位或 4 位则更节约显卡,这是后话,这里主要记述使用上面的 Llama-3.1-8B-Instruct 模型的过程以及感受它的强大,可比小瞧了这个 8B 的小家伙。所以在手机上可以离线轻松跑一个 1B 的模型。 阅读全文 >>


http://www.kler.cn/a/414289.html

相关文章:

  • 如何使用 Codegen 加速 React Native 开发?
  • [网络安全]XSS之Cookie外带攻击姿势详析
  • C#身份证识别接口集成、身份证文字信息提取、身份证信息录入
  • 区块链:比特币-Binance
  • 【论文阅读】点云预测-机器人操作
  • Three.js渲染较大的模型之解决方案
  • 重学 Android 自定义 View 系列(八):星星评分控件(RatingBar)
  • Hello World C#
  • uniapp强制修改radio-group内单选组件的状态方法
  • deepin V23笔记本电脑安装NVIDIA闭源驱动经验分享
  • 黑马2024AI+JavaWeb开发入门Day02-JS-VUE飞书作业
  • taro使用createAsyncThunk报错ReferenceError: AbortController is not defined
  • qml调用c++类内函数的三种方法
  • 操作系统的设计哲学:Linux与Windows的对比
  • CRMEB 多商户PHP版 v3.1更新内容
  • 探索运维新视界,CMDB的3D机房功能深度解析
  • JVM(七、性能监控、故障处理工具)
  • vue安装步骤
  • JVM指令集概览:基础与应用
  • 讲懂http和https