当前位置：首页 > article >正文

深度学习-74-大语言模型LLM之基于API与llama.cpp启动的模型进行交互

article 2025/2/28 23:56:42

文章目录

1 大模型量化方法
- 1.1 GPTQ(后训练量化)
- 1.2 GGUF(支持CPU)
- 1.3 AWQ(后训练量化)
2 llama.cpp
- 2.1 功能
- - 2.1.1 Chat(聊天)
  - 2.1.2 Completion(补全)
- 2.2 运行开源LLM
- - 2.2.1 下载安装llama.cpp
  - 2.2.2 下载gguf格式的模型
  - 2.2.3 运行大模型
3 API访问
- 3.1 调用补全
- 3.2 调用聊天
- 3.3 提取结果信息
- 3.4 模拟聊天
4 参考附录

1 大模型量化方法

大语言模型的参数通常以高精度浮点数存储，这导致模型推理需要大量计算资源。

量化技术通过将高精度数据类型存储的参数转换为低精度数据类型存储，可以在不改变模型参数量和架构的前提下加速推理过程。这种方法使得模型的部署更加经济高效，也更具可行性。

1.1 GPTQ(后训练量化)

GPTQ: Post-Training Quantization for GPT Models

GPTQ是一种4位量化的训练后量化(PTQ)方法，主要关注GPU推理和性能。

该方法背后的思想是，尝试通过最小化该权重的均方误差将所有权重压缩到4位。在推理过程中，它将动态地将其权重去量化为float16，以提高性能。

GPTQ常用4bit，8bit量化。

1.2 GGUF(支持CPU)

GGUF：GPT-Generated Unified Format

GGUF(以前称为GGML)是一种量化方法，允许用户使用CPU来运行LLM，但也可以将其某些层加载到GPU以提高速度。

虽然使用CPU进行推理通常比使用GPU慢，但对于那些在CPU或苹果设备上运行模型的人来说，这是一种非常好的格式。

1.3 A

http://www.kler.cn/a/444654.html

相关文章：

如何对 Node.js更好的理解？都有哪些优缺点？哪些应用场景？

智能客户服务：AI与大数据的革新力量

element plus的table组件，点击table的数据是，会出现一个黑色边框

Java 8新特性：Lambda表达式与Stream API的实践指南

编译原理复习---正则表达式+有穷自动机

《Vue 响应式数据原理》

微服务设计原则——功能设计

分布式超低耦合，事件驱动架构（EDA）深度解析

C#+OpenCv深度学习开发(常用模型汇总)

docker 安装 mysql8.0容器外无法连接

python+opencv+棋盘格实现相机标定及相对位姿估计

蓝叠模拟器adb连接并配置网络代理

sql server 字符集和排序

通用文档识别接口包含PDF文档识别么？集成方式是什么

内容与资讯API优质清单

医学数据集肺肿瘤分割数据集labelme格式687张1类别

D 咖智能饮品机器人：开启商业新篇

源码分析之Openlayers中OverviewMap鹰眼控件

nginx模块ngx-fancyindex 隐藏标题中的 / 和遇到的坑

威沙特(Wishart)分布