当前位置：首页 > article >正文

DataWhale 组队学习 Ollama教程 task2 概念梳理

article 2025/2/24 9:26:03

GGUF（GPT-Generated Unified Format）：
- 一种用于保存微调语言模型的文件格式，旨在方便模型在不同平台和环境之间的共享和导入。
- 支持多种量化格式，能够有效减少模型文件大小。
- 前身为 GGML（GPT-Generated Model Language），GGUF 解决了 GGML 的灵活性不足、兼容性差和难以维护的问题。
Safetensors：
- 一种用于存储深度学习模型权重的文件格式，注重安全性、效率和易用性。
- 目前社区支持有限，但可以通过转换为 GGUF 格式后导入 Ollama。
模型量化：
- 将高精度浮点数模型转换为低精度模型的技术，目的是减少模型大小和计算成本，同时尽量保持模型准确性。
- 适用于资源有限的设备（如 CPU 或移动设备）。
自定义 Prompt：
- 通过设置系统消息（SYSTEM）和参数（如温度、上下文窗口大小），调整模型生成文本的行为和风格。
- 例如，可以让模型模仿特定角色（如超级马里奥）进行对话。
llama.cpp：
- 一个开源项目，支持将 HuggingFace 模型转换为 GGUF 格式，并提供模型量化和推理功能。

从 GGUF 导入模型：
- 下载 GGUF 文件。
- 创建 Modelfile，指定模型路径。
- 使用 ollama create 命令创建模型。
- 运行模型进行测试。
从 Pytorch 或 Safetensors 导入模型：
- 下载模型文件（如 llama-3）。
- 创建 Modelfile，指定模型路径。
- 使用 ollama create 命令创建模型。
- 运行模型进行测试（注意：此功能仍在社区开发中，可能存在不稳定性）。
由模型直接导入：
- 从 HuggingFace 下载模型。
- 使用 llama.cpp 将模型转换为 GGUF 格式。
- 对模型进行量化以减少资源占用。
- 创建并运行模型。
自定义 Prompt：
- 创建 Modelfile，设置系统消息和参数（如温度、上下文窗口大小）。
- 使用 ollama create 命令创建自定义模型。
- 运行模型，观察生成文本是否符合预期行为。
模型上传与共享：
- 将本地生成的 GGUF 模型上传到 HuggingFace Hub。
- 使用 HuggingFace API 完成上传，确保模型可被其他人访问和使用。

Modelfile：
- 用于定义模型来源、参数和系统消息的配置文件。
- 支持从本地文件、HuggingFace 模型或量化后的模型导入。
Ollama CLI 命令：
- ollama create：从 Modelfile 创建模型。
- ollama run：运行已创建的模型。
- ollama list：查看本地已创建的模型列表。
HuggingFace Hub API：
- 提供模型下载和上传功能，支持通过 snapshot_download 下载模型，通过 HfApi 上传模型。
llama.cpp：
- 提供模型转换、量化和推理功能，支持将 HuggingFace 模型转换为 GGUF 格式。