DataWhale 组队学习 Ollama教程 task2 概念梳理
1. 核心知识概念
-
GGUF(GPT-Generated Unified Format):
-
一种用于保存微调语言模型的文件格式,旨在方便模型在不同平台和环境之间的共享和导入。
-
支持多种量化格式,能够有效减少模型文件大小。
-
前身为 GGML(GPT-Generated Model Language),GGUF 解决了 GGML 的灵活性不足、兼容性差和难以维护的问题。
-
-
Safetensors:
-
一种用于存储深度学习模型权重的文件格式,注重安全性、效率和易用性。
-
目前社区支持有限,但可以通过转换为 GGUF 格式后导入 Ollama。
-
-
模型量化:
-
将高精度浮点数模型转换为低精度模型的技术,目的是减少模型大小和计算成本,同时尽量保持模型准确性。
-
适用于资源有限的设备(如 CPU 或移动设备)。
-
-
自定义 Prompt:
-
通过设置系统消息(SYSTEM)和参数(如温度、上下文窗口大小),调整模型生成文本的行为和风格。
-
例如,可以让模型模仿特定角色(如超级马里奥)进行对话。
-
-
llama.cpp:
-
一个开源项目,支持将 HuggingFace 模型转换为 GGUF 格式,并提供模型量化和推理功能。
-
2. 操作流程概念
-
从 GGUF 导入模型:
-
下载 GGUF 文件。
-
创建
Modelfile
,指定模型路径。 -
使用
ollama create
命令创建模型。 -
运行模型进行测试。
-
-
从 Pytorch 或 Safetensors 导入模型:
-
下载模型文件(如 llama-3)。
-
创建
Modelfile
,指定模型路径。 -
使用
ollama create
命令创建模型。 -
运行模型进行测试(注意:此功能仍在社区开发中,可能存在不稳定性)。
-
-
由模型直接导入:
-
从 HuggingFace 下载模型。
-
使用
llama.cpp
将模型转换为 GGUF 格式。 -
对模型进行量化以减少资源占用。
-
创建并运行模型。
-
-
自定义 Prompt:
-
创建
Modelfile
,设置系统消息和参数(如温度、上下文窗口大小)。 -
使用
ollama create
命令创建自定义模型。 -
运行模型,观察生成文本是否符合预期行为。
-
-
模型上传与共享:
-
将本地生成的 GGUF 模型上传到 HuggingFace Hub。
-
使用 HuggingFace API 完成上传,确保模型可被其他人访问和使用。
-
3. 关键操作工具与方法
-
Modelfile:
-
用于定义模型来源、参数和系统消息的配置文件。
-
支持从本地文件、HuggingFace 模型或量化后的模型导入。
-
-
Ollama CLI 命令:
-
ollama create
:从Modelfile
创建模型。 -
ollama run
:运行已创建的模型。 -
ollama list
:查看本地已创建的模型列表。
-
-
HuggingFace Hub API:
-
提供模型下载和上传功能,支持通过
snapshot_download
下载模型,通过HfApi
上传模型。
-
-
llama.cpp:
-
提供模型转换、量化和推理功能,支持将 HuggingFace 模型转换为 GGUF 格式。
-