当前位置：首页 > article >正文

使用 FastLanguageModel 的 from_pretrained 方法加载一个已经预训练好的大语言模型及其对应的分词器（tokenizer）

article 2025/4/1 3:10:50

代码分析1

    model, tokenizer = FastLanguageModel.from_pretrained(
        model_name=model_name,
        max_seq_length=max_seq_length,
        load_in_4bit=load_in_4bit,
    )

使用 FastLanguageModel 的 from_pretrained 方法加载一个已经预训练好的大语言模型及其对应的分词器（tokenizer）。

model_name：指定了你要加载的预训练模型，比如 “meta-llama/Llama-3.1-8B”，这表示你将使用 Llama 3.1 的8B版本。
max_seq_length：控制模型每次能处理的最大输入长度（以 token 为单位），例如设置为 2048，表示模型一次最多能处理 2048 个 token。
load_in_4bit：这是一个布尔值，表示是否使用 4 位量化加载模型。如果设置为 False，就不使用 4 位量化，而是加载全精度的模型参数。

举例说明

假设我们有以下参数：

model_name: “meta-llama/Llama-3.1-8B”
max_seq_length: 2048
load_in_4bit: False

那么，调用

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="meta-llama/Llama-3.1-8B",
    max_seq_length=2048,
    load_in_4bit=False,
)

的过程可以这样理解：

加载模型：系统会找到 “meta-llama/Llama-3.1-8B” 这个预训练模型，并把它加载进来。这个模型的参数量非常大（8B表示大约80亿个参数），能够处理复杂的语言任务。
设置最大序列长度：加载过程中，模型会被配置成能处理长度最多为 2048 个 token 的文本。如果你输入的文本超过了这个长度，模型可能会截断或者分批处理。
量化设置：因为 load_in_4bit=False，所以模型不会采用4位量化技术加载。这意味着模型将以较高精度（比如16位或32位浮点数）加载，虽然这会占用更多显存，但有助于保持模型的性能和准确性。

总结

简单来说，这段代码就是在告诉系统：“请加载一个名为 ‘meta-llama/Llama-3.1-8B’ 的预训练模型，配置它一次能处理最多2048个 token，并且不要使用4位量化（保持全精度）。”这样做的好处是，你得到一个既能处理长文本又能保持高精度的模型和对应的分词器，方便后续进行微调或推理任务。

代码分析2

   model = FastLanguageModel.get_peft_model(
        model,
        r=lora_rank,
        lora_alpha=lora_alpha,
        lora_dropout=lora_dropout,
        target_modules=target_modules,
    )

这段代码的作用是将之前加载好的预训练模型“包装”一下，加入低秩适配（LoRA）模块，从而实现参数高效的微调。也就是说，原本大模型的所有参数都不需要更新，而只在选定的几个子模块（如 q_proj、k_proj 等）上添加一些额外的“适配器”，在微调时只训练这些小参数。这样既能达到调整模型输出的效果，又能大幅降低计算和内存的开销。

具体来说：

model：就是已经加载好的预训练大模型。
r=lora_rank：这里的 r 表示 LoRA 模块中低秩矩阵的“秩”（rank），数值 32 意味着在每个目标模块中，我们用一个 32 维的低秩矩阵来近似原有权重的更新。
lora_alpha=lora_alpha：这是一个缩放因子，数值 32 意味着低秩更新会被放大 32 倍，以便更好地调整模型输出。
lora_dropout=lora_dropout：这里设为 0.0，表示在 LoRA 模块中不使用 dropout，通常 dropout 用于防止过拟合，但在这个场景下认为不需要额外的正则化。
target_modules=target_modules：这是一个列表，指定了在哪些子模块上应用 LoRA，比如 “q_proj”、“k_proj”、“v_proj” 等，这些通常是 Transformer 模型中关键的投影层。

数值举例说明

假设我们有以下参数：

lora_rank = 32：这意味着我们在指定的模块中会加入一个形状为（原始维度, 32）的低秩矩阵，从而捕捉模型更新时的重要变化。
lora_alpha = 32：所有通过低秩矩阵得到的更新会乘以 32，这相当于放大了这些细微调整的影响，使得微调效果更明显。
lora_dropout = 0.0：在这些额外的参数上，不做随机“丢弃”，保证每次更新时都使用完整的信息。
target_modules = [“q_proj”, “k_proj”, “v_proj”, “up_proj”, “down_proj”, “o_proj”, “gate_proj”]：只有这些模块会被“注入”LoRA模块，其他部分的参数保持不变。

调用

model = FastLanguageModel.get_peft_model(
    model,
    r=lora_rank,
    lora_alpha=lora_alpha,
    lora_dropout=lora_dropout,
    target_modules=target_modules,
)

之后，返回的新模型会在每个指定的模块（比如 Transformer 中的 q_proj 层）上增加一层低秩适配器，这些适配器包含的参数远少于原始模型参数，比如原本 q_proj 层可能有几千万个参数，加入 LoRA 后只需要额外训练数十万个参数。这样，在进行微调时，只需要更新这些小模块，而不必调整整个大模型，从而既节省资源，又能保持原有模型的大部分知识。

再啰嗦几句~~

lora_dropout = 0.0：在这些额外的参数上，不做随机“丢弃”，保证每次更新时都使用完整的信息。
在深度学习中，“dropout”是一种正则化技术，用来在训练时随机“丢弃”一部分神经元（即将它们的输出设置为0），从而防止模型过拟合。

lora_dropout = 0.0 表示在使用 LoRA（低秩适配）模块时，不采用这种随机丢弃策略。也就是说，每次训练时，所有新增的低秩适配器参数都会被完整地利用，不会有任何部分被“屏蔽”掉。
举例说明：假设在某个层的 LoRA 模块中有10个神经元，如果设置 dropout 为 0.5（50%的概率丢弃），那么每次训练时大约会随机“关闭”5个神经元，只用剩下5个来更新参数。而如果 dropout 设置为 0.0，则这10个神经元每次都会全被激活，用于计算和更新。

总的来说，这句话的意思是：在低秩适配器中，我们选择不使用 dropout，这样可以保证在每次训练过程中，所有额外的参数都能参与计算，提供完整的信息。这通常适用于数据量充足或对丢失信息非常敏感的场景。

总结

这段代码就是把预训练的大模型通过低秩适配技术包装起来，只在关键模块中添加一些额外的参数（例如，32维的低秩矩阵，并用一个因子 32 进行缩放），以便在后续微调时只更新这部分参数，从而大幅节省计算资源并降低内存占用，同时保持模型性能。

4位量化和其他精度的对比

4位量化主要是为了在内存和计算效率上取得突破，让大模型能够在资源受限的设备上运行。简单来说：

优势：
- 节省内存：使用4位量化后，模型参数占用的显存大大减少。比如原本用16位或32位表示一个参数，转换成4位就能减少75%或更多的存储空间。
- 加速计算：较低的精度计算可以加快推理速度，特别是在硬件支持低精度运算的情况下。
劣势：
- 精度损失：4位量化可能会引入一定的数值误差，导致模型生成的答案和高精度版本相比可能略有偏差，表现上可能稍逊一些。
- 稳定性问题：在某些复杂任务上，量化后的模型可能不如高精度模型稳定，尤其是对细节要求较高的场景。

举例说明

假设你有一个大模型，如果不量化（使用16位浮点数加载）它需要占用20GB显存，运算时也非常精确；
而如果使用4位量化，显存可能只需要5GB甚至更少，但可能会出现如下情况：

在大部分常规任务（如问答、对话）中，生成的答案和高精度版本几乎没有太大差别；
但在一些对细微语义或逻辑严谨性要求极高的任务上，可能会有轻微的性能下降，比如答案的准确率略低了1%-2%。

总结

总的来说，4位量化在大多数应用场景下是一个折中方案——你可以大幅节省资源和加快推理速度，只是可能会付出非常轻微的精度损失。如果你的硬件资源紧张，或者对生成结果的绝对精度要求不是极端高，那么4位量化通常是非常划算的选择。

不同的业务场景对精度和性能的要求

4位量化主要是用来降低模型的内存占用和加速推理，但它也会带来一定的精度损失。因此，不同的业务场景对精度和性能的要求不同，可以考虑使用4位量化或者放弃使用。

可以使用4位量化的场景

实时聊天和对话系统
- 说明：在用户问答、对话机器人等场景中，响应速度和内存效率非常重要。即便存在轻微的精度下降，也不会对整体体验造成太大影响。
- 举例：一个客服机器人在回答常规问题时，使用4位量化可以减少显存需求，加快响应速度，同时生成的答案与高精度模型相比差别不大。
推荐系统和搜索引擎
- 说明：在这些场景下，模型主要用于生成候选项、做排序、提供参考答案等，轻微的精度损失通常不会显著影响结果。
- 举例：在新闻推荐或产品搜索中，4位量化的模型能够更快地处理大量请求，虽然个别排序分数可能有微小差异，但整体用户体验不会受到明显影响。
边缘设备或资源受限的部署
- 说明：在嵌入式设备、移动设备或其他显存较小的硬件上部署大模型时，4位量化可以大幅降低资源消耗，使得在有限硬件上运行大模型成为可能。
- 举例：在智能家居设备中，内存有限的情况下使用4位量化模型进行语音识别或简单对话，是一个折中的好选择。

不适合使用4位量化的场景

高精度要求的关键业务
- 说明：在金融分析、医疗诊断、法律决策等场景中，哪怕微小的误差都可能导致严重后果，因此需要保持高精度。
- 举例：在医疗影像分析或病症诊断中，模型的每个预测都可能直接影响病人的治疗方案，此时使用全精度（如16位或32位）比4位量化更合适。
科学研究和模型开发阶段
- 说明：在模型开发、细粒度微调或需要做大量误差分析的研究场景中，高精度可以确保实验结果的可靠性，避免因量化误差引入额外噪音。
- 举例：在开发新算法或进行理论实验时，如果用4位量化，可能会使得实验结果偏离真实表现，从而影响研究结论。
要求高稳定性和一致性的在线服务
- 说明：对于那些对回答质量要求极高且不能容忍任何波动的场景，比如在线金融交易、风险控制等，精度和稳定性至关重要，使用较高精度能减少潜在风险。
- 举例：在线交易系统中，预测结果直接关系到资金安全，任何轻微的错误都可能带来巨大损失，此时最好使用高精度模型。