当前位置：首页 > article >正文

政安晨的AI大模型训练实践十 - 基于千问的Qwen2.5-VL-3B-Instruct 多模态模型进行微调的基本参数认知

article 2025/2/24 6:54:38

政安晨的个人主页：政安晨

欢迎 👍点赞✍评论⭐收藏

希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正！

我们开始基于LLaMAFactory工具微调Qwen2.5-VL-3B-Instruct这个多模态模型。

开始之前，我们需要在基本术语认知的基础上，对UI中的参数进一步细化理解。

工欲善其事，必先......，所以，先学习。

LoRA（Low-Rank Adaptation）是一种用于微调预训练模型的高效方法，它通过引入低秩矩阵来减少参数数量和计算量。在LoRA的基础上，QLoRA（Quantized LoRA）进一步引入了量化技术，以进一步降低内存和计算需求。

在QLoRA中，量化等级是指对权重矩阵进行量化处理时所使用的位数。不同的量化等级会对模型的精度和性能产生影响：

None ：不进行量化处理，使用全精度浮点数（通常是32位浮点数）。这种方式保持了最高的精度，但占用的内存和计算资源也最多。

8 ：使用8位整数进行量化。这种方式可以显著减少内存占用和计算量，同时仍然保持相对较高的精度。对于许多任务来说，8位量化已经足够满足需求。

4 ：使用4位整数进行量化。这种方式进一步减少了内存占用和计算量，但可能会对模型的精度产生更大的影响。适用于对内存和计算资源有严格限制的场景。

选择合适的量化等级需要权衡模型的精度和资源消耗。一般来说，从高精度到低精度逐步尝试，找到一个既能满足性能要求又能有效节省资源的平衡点。

LLaMAFactory是一个用于训练和微调大型语言模型（LLM）的工具，它支持多种量化算法来优化模型的内存使用和推理速度。上图可以看到有三种不同的量化方法可供选择：bitsandbytes、hq和eetq。

bitsandbytes ：这是一种常用的量化方法，通常指的是将模型权重从浮点数表示转换为低精度整数表示，例如4位或8位整数。这种方法可以显著减少模型的内存占用，并且在某些硬件上可以加速计算。bitsandbytes量化通常会引入一些精度损失，但通过适当的调整和优化，可以在大多数任务上保持良好的性能。

hq ：这可能是指“混合量化”（Hybrid Quantization），一种结合了不同量化技术的方法。混合量化可能会同时使用多种位宽的量化，或者在模型的不同部分应用不同的量化策略，以达到更好的精度-效率权衡。这种方法可以更灵活地适应不同的模型结构和任务需求。

eetq ：这可能是“Equalized Entropy Quantization”的缩写，一种基于熵的量化方法。EETQ通过分析权重分布的熵来确定量化参数，旨在保持量化后权重分布的信息熵与原始分布尽可能接近。这种方法可以更好地保留权重的统计特性，从而在量化过程中减少精度损失。

选择合适的量化方法需要根据具体的模型、任务和硬件条件进行评估和实验。每种方法都有其优缺点，适用于不同的场景。

LLaMAFactory在构建提示词时使用的对话模板是为了规范和优化与大型语言模型（LLM）的交互方式。不同的对话模板定义了如何组织和呈现输入文本，以确保模型能够更好地理解和生成符合预期的回答。每种模板都有其特定的设计和适用场景：

qwen2_vl ：Qwen系列模型的一个版本，专门设计用于视觉和语言任务。该模板可能会包含特定的格式和标记，以便模型能够正确处理图像描述、视觉问答等跨模态任务。

sailor ：这个模板源自某个特定的项目或研究，具有独特的对话结构和指令格式。它可能适用于特定领域的对话生成或信息检索任务。

skywork_01 、solar 、starchat 、telechat 、telechat2 、vicuna 、video_llava 、xuan yuan 、xverse 、yayi 、yi 、yi_vl ：这些模板名称代表了不同的模型、项目或应用场景。例如，vicuna是一个知名的开源LLM项目，其对话模板可能包含了特定的系统消息、用户指令和助手回复格式；而video_llava是一个结合了视频理解能力的模型，其模板会包含处理视频内容的相关指令。

选择合适的对话模板对于构建有效的提示词至关重要。不同的模板会影响模型的理解和生成行为，因此需要根据具体的应用需求和模型特性来选择最合适的模板。通常，开发者会根据实验结果和实际效果来调整和优化对话模板，以获得最佳的交互体验和性能表现。

RoPE（Rotary Positional Embedding）是一种用于处理序列数据中位置信息的方法，特别适用于Transformer模型。在LLaMAFactory中，提供了多种RoPE插值方法来处理不同长度的输入序列。这些方法可以帮助模型更好地理解和生成长文本，尤其是在微调和推理阶段。

以下是图片中列出的几种RoPE插值方法及其解释：

none ：不使用任何RoPE插值方法。这意味着模型将直接使用原始的RoPE编码，而不进行额外的调整。这种方法适用于输入序列长度与训练时一致的情况，但在处理更长或更短的序列时可能会导致性能下降。

linear ：线性插值方法。当输入序列长度与训练时不同（通常更长）时，线性插值会根据已有的RoPE编码线性地计算新的位置嵌入。这种方法简单且计算效率高，但可能无法完全捕捉到位置信息的复杂变化。

dynamic ：动态插值方法。这种插值方法可以根据输入序列的实际长度动态地调整RoPE编码。它通常比线性插值更灵活，能够更好地适应不同长度的序列，从而提高模型在长文本任务中的表现。

yarn ：YARN（Yet Another Rotary Interpolation Method）是一种改进的RoPE插值方法。它通过引入额外的参数和计算步骤来优化插值过程，旨在提供更准确的位置嵌入。YARN方法在处理非常长的序列时表现出色，能够有效减少位置信息的失真。

llama3 ：这可能是针对LLaMA 3模型设计的一种特定的RoPE插值方法。LLaMA 3作为Meta公司开发的第三代LLaMA模型，可能引入了新的技术来优化RoPE编码。该方法可能结合了上述几种插值方法的优点，并针对LLaMA 3模型的特点进行了专门的调整和优化。

选择合适的RoPE插值方法需要考虑模型的具体需求和应用场景。对于大多数情况，线性插值和动态插值已经足够满足需求；而在处理极端长序列或对位置信息有较高要求的任务时，可以尝试使用YARN或LLaMA 3特定的插值方法。

LLaMAFactory 提供了多种加速方式来优化模型的训练和推理过程，以提高效率和性能。这些加速方法通过利用硬件特性和算法优化来减少计算时间和资源消耗。以下是图片中列出的几种加速方式及其解释：

auto ：自动选择加速方式。当选择“auto”时，LLaMAFactory 会根据当前的硬件环境和配置自动选择最适合的加速方法。这种方法可以简化用户的配置工作，确保在不同设备上都能获得较好的性能。

flashattn2 ：FlashAttention 2 是一种高效的注意力机制实现方法。传统的自注意力机制在处理长序列时计算量较大，而 FlashAttention 通过优化内存访问模式和并行计算策略，显著提高了注意力计算的速度和效率。FlashAttention 2 是 FlashAttention 的改进版本，进一步提升了性能和稳定性。

unsloth ：Unsloth 指一种针对特定任务或模型结构的优化方法。它可能通过减少冗余计算、优化数据流等方式来加速模型的运行。具体细节需要参考 LLaMAFactory 的文档或相关研究资料。

liger_kernel ：Liger Kernel 是一种专门设计的计算内核，用于加速特定类型的计算任务。这种内核可能利用了硬件的特殊指令集或架构特性，提供高效的并行计算能力。例如，在 GPU 上使用 CUDA 内核进行矩阵乘法等操作可以大幅提高计算速度。

选择合适的加速方式取决于具体的硬件环境、模型结构和任务需求。通常，用户可以根据实验结果和实际效果来调整和选择最合适的加速方法。在某些情况下，结合使用多种加速方法可以获得更好的性能表现。

LLaMAFactory 提供了多种微调方法，以适应不同的应用场景和需求。这些方法通过调整模型参数的方式，使预训练模型能够更好地适应特定任务或数据集。以下是图片中列出的几种微调方法及其解释：

full ：全量微调。这种方法会更新模型中的所有参数，包括基础层、中间层和输出层的权重。全量微调可以充分利用预训练模型的知识，并根据具体任务进行深度优化。然而，这种方法需要大量的计算资源和时间，且容易导致过拟合问题。

freeze ：冻结微调。在这种方法中，模型的基础层和部分中间层的参数会被冻结，只更新顶层或特定层的参数。冻结微调可以减少计算量和内存消耗，同时保留预训练模型的大部分知识。这种方法适用于对计算资源有限制或希望保持模型泛化能力的场景。

lora ：LoRA（Low-Rank Adaptation）是一种高效的微调方法，它通过引入低秩矩阵来更新模型参数。LoRA 只需要学习少量的额外参数，就能显著提高模型在特定任务上的性能。这种方法不仅减少了计算量和内存占用，还避免了过拟合问题。LoRA 在许多自然语言处理任务中表现出色，成为一种流行的微调策略。

选择合适的微调方法需要考虑多个因素，包括任务复杂度、数据规模、计算资源和时间限制等。通常，对于简单的任务或小规模数据集，可以使用冻结微调或 LoRA 方法；而对于复杂的任务或大规模数据集，则可能需要进行全量微调。在实际应用中，可以通过实验和比较不同方法的效果来确定最佳的微调策略。