当前位置：首页 > article >正文

【科研积累】大模型的认知笔记

article 2025/2/19 6:28:15

1 认识大模型

大模型是人工智能发展的一个里程碑，人工智能包括机器学习，机器学习包括监督学习、无监督学习和强化学习，深度学习神经网络也是机器学习的一个分支，生成式人工智能是深度学习的一个子集，ChatGPT和Stable Diffusion都是其中的一部分，大模型就可以说是生成式人工智能。

大模型即为Foundational Models，基础模型，是一类具有大量参数、能在极为广泛的数据上进行训练、并适用于多种任务的预训练深度学习模型。

大模型的训练分为三个阶段：

预训练（Pre-training）：大量学习语料，但并未学习领会人类意图；
监督微调（SFT，Supervised Fine Tuning）：学习领会人类意图，但可能并不符合人类偏好；
基于人类反馈的强化学习（RLHF，Reforcement Learning from Human Feedback）：学习如何使得回答符合人类偏好。

大模型分为大预言模型（LLM）和多模态模型，多模态模型又可以分为CV模型、音视频模型等。

大模型的工作流程分为两步走，第一步是分词和词表映射，第二步是自回归生成文本。

认识了大模型的基础概念后，就可以开始使用，在使用过程中我们会有更多的需求，这就需要对大模型进行改进：

如果大模型可以解决我们的问题，但生成内容的质量有待提升，我们可以尝试改进提问方式（prompt、CoT、ToT等）；
如果在我们业务场景中，大模型总是在编造一些内容，也就是出现幻觉，我们可以考虑将检索和大模型结合起来减少幻觉（RAG，Retrieve Augmented Generation）；
如果我们需要大模型在内容生成上稳定地遵循特定风格或者格式，则可以考虑微调大模型。

2 提示词工程

直接提问，也成为零样本提示（Zero-Shot Prompting），提示需要简洁、具体且逻辑清晰，适用于目标明确、问题简单、答案确定且唯一的场景；

增加示例，也成为少样本提示（Few-Shot Prompting），让大模型按照我们的具体格式要求进行输出，或者提供进一步推理的参考；

分配角色，让大模型在特定角色视角下生成回答，从而得到不同风格的答案；

拆解复杂任务，让大语言模型分步来思考问题，成为思维链（Chain-of-Thought Prompting，CoT），不仅寻求答案，还要求模型解释其给出答案的步骤，思维链也分为没有示例的零样本和有示例的少样本；

使用提示词框架，可以得到更加专业、准确的回答。

3 大模型插件

大模型应用使用插件的决策流程和人类使用工具的流程是一样的。首先接收输入，判断是否需要使用工具及选择合适的工具，然后使用工具并获得返回结果进行后续推理生成。

4 RAG

RAG（Retrieval Augmented Generation），即为检索增强生成方法，包括三个步骤，建立索引、检索、生成，首先建立知识库索引，大模型检索知识库，根据提示词和检索到的资料生成答案。

建立索引：首先要清洗和提取原始数据，将 PDF、Docx等不同格式的文件解析为纯文本数据；然后将文本数据分割成更小的片段（chunk）；最后将这些片段经过嵌入模型转换成向量数据（此过程叫做embedding），并将原始语料块和嵌入向量以键值对形式存储到向量数据库中，以便进行后续快速且频繁的搜索。这就是建立索引的过程。

检索生成：系统会获取到用户输入，随后计算出用户的问题与向量数据库中的文档块之间的相似度，选择相似度最高的K个文档块（K值可以自己设置）作为回答当前问题的知识。知识与问题会合并到提示词模板中提交给大模型，大模型给出回复。这就是检索生成的过程。