通俗易懂的介绍LLM大模型技术常用专业名词(专业版)
通俗易懂的介绍LLM大模型技术常用专业名词
一、基础架构与核心组件
-
神经网络
-
解释:模仿人脑神经元连接的计算网络,像乐高积木一样分层堆叠处理信息。
-
示例:识别猫狗照片的CNN网络,底层识别线条,高层识别耳朵形状。
-
-
Transformer
-
解释:LLM的核心架构,通过“自注意力”让模型动态关注文本中的重要部分。
-
类比:阅读时用荧光笔划重点,不同颜色代表不同关注程度。
-
示例:翻译句子时,模型自动关联“他”和“医生”的代词指代。
-
-
注意力机制 (Attention Mechanism)
-
解释:让模型在处理每个词时,计算与其他词的关联权重。
-
示例:翻译“Apple”时,根据上下文判断是指水果还是公司。
-
二、模型训练方法论
-
自监督学习 (Self-Supervised Learning)
-
解释:让模型从数据本身生成标签(如预测被遮盖的词语)。
-
示例:BERT通过填空“北京是中国的[首都]”学习语义。
-
-
模型预训练
-
解释:用海量通用数据(如互联网文本)训练模型“通识能力”。
-
类比:医学生先学基础解剖再专攻外科。
-
示例:GPT-3用3000亿单词预训练后,能写诗、编程、聊哲学。
-
-
模型微调
-
解释:在预训练模型基础上,用专业数据精细化调整。
-
示例:让通用GPT-3学习法律条文,变成合同审查助手。
-
-
指令微调 (Instruction Tuning)
-
解释:通过“指令-响应”数据教会模型理解人类意图。
-
示例:输入“写一首爱情诗”,输出押韵的诗歌而非散文。
-
三、模型核心能力
-
零样本学习 (Zero-Shot Learning)
-
解释:无需额外训练,直接处理新任务。
-
示例:让从没学过画图的模型生成“赛博朋克风格的猫咪”。
-
-
小样本学习 (Few-Shot Learning)
-
解释:通过少量示例快速掌握新任务。
-
示例:给3个中译英例句,模型就能翻译新句子。
-
-
思维链 (Chain-of-Thought)
-
解释:让模型分步骤展示推理过程,提升准确性。
-
示例:解数学题时先写“第一步:计算括号内结果...”。
-
四、输入输出控制
-
提示词工程 (Prompt Engineering)
-
解释:设计提问方式引导模型输出最佳答案。
-
技巧:明确角色(“你是一个历史学家”)、指定格式(“用表格列出”)。
-
示例:对比“翻译这句话” vs “以商务口语风格翻译这句话”。
-
-
温度参数 (Temperature)
-
解释:控制生成内容的随机性:温度低→保守稳定,温度高→创意发散。
-
示例:写小说时调高温度(0.8),写法律文件时调低(0.2)。
-
-
Top-p采样 (Nucleus Sampling)
-
解释:仅从概率累计达p%的候选词中随机选择,平衡质量与多样性。
-
示例:p=0.9时,排除低概率的离谱选项,但保留合理变化。
-
五、关键技术应用
-
RAG增强检索 (Retrieval-Augmented Generation)
-
解释:先查资料库再生成答案,减少胡编乱造。
-
示例:客服机器人先搜索产品手册,再回答用户问题。
-
-
知识蒸馏 (Knowledge Distillation)
-
解释:把大模型的能力“压缩”到小模型,方便部署。
-
类比:教授把毕生知识写成教科书供学生学习。
-
示例:将GPT-4的能力迁移到手机端小模型。
-
六、系统与交互设计
-
Agent智能体
-
解释:能自主规划、使用工具(搜索/计算器)的AI助手。
-
示例:AI自动完成“查机票→比价→订票→发确认邮件”全流程。
-
-
记忆存储
-
解释:长期记忆用户偏好和历史对话。
-
实现:用向量数据库存储关键信息,供后续对话检索。
-
示例:记住用户说“我对花生过敏”,后续推荐食谱时自动排除。
-
七、安全与伦理挑战
-
对齐 (Alignment)
-
解释:让模型目标与人类价值观一致,避免有害输出。
-
方法:RLHF(基于人类反馈的强化学习)。
-
示例:拒绝生成教唆犯罪的回答。
-
-
幻觉检测 (Hallucination Detection)
-
解释:识别模型生成的事实性错误。
-
方案:交叉验证知识库、置信度阈值过滤。
-
八、补充关键术语表
术语 | 一句话解释 | 生活化示例 |
---|---|---|
Embedding | 将文字转换为数字向量的技术 | 把“猫”变成[0.2, -0.5, 1.3...]的300维坐标 |
LoRA | 高效微调技术,只训练部分参数 | 给模型打补丁而不是重装系统 |
MoE (Mixture of Experts) | 让不同专家模块处理不同任务 | 医院分科室问诊:内科看感冒,骨科治骨折 |
灾难性遗忘 | 学新知识时忘记旧技能 | 背完英语单词后忘了怎么说法语 |
逻辑结构说明
-
从基础到应用:先理解模型如何构建(Transformer),再学习训练方法(预训练/微调),最后看实际应用(Agent/RAG)。
-
输入到输出全流程:涵盖用户如何提问(提示工程)、模型如何思考(思维链)、如何控制结果(温度参数)。
-
技术+伦理双视角:不仅解释能力,也强调安全对齐、幻觉检测等现实问题。
-
类比降低门槛:用医院分科、打补丁等生活化比喻解释技术概念。
此版本可作为LLM领域的“概念地图”,适合技术人员快速查漏补缺,也方便非技术读者理解核心思想。