当前位置：首页 > article >正文

要不要入行大模型算法啊？

article 2025/2/21 3:43:08

最近又有不少私信问我关于要不要入行大模型之类的问题， 年初的时候我写过一篇相同主题的笔记，时隔8个月，今时不同往日，想法确实有些变化，再说一说这个问题。

在这里插入图片描述

先讨论算法相关的方向，分成三部分吧pretrain、post-training 和更偏应用的工作

pretrain 的机会应该是越来越少了，还能在这个方向做的应该都是很强的团队了，早期买了几百张卡就来混事那种团队基本都 G了(比如我们)已经不敢评了，只是觉得很强。

post-training 分成两种，

一种是以提升通用能力为目的的，比如 openai、国内 qwen 专门做这个的团队。这种也不敢评，强就完了。不过某些看起来好像比较通用的工作，比如近期的那个reflection 模型，我觉得只能叫做以刷榜为目标的’应用”…

第二种是以一个具体的业务场景为目标进行优化的，和我上面所谓偏应用的工作高度交叉。我的大部分工作属于这个部分，做了挺长时间了，所以还是敢说一点的，

先讲现状，目前这块工作有两种典型情况：

第一种是一个特别具体的问题，甚至 prompt 格式都是基本固定的，比如从一段文本里面提取信息输出成一个json。一般就构造一些数据，然后让模型在这些数据上过拟合就行，其实不关心模型的通用能力或者是不是灾难性遗忘之类的问题。这种搞法虽然简单，但是应用中特别多，比如一个专门做 rag 的模型，可能的输入 query 大致就十几类，先做个意图识别决定要不要调用搜索如果要的话就生成一个结构化 search query。比比起写个复杂 prompt 去挑战模型的基础能力不如造几百条数据 SFT 一下。这块甚至可以通过数据工作达到比较复杂的效果，比如我之前做一个多agent 的应用场景，有十来个 agent，一共几十个函数，但是每个 agent 执行的任务相对单一旦流程相对固定。这种情况也可以通过构造比较完整覆盖应用 case 的数据来达到不错的效果。简单总结一下，这一类任务的特点是仅做 SFT，并且是使模型“过拟合”到固定模式，不太关心通用能

第二种是完成特定任务的同时需要模型保留基础能力，这个难度一下就大了非常多。比如我上面提到那个多 agent 的任务，后面发现它对于一些在构造数据之外的、需要模型基础推理能力的地方，效果非常差。但是这种逻辑推理原始模型(如 lama3 instruct)是有的，如果要在保留这种逻辑能力的情况下，再提高模型在我的业务场景的能力，就非常困难。要做这种训练，一般有两种选择，一是在开源的 instruct 模型上面继续训练，大部分情况是 SFT，但是这种开源的instruct 模型往往很容易被破坏，如果采用的训练数据和原始模型分布差异太大，模型效果容易大幅下降。二是自己在 pretrain 模型基础上做完整的 post-training，包括 SFT 和 RLHF，这就要求你的 post-training 水平达到 meta 水平，不然训出来肯定是差的。所以其实很难，

不是妄自菲薄，但是人贵在有自知之明。大部分算法也就是个调包水平，能抄明白就不错了，而第二类问题基本属于抄都没得抄。大部分人其实不配搞这一类问题。所以我觉得可以默认就干干第一类活就行了哈哈哈

然后是应用工作，应用工作里面一大部分就是上面说的，搞数据，做做 SFT，其实没多少正经技术含量。不会的给我几千块钱，包会。还有一块是一些偏工程一点的事情，基于langchain 开发个线上服务啥的。

所以总结下来，现在所谓大模型算法，干的最多的就是写写 prompt、搞点业务数据训个 SFT 了。我觉得如果只是搞这部分工作，没啥太大的价值。除非能接触到其他几类工作，那我觉得还是比较有意义的。

除了大模型之外，我比较熟悉的算法工作还有搜广推，我觉得对比而言，对于应届生或者刚毕业不久的人，似乎做搜广推能锻炼到的能力还会更广泛一点儿。毕竟搜广推是一个很成熟的业务做搜广推业务可以对模型分级、搭建收集线上数据管道来持续迭代等优秀的模式有了解。

不过我自己还是愿意继续做大模型的，我对这个比较有兴趣，愿意尝试一点比较难的工作，

再妄言几句不那么熟悉的工种–产品。我觉得现在做大模型方向的产品似乎是个很好的选择，因为我工作中觉得特别缺这种人，缺乏优秀产品比缺乏优秀算法似乎更是大模型落地路上的障碍，很明显现在大模型业务都在寻求落地，而懂得大模型的产品确实很少。所以如果在这方面有所造诣，应该会是一个好的发展方向。

在大模型时代，我们如何有效的去学习大模型？

现如今大模型岗位需求越来越大，但是相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术，也_想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把都打包整理好，希望能够真正帮助到大家_。

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，下面是我整理好的一套完整的学习路线，希望能够帮助到你们学习AI大模型。

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。