要不要入行大模型算法啊?
最近又有不少私信问我关于要不要入行大模型之类的问题, 年初的时候我写过一篇相同主题的笔记,时隔8个月,今时不同往日,想法确实有些变化,再说一说这个问题。
先讨论算法相关的方向,分成三部分吧pretrain、post-training 和更偏应用的工作
pretrain 的机会应该是越来越少了,还能在这个方向做的应该都是很强的团队了,早期买了几百张卡就来混事那种团队基本都 G了(比如我们)已经不敢评了,只是觉得很强。
post-training 分成两种,
一种是以提升通用能力为目的的,比如 openai、国内 qwen 专门做这个的团队。这种也不敢评,强就完了。不过某些看起来好像比较通用的工作,比如近期的那个reflection 模型,我觉得只能叫做以刷榜为目标的’应用”…
第二种是以一个具体的业务场景为目标进行优化的,和我上面所谓偏应用的工作高度交叉。我的大部分工作属于这个部分,做了挺长时间了,所以还是敢说一点的,
先讲现状,目前这块工作有两种典型情况:
第一种是一个特别具体的问题,甚至 prompt 格式都是基本固定的,比如从一段文本里面提取信息输出成一个json。一般就构造一些数据,然后让模型在这些数据上过拟合就行,其实不关心模型的通用能力或者是不是灾难性遗忘之类的问题。这种搞法虽然简单,但是应用中特别多,比如一个专门做 rag 的模型,可能的输入 query 大致就十几类,先做个意图识别决定要不要调用搜索如果要的话就生成一个结构化 search query。比比起写个复杂 prompt 去挑战模型的基础能力不如造几百条数据 SFT 一下。这块甚至可以通过数据工作达到比较复杂的效果,比如我之前做一个多agent 的应用场景,有十来个 agent,一共几十个函数,但是每个 agent 执行的任务相对单一旦流程相对固定。这种情况也可以通过构造比较完整覆盖应用 case 的数据来达到不错的效果。简单总结一下,这一类任务的特点是仅做 SFT,并且是使模型“过拟合”到固定模式,不太关心通用能
第二种是完成特定任务的同时需要模型保留基础能力,这个难度一下就大了非常多。比如我上面提到那个多 agent 的任务,后面发现它对于一些在构造数据之外的、需要模型基础推理能力的地方,效果非常差。但是这种逻辑推理原始模型(如 lama3 instruct)是有的,如果要在保留这种逻辑能力的情况下,再提高模型在我的业务场景的能力,就非常困难。要做这种训练,一般有两种选择,一是在开源的 instruct 模型上面继续训练,大部分情况是 SFT,但是这种开源的instruct 模型往往很容易被破坏,如果采用的训练数据和原始模型分布差异太大,模型效果容易大幅下降。二是自己在 pretrain 模型基础上做完整的 post-training,包括 SFT 和 RLHF,这就要求你的 post-training 水平达到 meta 水平,不然训出来肯定是差的。所以其实很难,
不是妄自菲薄,但是人贵在有自知之明。大部分算法也就是个调包水平,能抄明白就不错了,而第二类问题基本属于抄都没得抄。大部分人其实不配搞这一类问题。所以我觉得可以默认就干干第一类活就行了哈哈哈
然后是应用工作,应用工作里面一大部分就是上面说的,搞数据,做做 SFT,其实没多少正经技术含量。不会的给我几千块钱,包会。还有一块是一些偏工程一点的事情,基于langchain 开发个线上服务啥的。
所以总结下来,现在所谓大模型算法,干的最多的就是写写 prompt、搞点业务数据训个 SFT 了。我觉得如果只是搞这部分工作,没啥太大的价值。除非能接触到其他几类工作,那我觉得还是比较有意义的。
除了大模型之外,我比较熟悉的算法工作还有搜广推,我觉得对比而言,对于应届生或者刚毕业不久的人,似乎做搜广推能锻炼到的能力还会更广泛一点儿。毕竟搜广推是一个很成熟的业务做搜广推业务可以对模型分级、搭建收集线上数据管道来持续迭代等优秀的模式有了解。
不过我自己还是愿意继续做大模型的,我对这个比较有兴趣,愿意尝试一点比较难的工作,
再妄言几句不那么熟悉的工种–产品。我觉得现在做大模型方向的产品似乎是个很好的选择,因为我工作中觉得特别缺这种人,缺乏优秀产品比缺乏优秀算法似乎更是大模型落地路上的障碍,很明显现在大模型业务都在寻求落地,而懂得大模型的产品确实很少。所以如果在这方面有所造诣,应该会是一个好的发展方向。
在大模型时代,我们如何有效的去学习大模型?
现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
掌握大模型技术你还能拥有更多可能性:
• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;
• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;
• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;
• 更优质的项目可以为未来创新创业提供基石。
可能大家都想学习AI大模型技术,也_想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把都打包整理好,希望能够真正帮助到大家_。
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈
一、AGI大模型系统学习路线
很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF书籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型各大场景实战案例
结语
【一一AGI大模型学习 所有资源获取处(无偿领取)一一】
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈