当前位置: 首页 > article >正文

要不要入行大模型算法啊?

最近又有不少私信问我关于要不要入行大模型之类的问题, 年初的时候我写过一篇相同主题的笔记,时隔8个月,今时不同往日,想法确实有些变化,再说一说这个问题。

在这里插入图片描述

先讨论算法相关的方向,分成三部分吧pretrain、post-training 和更偏应用的工作

pretrain 的机会应该是越来越少了,还能在这个方向做的应该都是很强的团队了,早期买了几百张卡就来混事那种团队基本都 G了(比如我们)已经不敢评了,只是觉得很强。

post-training 分成两种

一种是以提升通用能力为目的的,比如 openai、国内 qwen 专门做这个的团队。这种也不敢评,强就完了。不过某些看起来好像比较通用的工作,比如近期的那个reflection 模型,我觉得只能叫做以刷榜为目标的’应用”…

第二种是以一个具体的业务场景为目标进行优化的,和我上面所谓偏应用的工作高度交叉。我的大部分工作属于这个部分,做了挺长时间了,所以还是敢说一点的,

先讲现状,目前这块工作有两种典型情况:

第一种是一个特别具体的问题,甚至 prompt 格式都是基本固定的,比如从一段文本里面提取信息输出成一个json。一般就构造一些数据,然后让模型在这些数据上过拟合就行,其实不关心模型的通用能力或者是不是灾难性遗忘之类的问题。这种搞法虽然简单,但是应用中特别多,比如一个专门做 rag 的模型,可能的输入 query 大致就十几类,先做个意图识别决定要不要调用搜索如果要的话就生成一个结构化 search query。比比起写个复杂 prompt 去挑战模型的基础能力不如造几百条数据 SFT 一下。这块甚至可以通过数据工作达到比较复杂的效果,比如我之前做一个多agent 的应用场景,有十来个 agent,一共几十个函数,但是每个 agent 执行的任务相对单一旦流程相对固定。这种情况也可以通过构造比较完整覆盖应用 case 的数据来达到不错的效果。简单总结一下,这一类任务的特点是仅做 SFT,并且是使模型“过拟合”到固定模式,不太关心通用能

第二种是完成特定任务的同时需要模型保留基础能力,这个难度一下就大了非常多。比如我上面提到那个多 agent 的任务,后面发现它对于一些在构造数据之外的、需要模型基础推理能力的地方,效果非常差。但是这种逻辑推理原始模型(如 lama3 instruct)是有的,如果要在保留这种逻辑能力的情况下,再提高模型在我的业务场景的能力,就非常困难。要做这种训练,一般有两种选择,一是在开源的 instruct 模型上面继续训练,大部分情况是 SFT,但是这种开源的instruct 模型往往很容易被破坏,如果采用的训练数据和原始模型分布差异太大,模型效果容易大幅下降。二是自己在 pretrain 模型基础上做完整的 post-training,包括 SFT 和 RLHF,这就要求你的 post-training 水平达到 meta 水平,不然训出来肯定是差的。所以其实很难,

不是妄自菲薄,但是人贵在有自知之明。大部分算法也就是个调包水平,能抄明白就不错了,而第二类问题基本属于抄都没得抄。大部分人其实不配搞这一类问题。所以我觉得可以默认就干干第一类活就行了哈哈哈

然后是应用工作,应用工作里面一大部分就是上面说的,搞数据,做做 SFT,其实没多少正经技术含量。不会的给我几千块钱,包会。还有一块是一些偏工程一点的事情,基于langchain 开发个线上服务啥的。

所以总结下来,现在所谓大模型算法,干的最多的就是写写 prompt、搞点业务数据训个 SFT 了。我觉得如果只是搞这部分工作,没啥太大的价值。除非能接触到其他几类工作,那我觉得还是比较有意义的。

除了大模型之外,我比较熟悉的算法工作还有搜广推,我觉得对比而言,对于应届生或者刚毕业不久的人,似乎做搜广推能锻炼到的能力还会更广泛一点儿。毕竟搜广推是一个很成熟的业务做搜广推业务可以对模型分级、搭建收集线上数据管道来持续迭代等优秀的模式有了解。

不过我自己还是愿意继续做大模型的,我对这个比较有兴趣,愿意尝试一点比较难的工作,

再妄言几句不那么熟悉的工种–产品。我觉得现在做大模型方向的产品似乎是个很好的选择,因为我工作中觉得特别缺这种人,缺乏优秀产品比缺乏优秀算法似乎更是大模型落地路上的障碍,很明显现在大模型业务都在寻求落地,而懂得大模型的产品确实很少。所以如果在这方面有所造诣,应该会是一个好的发展方向。

在大模型时代,我们如何有效的去学习大模型?

现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术,也_想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把都打包整理好,希望能够真正帮助到大家_。

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

三、AI大模型经典PDF书籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四、AI大模型各大场景实战案例

在这里插入图片描述

结语

【一一AGI大模型学习 所有资源获取处(无偿领取)一一】
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈


http://www.kler.cn/a/320330.html

相关文章:

  • 【ArcGISPro】使用AI模型提取要素-提取车辆(目标识别)
  • 实现了两种不同的图像处理和物体检测方法
  • SpringBoot中Maven的定义及国内源配置教程,实现自动获取Jar包
  • vue实现展示并下载后端返回的图片流
  • 本草智控:中药实验管理的智能时代
  • 如何轻松导出所有 WordPress URL 为纯文本格式
  • 怎么ping自己电脑的ip地址
  • 电容笔最建议买哪一款?超新平替电容笔测评推荐,2024必入榜产品
  • 大疆会搞微单相机吗,直接和索尼、佳能、尼康竞争?
  • Redis 高级应用指南
  • JMeter与大模型融合应用之JMeter日志自动检测错误并机器人发送钉钉信息
  • 计算机毕业设计之:资源共享平台的研究和实现(源码+文档+讲解)
  • 最新程序开发IDE工具——Melty
  • 【EPLAN】解决ELM与ELC授权不匹配问题
  • DevExpress WPF中文教程:如何解决行焦点、选择的常见问题?
  • Redis 列表(List)
  • Linux宇宙-1
  • FortiGate OSPF动态路由协议配置
  • 进阶美颜功能技术开发方案:探索视频美颜SDK
  • 计算机视觉中的几何基元:用Python揭开图像的秘密
  • 【Midjourney】如何使用Midjourney生成惊艳的艺术作品:从提示词到完美图像的全攻略
  • 三维手势 handpose 3D RGB 手势3D建模 三维建模-手势舞 >> DataBall
  • 1.pytest基础知识(默认的测试用例的规则以及基础应用)
  • Renesas R7FA8D1BH (Cortex®-M85)的UART使用介绍
  • JavaWeb - 7 - SpringBootWeb入门
  • Oracle(136)什么是UNDO表空间?