当前位置: 首页 > article >正文

吴恩达:《State of AI report》展现2024的主要趋势和突破(三)

图片

万字长文,2024AI行业的科研角力

©作者|Zhongmei

来源|神州问学

前言

吴恩达的网站在十月中旬发表了一篇名为《A Year of Contending Forces》的文章,该文章是围绕着一个名为《State of AI Report - 2024》的年度报告的总结和点评。该报告由Nathan Benaich和Air Street Capital团队制作,这是该报告的第七年,新报告记录了过去一年推动AI发展的强相互作用力:开源与专有技术、公共与私人融资、创新与谨慎,汇聚了来自于2024年的研究论文、新闻文章、财报等的亮点。本文将对原报告内容进行解读。今天将从报告的第97页开始,之前的内容请看之前连载的两篇

吴恩达:《State of AI report》展现2024的主要趋势和突破(一)

吴恩达:《State of AI report》展现2024的主要趋势和突破(二)

为什么觉得这篇报告重要?

该报告是从投资者的角度审视了上次报告之后的一年时间里AI的发展,力图分析其中的变化并挖掘出趋势。作者们深入研究了今年的研究发现、商业交易和政治动态,希望以此为下个一年的AI提供全面的分析。

报告中的关键信息

报告中考虑了以下关键维度:

●研究:技术突破及其能力。

●行业:AI的商业应用领域及其商业影响。

●政治:AI的监管,其经济影响以及AI不断演变的地缘政治。

●安全:识别和缓解未来高能力AI系统可能对我们造成的灾难性风险。

●预测:未来12个月会发生的事情

由于报告《State of AI Report - 2024》篇幅长达210+页,本篇将只涵盖行业的部分内容,余下的会在接下来陆续发出。

行业

NVIDIA不断压缩其产品发布周期

自2020年A100发布以来,NVIDIA一直在缩短其发布数据中心级GPU的间隔时间,同时GPU提供的TFLOPs显著增加。从A100到H100的时间线长度减少了60%,从H200到GB200又减少了80%。在此期间,TFLOPs增加了6倍。大型云计算公司正在大量购买这些GB200系统:微软的持有量在70万到140万之间,谷歌40万,AWS 36万。更有传闻指出,OpenAI自己至少拥有40万GB200。

基于更快的GPU和计算节点进行扩展

节点内(scale-up fabric)GPU之间的数据通信速度,以及节点之间(scale-out fabric)的速度,对大规模集群性能至关重要。NVIDIA基于过去的技术NVLink,在过去8年中,大幅度增加了每个链接的带宽、链接数量以及每个节点连接的总GPU数量。结合了自家的InfiniBand技术,NVIDIA领先一步将节点连接到大规模集群。与此同时,据报道,像腾讯这样的中国公司已经围绕制裁进行了创新,以实现类似的结果。他们的Xingmai 2.0高性能计算网络据说支持在单个集群中GPU数量超过10万个,可以将网络通信效率提高了60%,LLM训练效率提高了20%。话虽如此,但尚不清楚腾讯是否拥有如此规模的集群。

图片

图1. Nvlink技术变化记录

Art or Science:运行大型集群仍然是中断的艺术和科学

Meta在发布他们的Llama 3模型家族时,分享了他们在预训练Llama 3 405B的54天期间每天经历的8.6次作业中断的分解分析。GPU往往比CPU更频繁地出现故障,而且并非所有集群都是一样的,所以持续监控是必不可少的。由于测试不足,错误配置和有缺陷的组件也经常发生。同时,低成本电力、可负担的网络费率和可用性至关重要

图片

图2. 造成Llama3 405B训练中断的根本原因饼图

大公司寻求摆脱或削弱对NVIDIA的依赖

虽然大科技公司长期以来一直在生产自己的硬件,但是这方面的努力在加速进行,因为科技巨头们至少需要提高自己与NVIDIA的议价能。但这些硬件上的努力往往并未针对最具挑战性的工作负载。

谷歌以其TPU闻名,现已推出基于Armv9架构和指令集的Axion。这些芯片将通过云服务提供,面向通用工作负载,其性能比目前最快的基于Arm的通用实例高出30%。Meta发布了第二代自家AI推理加速器,比前一代的计算能力和内存带宽提升了两倍以上。这款芯片目前用于排名和推荐算法,但Meta计划将其能力扩展到生成性AI的训练。与此同时,OpenAI正在从谷歌TPU团队招聘人才,并与博通(Broadcom)讨论开发新AI芯片的事宜。据报道,Sam Altman还与包括阿联酋政府在内的主要投资者进行了洽谈,希望推动一项数万亿美元的计划,以促进芯片生产。

同时,借助NVIDIA的潮流,AI芯片挑战者正在争夺(风险资本和客户)的市场份额,且少数几家公司已经展示出一定的市场吸引力。

Cerebras以其Wafer-Scale Engine而闻名,这款处理器将整台超级计算机的计算能力集成到一个晶圆大小的处理器上。该公司已提交首次公开募股(IPO)申请,预计2024年上半年收入为1.36亿美元,同比增长15.6倍,其中87%的收入来自总部位于阿布扎比、由政府支持的G42。Cerebras已筹集超过7亿美元资金,客户包括计算密集型的能源和制药行业。该公司最近推出了一个推理服务,旨在为大语言模型(LLMs)提供更快的token生成。

与此同时,Groq在其AI推理专用的语言处理单元(Language Processing Unit)上完成了6.4亿美元的D轮融资,估值达到28亿美元。同时,Groq已与阿美石油、三星、Meta和绿色计算提供商Earth Wind & Power建立了合作伙伴关系。Cerebras和Groq,两家公司都将速度作为核心竞争力,并致力于云服务,其中Cerebras最近也推出了推理服务。这种做法帮助它们绕过了NVIDIA的软件生态系统优势,但同时也让它们面临云服务提供商这一强有力的竞争者。

软银开始建立自己的芯片帝国

以“大手笔”著称的软银正在进入这一领域,指派其子公司Arm在2025年推出首款AI芯片,并收购了陷入困境的英国初创公司Graphcore,收购价据传为6-7亿美元。软银在此前过早出售NVIDIA股份之后,开始打造自己的芯片帝国。当时,Arm已经是AI领域的一个重要玩家,但历史上,其指令集架构并不适合数据中心训练和推理所需的大规模并行处理基础设施,同时它还一直在与NVIDIA在数据中心业务和成熟软件生态系统方面的优势作斗争。尽管如此,Arm目前的市值已超过1400亿美元,市场对此并不感到担忧。据报道,Arm已与台积电等公司就制造问题展开谈判。

软银还收购了Graphcore,这家公司开创了智能处理单元(IPU)概念,这是一种比GPU和CPU更高效处理AI工作负载的处理器(尤其是在使用小规模数据时)。硬件本身具有高度复杂性,因此在生成AI应用崛起初期,它往往不是一个理想选择。Graphcore将在软银的支持下继续以Graphcore品牌半自主运营。与此同时,因未能就需求达成一致,软银与英特尔针对设计GPU挑战者的谈判停滞了。

美国商务部与芯片制造商展开“打地鼠”式的博弈

随着美国出口管制的扩大,之前符合制裁要求的芯片已被发现不符合新的门槛,但这并没有阻止芯片制造商的步伐。在去年的年度报告中,记录了NVIDIA如何向中国的主要AI实验室销售超过10亿美元的A800/H800(特别为中国市场设计的芯片)。此后,美国禁止向中国销售,迫使NVIDIA重新考虑策略。

美国商务部长吉娜·雷蒙多(Gina Raimondo)警告称,“如果你围绕某个特定的剪裁线重新设计芯片,使其能够让[中国]做AI,我第二天就会对它进行管控。” NVIDIA的新中国芯片H20从原始计算能力来看,显著弱于NVIDIA的顶级硬件。但是,NVIDIA已针对大型语言模型(LLM)的推理工作负载进行了优化,使其在推理任务上比H100快20%,NVIDIA预计实现120亿美元的销售收入。并且,中国在美国芯片制造商的业务中正变得不重要。根据NVIDIA的说法,中国的市场份额已从其数据中心业务的20%下降到差不多5%。

然而美国却不限制中国实验室在使用美国数据中心的硬件,尽管中国实验室面临硬件进口的限制,但目前没有控制其通过海外租赁渠道使用硬件的措施。字节跳动通过美国的Oracle租用NVIDIA H100,而阿里巴巴和腾讯据报道正在与NVIDIA商讨在美国建立自己的数据中心。与此同时,谷歌和微软直接向中国大公司推销他们的云服务。美国计划通过“了解你的客户”(KYC)计划,要求超大规模云计算公司报告这类使用情况,但尚未出台禁止此类行为的措施。

层出不穷的半导体“走私者”

通过亚洲中介经销商(特别是马来西亚、香港和日本)销售的NVIDIA芯片,正越来越多地进入中国终端客户的手中。这些经销商通过空壳公司和虚假商业,甚至临时数据中心存在,推动了这种贸易的进行。有案例显示,一家中国电器公司通过马来西亚经销商下了1.2亿美元的订单,购买了2400个NVIDIA H100集群。考虑到订单规模,NVIDIA要求进行现场检查,以确保系统的正确安装。这位经销商告诉《The Information》记者,他已“协调在马来西亚柔佛巴鲁的备用数据中心设施租用、安装和激活服务器,柔佛巴鲁靠近新加坡边境,是大型数据中心集群的所在地。NVIDIA检查员在那里检查了服务器并离开。不久之后,这些服务器通过香港被运往中国。”另一位总部位于香港的芯片经销商通过从戴尔和超微购买受限的4800个H100,利用非美国制裁国家的空壳公司积累了这些芯片。最终将这些芯片以2.3亿美元的价格卖给了一家中国买家,售价相比收购成本(1.8亿美元)大幅溢价。

AI领域的公司应收如何?

许多在Gen AI领域备受关注的初创公司正在以创纪录地融资(通常是收入的三位数倍数)。虽然这可能反映出投资者对未来回报的信心,但也设立了一个较高的标准,因为这些公司目前并没有明确的盈利路径,但也并不是所有人,因为那些最大的模型提供商已经看到收入开始增长。OpenAI预计其收入将在一年内增长三倍,但训练、推理和员工成本意味着亏损仍在不断增加。而且他也并不是唯一一个在寻找经济可行性的巨头。也或许融资和经济可行性你都不需要,氛围才是你恢复股价所需的一切。Meta通过放弃大量的元宇宙投资,转而大力推进开源AI,成功在公开市场上引发了巨大反响。马克·扎克伯格无疑成为了开源AI的代表人物,与OpenAI、Anthropic和Google DeepMind形成鲜明对比。

商业模型之间的明争暗斗

顶级质量的模型,OpenAI 的 o1,具有显著的价格和延迟优势,而随着模型选项的丰富,开发者开始根据任务需求以及预算选择最合适的一个。

图片

图3. 各大巨头模型的性能和价格对比

推理服务曾被认为昂贵得令人无法承受,但现在推理成本也在急剧下降:

图片

图4. OpenAI和Anthropic在2023和2024模型的推理开销趋势图

Google Gemini也发布了具有价格竞争力的强大模型,其中,Gemini 1.5 Pro 和 1.5 Flash 的定价在推出几个月后下降了64-86%,但表现依然强劲,例如 Flash-8B 比 1.5 Flash 便宜50%,但在许多基准测试中表现相当。

图片

图5. Gemini系列模型定价对比图(数据来自2024年10月4日,展示的都是<128k令牌提示和输出的定价)

智能体应用

聊天智能体开始转型互动开发助手。今年夏天,Anthropic 和 Vercel 推出了他们的聊天智能体 Claude and V0,它能够打开代码环境,在浏览器中编写和运行代码以解决用户请求。这使得之前静态的代码片段变成现实,用户可以与智能体实时互动,降低了开发软件产品的门槛,社交媒体上的 GenAI 爱好者对此非常喜爱。

图片

图6. Claude Artifacts & V0 根据一个提示生成可玩的扫雷游戏

AI 实验室也从构建模型开始转向设计产品,像苹果、谷歌和抖音这样的顶尖科技公司,通常采取的是产品优先的策略,而不仅仅是构建基础技术和 API。随着基础模型性能趋于一致,仅仅构建一个好的模型并不足够。OpenAI、Anthropic 和 Meta 显然更加关注他们的“产品”是什么样的、感觉如何——无论是 Claude 的 Artifacts、OpenAI 的先进语音功能,还是 Meta 的硬件合作伙伴关系和同步工具。

欧洲的AI行业

尽管大模型正流行,但欧洲竞争者们似乎失去动力,欧洲领导者急于寻找本土的成功案例。目前,Mistral 仍然是欧洲大陆的主要亮点。

Mistral 已获得超过 10 亿欧元资金,成为无可争议的欧洲基础模型冠军,展示了出色的计算效率和多语言能力。其旗舰模型 Au Large 通过与微软的新合作伙伴关系,在 Azure 上提供。该公司已经开始与法国公司如 BNP Paribas 和国际初创公司如 Harvey AI 建立合作伙伴关系,并且也在加强其美国销售团队。

与此同时,自称为德国“主权 AI”冠军的 Aleph Alpha 遇到了一些困难。尽管通过股权、赠款和许可协议筹集了 5 亿美元,该公司的闭源模型在性能上未能超越一些公开可用的同类产品。因此,该公司似乎正在转向 Llama 2-3 和 DBRX这类的协议许可。

后起之秀 嘛?

Databricks 和 Snowflake 转型构建自己的大模型,但它们竞争力如何呢?去年的报告中,提到Databricks 和 Mosaic 的 LLM 组合战略,专注于基于客户数据对模型进行微调。难道“自带模型”的时代已经结束?Mosaic 研究团队现已并入 Databricks,并于 3 月开源了 DBRX。DBRX 是一个 132B 的 MoE 模型,经过 3,000 多台 NVIDIA GPU 训练,成本约为 1,000 万美元。Databricks 将该模型作为企业定制和构建的基础,同时可以控制自己的数据。与此同时,Snowflake 推出的 Arctic 模型被宣传为最适合企业工作流的高效模型,涵盖了写代码和指令跟随等任务。

然而,考虑到不断的发布更新和大玩家的进步,企业是否愿意为定制模型调整投入大量资金仍不明确。随着开源前沿模型的日益普及,定制训练模型的吸引力也在减少。

监管机构密切关注GenAI大玩家们

鉴于涉及的高计算成本,模型构建者越来越依赖与大型科技公司建立合作伙伴关系。反垄断监管机构担心这将进一步巩固现有企业的市场地位。所以,监管机构特别关注 OpenAI 与微软之间的紧密关系,以及 Anthropic 与谷歌和亚马逊的联系。监管机构担心,大型科技公司要么实质上是在收购竞争对手,要么通过为其投资的公司提供优惠的服务协议,可能会对竞争者造成不利影响。他们还尤其担心 NVIDIA 在生态系统中所拥有的影响力及其投资决策。法国正在考虑针对 NVIDIA 进行特定收费。大型科技公司则正试图在自己和初创公司之间划清界限,微软和苹果都自愿放弃了 OpenAI 董事会观察员席位。

但这造成了为收购作为退场策略的兴起。当经济逻辑与监管行动背道而驰时,监管行动对市场的塑造作用是有限的。考虑到许多“其他公司”在性能上的趋同以及这些公司对资本支出的高需求,行业整合并不令人意外。鉴于一些监管障碍,我们看到了伪收购的兴起,即大型科技公司 i) 雇佣初创公司的创始人及大部分团队;ii) 初创公司退出模型构建领域,转而专注于其企业产品;iii) 投资者通过许可协议获得回报。微软与 Inflection 以及亚马逊与 Adept 就采用了这一模式。不过,监管机构已经意识到这一做法,跨大西洋的监管机构开始对这些安排进行审查。

AI Coding

Github 居领先地位,但 AI 编程公司生态系统正在扩展。GitHub Copilot 是目前最广泛使用的 AI 驱动开发工具,其采用率年增长达 180%,年收入 20 亿美元,是 2022 年的两倍。Copilot 单独已经成为一个比微软收购 GitHub 时更大的业务。然而,它只是众多AI编程公司中的一个,部分公司正在进行大规模融资。

AI的机器学习工具(再次)面临困境,难以扩展和进入生产阶段

在如今已经熟悉的循环中,我们看到专业工具和框架在获得人气后,往往在扩展和进入生产阶段时遇到困难,而现有企业则展示了令人印象深刻的韧性和适应能力:随着向量数据库的爆炸式增长,向量空间搜索的独特性已经消失。现有数据库提供商已推出自己的向量搜索方法。大型云服务商如 AWS、Azure 和 Google Cloud 已扩展其本地数据库产品以支持大规模的向量搜索和检索,而数据云服务如 MongoDB、Snowflake、Databricks 和 Confluent 正在寻求从现有客户中捕获 RAG 工作负载。核心的向量数据库提供商如 Pinecone 和 Weviate 现在同时支持传统的关键字搜索(如 ElasticSearch 和 OpenSearch),并引入了简单高效的过滤和聚类功能。在开发框架领域,LangChain 和 LlamaIndex 等工具在实验中获得了人气,但它们的高级抽象和有限的灵活性被一些开发者认为是阻力的来源(特别是在需求变得更加复杂时)。

AI Agent能商业化吗?

Cognition 推出的 Devin 在三月引起了轰动。被宣传为“第一个 AI 软件工程师”,它旨在计划和执行需要成千上万决策的任务,同时修复错误并随着时间的推移进行学习。该产品本身引起了用户的分歧,吸引了支持者,但也有反对者指出需要设置防护机制和人工干预。无论如何,投资者对其印象深刻,在发布后的六个月内,公司就获得了 20 亿美元的估值。Devin 有一个开源竞争对手 OpenDevin,它在基准 SWE-bench 上的表现比 Devin 高出 13 个百分点。MultiOn 也在强化学习(RL)上押下了重注,其自主网页代理 Agent Q 结合了搜索、自我批评和 RL。该工具将在今年晚些时候向用户发布。Meta 的 TestGen-LLM 以惊人的速度(4个月)从论文变成了产品,并且已被集成到了 Qodo 的 Cover-Agent 中。

AI搜索开始崭露头角

Perplexity 已筹集 1.65 亿美元,成为最受关注的 AI 首先搜索挑战者,而 Google 则推出了自己的搜索摘要功能。两家公司都发现,输出的质量取决于信息的质量。Perplexity 在成立 18 个月内达到了 10 亿美元的估值,有传言称它已经在寻找将其估值三倍化的机会。该 LLM 分析用户输入,提供来自网页搜索或其知识库的响应,然后生成带有内嵌引用的摘要。Google 排除了使用摘要框来展示 Gemini 为其标准产品提供动力的潜力。

然而,这两项服务都遇到了可靠性问题。Gemini 被发现使用讽刺性的 Reddit 帖子作为建议来源(例如:建议用户每天吃一块石头),而 Perplexity 则面临与其他 LLM 驱动服务相同的幻觉问题。同时,OpenAI 已开始试用一个原型搜索功能——SearchGPT,最终将集成到 ChatGPT 中。尽管我们尚不清楚具体技术细节,但宣传图像暗示其用户体验与 Perplexity 类似。

版权态度分歧,愤怒情绪上升

虽然版权问题在生成性 AI 中并不新鲜,但 2024 年模型构建者受到了媒体机构、唱片公司和内容创作者的更多审视。OpenAI 和 Google 正在与主要媒体机构进行谈判,希望通过许可协议缓解批评的压力。类似地,Eleven Labs 也已启动了一项配音演员计划。一些初创公司则完全避开这一问题,转而采纳伦理认证方案。最著名的是由前 Stability AI 高管 Ed Newton-Rex 发起的 Fairly Trained 项目。另一方面,Meta 和 Perplexity 强化了“合理使用”的论点,对批评表现出不妥协。

随着各大实验室面临数据上限,YouTube 数据抓取成为焦点。据报道,OpenAI 已转录了数百万小时的 YouTube 视频,以支持其音频转录模型训练。同时,Eleuther AI 被广泛使用的 Pile 数据集包含了来自 173,536 个 YouTube 视频的字幕。RunwayML 和 NVIDIA 的内部文件显示,它们也进行了大规模的 YouTube 数据抓取。

案件堆积如山,法院系统对“合理使用”仍无明确判决。目前,关于 Anthropic、OpenAI、Meta、Midjourney、Runway、Udio、Suno、Stability 等公司的诉讼仍在进行中,原告包括新闻机构、图像供应商、作者、创意艺术家和唱片公司。到目前为止,模型构建者未能完全撤销这些案件,但已成功大幅缩小了诉讼范围。例如,两组作者针对 OpenAI 和 Meta 提出的诉讼,指控两家公司因其模型的输出都是“侵权的衍生作品”而构成间接版权侵权,最终未能成立,因为他们无法证明“实质性相似性”。只有他们关于版权侵权的原告要求得以继续审理。类似的裁定也出现在 Midjourney、Runway 和 Stability 的案件中,法院要求原告专注于原始抓取行为,许多更广泛的索赔被驳回。在这一不确定的环境中,Adobe、谷歌、微软和 OpenAI 已采取不寻常的措施,为他们的客户提供版权方面的免责保障。

最后的幸存者:自动驾驶公司Wayve 和 Waymo 加速前进

随着 Wayve 宣布完成 10.5 亿美元的 C 轮融资,Waymo 在美国的扩张,经过多年的炒作和失望后,自动驾驶行业似乎正迎来繁荣。Waymo 已在旧金山、洛杉矶和凤凰城逐步扩展,并计划在今年晚些时候在奥斯汀启动。公司现已取消旧金山的等待名单,任何人都可以加入其等待列表。除了从软银、NVIDIA 和微软获得新一轮融资外,Wayve 还取得了一项胜利——英国通过了允许自动驾驶车辆在 2026 年上路的立法。这项技术也开始展现出商业潜力。在其“其他投资”部门(包括 Waymo)实现季度收入 3.65 亿美元后,Alphabet 宣布对 Waymo 追加 50 亿美元投资。与此同时,在 8 月,Waymo 宣布其在美国每周已达到 10 万次付费出行,单在旧金山就有 300 辆自动驾驶汽车上路。

但自动驾驶仍然是一个风险极大的行业。去年,Cruise 的一辆自动驾驶汽车在旧金山撞伤了一名行人。公司因此失去了在加利福尼亚的运营许可证,并经历了大规模的领导层更替。Cruise 的母公司通用汽车(GM)向该公司注资 8.5 亿美元,此前通用汽车已裁减了 25% 的员工并暂停了市场扩展。Cruise已恢复在凤凰城的测试(车内有一名人类驾驶员做人工干预)。通用汽车计划寻求外部投资,但尽管有了这笔额外的资金支持,公司仍面临生死存亡的问题,这也凸显了自动驾驶领域公司所面临的高标准。

资金涌入型人机器人初创公司,但它们能克服自身局限性吗?

像 Figure、Sanctuary 和 1X 这样的类人机器人初创公司已经从三星、微软、英特尔、OpenAI 和 NVIDIA 等企业投资者那里筹集了接近 10 亿美元。但这个技术能克服其局限性吗?模拟人类运动的复杂性和工程化人类般的灵活性,历史上一直被认为是一个昂贵且技术难度巨大的挑战。初创公司押注于精密的视觉语言模型(VLM)、现实世界的训练数据、仿真,以及更好的硬件,认为这些可以改变现状。然而,熟悉 SOAI (自我优化人工智能)的人会对自动驾驶的故事感到熟悉——每年都承诺有突破,但公司们在五年内始终未能实现目标,客户还必须确信,类人机器人在效率上优于价格更便宜、非类人的工业机器人系统。,尽管如此,非类人机器人初创公司仍然保持健康的市场需求,亚马逊最近伪收购了湾区机器人基础模型构建公司 Covariant。

AI特效

去年的报告中有一则预测:一部好莱坞级别的制作使用了生成性 AI 来进行视觉效果,接下来的内容就在帮助证明这一预测。视觉特效是一个昂贵且劳动密集的行业,因此尽管面临着艺术家和动画师的反对,好莱坞制片人一直在慢慢尝试将生成性 AI 融入其中。虽然大部分工作是在幕后和后期制作中悄悄进行的,但细心的观众已经发现了 HBO 和 Netflix 制作中背景里明显的与生成性 AI 相关的失误。这与模型在准确和一致地表现物理和几何的长期问题有关。【作者也解释:我们的预测从未说过输出结果会很好……(手动狗头)】

这项工作可能即将成为专业化领域,在首个此类交易中,Runway 与电影和游戏工作室 Lionsgate(以《约翰·威克》《暮光之城》和《饥饿游戏》等电影闻名)达成了合作协议。Runway 将在 Lionsgate 的 2 万部影片目录上训练一个新的生成性模型,而 Lionsgate 表示,它将使用 Runway 的模型来支持“资本高效的内容创作机会”。目前财务细节尚不清楚,但我们知道 Lionsgate 将首先使用该模型进行分镜脚本制作,随后将其用于视觉效果的创作。

大实验室四分五裂,而资金充足的竞争者崭露头角

由于科学分歧、商业压力、个性冲突和资本可用性的结合,一些小型研究团队已从大实验室里面分裂出来,这表明生态系统正在深化。总部位于日本的 Sakana AI,由 Llion Jones(曾是《Attention Is All You Need》的唯一作者且没有离开谷歌)和 David Ha 联合创办,获得了 3000 万美元融资,并推出了三款基于“模型合并”的进化启发式方法的模型,在该方法中,现有模型会被合并,最具前景的模型成为下一代的“父母”。巴黎的 H Company 由一支经验丰富的 DeepMind 团队领导,筹集了 2.2 亿美元,用于构建 RPA 行动模型。在 OpenAI 董事会纷争之后,联合创始人 Ilya Sutskever 离开并创办了 Safe Superintelligence Inc.,一个专注于构建安全 AGI 的实验室,目标是避免短期的商业压力和目标。最近,Stable Diffusion 的一些原始创作者推出了 Black Forest Labs,专注于图像和视频生成。他们已经发布了 FLUX.1,这是他们的第一款开源图像模型系列,迅速开始与 Midjourney 的质量竞争。

但创业依然艰难,你是一个优秀的工程师并不总是意味着你会是一个优秀的创始人。一些实验室的前员工取得了初期成功,其他则不然。Safe Sign Technologies,由一位前律师和一位前 DeepMind 研究员创立,在没有让创始团队稀释股份的情况下完成了一笔收购。而位于 H Company 的前 DeepMind 创始团队则在获得超过 2 亿美元的资金后,最终未能顺利推出,团队解体了。

文本转语音的蓬勃发展

ElevenLabs,文本转语音(TTS)市场的领导者,在年初达到了 11 亿美元的估值。随着大实验室在该领域采取谨慎态度,它几乎占据了整个市场。除了旗舰 TTS 产品外,ElevenLabs 还扩展了外语配音、语音隔离,并发布一个预览版本的文本到音乐模型。为了避免版权问题,该公司选择暂时不发布该模型,但已提供了一个用于生成音效的 API。财富 500 强中,62%的公司有员工在使用 ElevenLabs。

与此同时,前沿实验室在小心翼翼地进入这一领域,可能是担心语音生成技术的误用可能引发潜在的反弹。GPT-4o 的语音输出被限制向大众提供预设语音,而 OpenAI 表示尚未决定是否会将其语音引擎(据称能够基于 15 秒的录音重建语音)广泛开放。与此同时,Cartesia 正在押注于状态空间模型来实现高效的 TTS。

GenAI应用的疯涨

Synthesia,虚拟人视频生成产品,继续在企业、小型企业和创作者中呈指数级增长。曾被认为是“边缘”产品的 Synthesia,现在已被大多数财富 100 强公司用于学习与发展、市场营销、销售支持、信息安全和客户服务。自 2020 年推出以来,该服务已生成超过 2400 万个视频,比去年增长了 2.5 倍。

图片

图7. 2020-2024每年Synthesia服务的视频生成数量趋势(其中2020年数据为5-9月)

AI-first 产品在企业中开始展现其粘性

去年的报告中,作者们描述了Gen AI 产品如何在初期的“惊艳”效果和试用期之后难以做到付费客户保持。而来自美国企业金融科技公司 Ramp 的新数据显示,从 2022 年到 2023 年,支出和客户保持率开始显著改善。顶尖公司包括 OpenAI、Grammarly、Anthropic、Midjourney、Otter 和 ElevenLabs。

图片

图8. 顶尖公司的用户保有量和总收费金额

AI-first 挑战者比其 SaaS 对手更快实现收入增长。通过 Stripe 对 100 家最高收入 AI 公司进行分析显示,这些公司整体的收入增长速度远超之前的同类 SaaS 公司:达到 3000 万美元年收入的 AI 公司平均仅用了 20 个月,而同样表现良好的 SaaS 公司则用了 65 个月。

图片

图9. AI-first vs SaaS

语音识别找到了商业化路径

一系列初创公司正在使用语音识别技术处理包括客户支持和呼叫中心在内的多种场景,并在过去一年多的时间里获得了融资,包括 Assembly AI(5000 万美元)、Deepgram(7200 万美元)、PolyAI(5000 万美元)和 Parloa(6600 万美元)。PolyAI 的收入预计今年将增长三倍。这些初创公司专注于填补呼叫中心员工的短缺,同时允许客户使用更自然的语言进行交互,包括修正、犹豫、打断和话题变化,这是传统自动化系统一直难以应对的领域。虽然 AI 驱动的转录和音频分析并不新鲜,但因为有了更大的数据集和transformer模型,准确度正在提高。例如,Assembly AI 建立了 Universal-1,这是一个多语言模型,经过 1250 万小时的语音训练,在运行速度、更少计算需求、更少错误和更好的环境噪声过滤减少方面,表现优于 OpenAI 的 Whisper。

语音生成语音是下一个前沿吗?

超过十年的时间里,Alexa 和 Siri 提供的消费者语音智能体体验都没能令人满意。OpenAI 的 GPT-4o 和巴黎的 Kyutai 公司 Moshi 语音代理成功跨越了“不适感谷地”。这两款系统同时思考和讲话,以确保说话者/代理之间的最大流畅度。OpenAI 展示了如何让两部运行 GPT-4o 的手机互相进行表现不俗的对话。Moshi 的推理速度令人印象深刻,甚至稍显过快,若人类说话者停顿过长,会偶尔出现令人不适的打断。谷歌的 Notebook LM 能根据研究生成对话式播客,也吸引了不少粉丝。最近,Hugging Face 也实现了一个语音到语音的pipeline,结合了语音活动检测、TTS、LLM 和语音生成。

生成性 AI 终于开始在法律领域扩展

法律技术并不新鲜,但历史上一直专注于“较简单”的任务,如合同生命周期管理、保密协议(NDA)审查和建立案例法数据库。GenAI开始逐渐介入这个谨慎、注重责任的行业。AI 驱动的工具现在被广泛应用于草拟、案件管理、证据披露和尽职调查等方面。一系列大型美国律师事务所,包括 Latham & Watkins、Cleary Gottlieb Steen & Hamilton、DLA Piper 和 Reed Smith,已经开始招聘内部 AI 专家。Harvey,服务于包括 Macfarlanes 和 Allen & Overy 等律师事务所的流行法律技术 AI 初创公司,在 7 月完成了 1 亿美元的 C 轮融资。虽然内部法律团队使用专门工具的情况较少,但根据调查数据,其采用率实际上更高。Klarna 鼓励其法律团队使用 ChatGPT 来节省合同草拟时间,并声称其法律团队的采用率已达到 90%。这种发展速度的差异在一定程度上可以通过经济因素来解释。AI 可以替代的律师事务所的可计费工作时长,通常是最具盈利性的业务之一。律师事务所尚未找到一种在保持竞争力的同时应对这一挑战的解决方案。

苹果与OpenAI合作

为弥补其在进入生成性 AI 竞赛的时间落后,苹果公司抛弃了其长期对手 Meta,开始在其操作系统(OS)、iPadOS 和 macOS 中整合 ChatGPT。尽管其内部研究团队发布了高质量的工作,但由于风险规避和内部优先事项的组合,苹果一直在产品化上存在困难。苹果与 OpenAI 达成了合作伙伴关系,将使用 ChatGPT 来增强 Siri,并提供图像和文档理解功能,以及图像生成。Apple还宣布了 Apple Intelligence 服务,并计划在下一代 iPhone 发布后逐步推出。

鉴于苹果正在发布将为 Apple Intelligence 功能提供动力的基础模型的相关研究成果,合理的疑问是,任何与 OpenAI 的合作关系可能会持续多久或有多深入。苹果保持着稳定的研究发布节奏,并发布了一系列小型的高性能开源模型,重点关注设备端推理。今年 7 月,苹果发布了一篇论文,详细介绍了将为 Apple Intelligence 功能提供动力的模型。这些模型的服务器版本和小型设备端版本在执行指令跟随、工具使用、写作和数学等任务时表现出色。设备端的 3B 模型在人类评估中超越了 Gemma-7B 和 Mistral-7B。预训练过程包括了网页、数学、代码以及某些许可数据集。苹果认为,这表明数据质量在性能中远比数据数量更为重要。他们还在投资用于 AI 研究的 MLX 数组框架,该框架专门为苹果的硅芯片设计。

Kernel中暗藏玄机

Unsloth 自去年底推出以来,迅速成为一个流行的开源项目: 通过利用 GPU Kernel 改进,提供最高 30 倍的训练和微调速度提升。其重点是优化使用 LoRA 进行高效微调时的注意力机制。Unsloth 手动推导出与 LoRA 和注意力输入相关的 6 种矩阵运算的梯度。通过精心安排矩阵乘法的顺序并使用就地操作,显著提升了速度和内存效率(这些优化作用于所有模型组件,而不仅仅是注意力机制)。

TechBio 两家领先的上市公司达成 6.88 亿美元的交易

Recursion 在以 AI 为核心的高通量实验探索中表现卓越,并与 Exscientia 的 AI 驱动精准化学能力结合,创造了一个全栈的发现和设计公司,该公司拥有生物制药领域最大的 GPU 计算集群。该业务在未来 18 个月内有潜力开展 10 项临床试验,涵盖罕见疾病、精准肿瘤学和传染病领域。

视频生成竞赛如火如荼

包括 Runway、Pika、Luma 和 OpenAI 等公司正在大规模扩展其数据收集和模型训练实验,以寻求文本到视频生成中的质量和一致性提升,并制作更长的剪辑。

图片

图10.使用提示:“拍摄一只高地牛在田野中,风吹动着它的毛发的电影化动物纪录片。”,三个模型的结果

高端模型提供商正面临廉价和开源竞争者的挤压

美国的文本到视频初创公司出售基于积分的订阅计划,但单一视频秒数就能消耗掉 5 个 Runway 或 Pika 的积分,因此用户必须迅速掌握如何优化提示。文本到视频通常比大语言模型(LLM)具有更低的 GPU 要求,这为像快手的 Kling 这样的价格低廉的国产产品提供了机会,因为它们不受版权问题的限制。同样收益的还有 CogVideoX 这样的高效开源模型。

图片

图11. Runway、Pika、Luma和快手的视频生成价格对比

'图像条件化'的视频生成与LoRA相结合

LoRA是一种微调大型模型的方法,旨在使其生成的内容在用户关注的方面有所改进,例如角色、风格或概念。像 Civit.ai 这样的平台使得用户能够使用自己的数据示例来训练 LoRA。这些 LoRA 会在一个市场中共享,任何人都可以使用。此外,一种流行的工作流程是,使用 LoRA 模型的输出,结合像 Runway 这样的产品来条件化生成几秒钟的视频,用户可以设置开始和结束的图像帧。可以预见,生成音频很快也会被添加到这一流程中。

个性化癌症治疗与 mRNA 疫苗及预测新抗原

新冠疫情宠儿 Moderna 和 BioNTech 正在开发个性化的“新抗原”疗法(INT)来对抗癌症。INT 由编码预测新抗原的 mRNA 组成,这些新抗原是肿瘤细胞产生的癌症特异性突变,作为抗原触发患者免疫系统清除产生它们的肿瘤细胞。最新的正面数据表明,INT 在侵袭性黑色素瘤(皮肤)和胰腺癌中具有有希望的治疗效果。但是INT 仍面临巨大的生产和物流问题。

2024 年 4 月,BioNTech 分享了他们在胰腺癌中的 BNT122(INT)阶段 1 试验的 3 年随访数据。16 名患者中有 8 名显示出对编码的新抗原的高强度 T 细胞反应。这 8 名患者中的 6 名在 3 年的随访期间保持无病状态。而剩余 8 名没有免疫反应的患者中,有 7 名出现了肿瘤复发。6 月,Moderna 和 Merck 公布了 3 年期阶段 2b 临床试验(n=157 例患者)的数据,显示 mRNA-4157(V940,INT)与 KEYTRUDA(黑色素瘤药物)联合使用时,比单独使用 KEYTRUDA 在黑色素瘤患者中降低了 49% 的复发或死亡风险,降低了 62% 的远处转移或死亡风险。与单独使用 KEYTRUDA 相比,mRNA-4157(V940)与 KEYTRUDA 联合使用的 2.5 年无复发生存率为 74.8%,而单独使用 KEYTRUDA 为 55.6%。

智能穿戴和终端AI助手热门与否?

谷歌在2014年推出了智能眼镜,那时基于深度学习的计算机视觉研究刚刚展现出潜力,而增强现实的热潮还未真正达到顶峰。该产品最终失败,并在2015年下架。与此同时,Meta(前身为Facebook)在2020年开始与知名太阳眼镜品牌Ray-Ban合作,开发智能眼镜。首款版本于2021年发布,第二款版本则于2023年推出,新增了增强的音频功能,并与Meta AI进行了整合,售价为299美元。该产品成为了热销产品。尽管没有公开销售数据,但扎克伯格表示,许多款式和颜色已经售罄。可以推测,智能眼镜的外形设计、优质音频和人们对隐私态度的变化,可能促成了这一关键性转变。

在尝试构建 AI 驱动的便携式助手设备方面,Rabbit R1 和 Humane AI Pin 是最著名的两款。这些设备将标准的语音助手功能与相机、图像分析和语言翻译等其他功能结合起来。然而,早期的评测几乎都是负面的,常见的投诉包括不可靠、续航差和缺乏实用功能。尽管评论者认为这些设备在未来可能有用,但他们抱怨消费者为尚未准备好上市的产品支付了高昂费用(Pin 售价 699 美元,R1 售价 199 美元)来进行 beta 测试。

AI投资在各地区激增

受到像xAI和OpenAI等GenAI超级融资回合的推动,美国私人市场继续领跑。对AI公司的总投资接近1000亿美元。

图片

图12. 按地域和AI种类划分的年度总投资

受上市公司推动,AI公司价值接近9万亿美元。虽然私人公司估值持续稳步攀升,但少数几家上市公司像Atlas一样支撑了市场。仅上市公司现在的企业价值已超过2023年整个市场的总和。

图片

图13. 私人公司价值vs上市公司价值

所有风投支持的公司中,AI公司在机器人技术、企业软件、航天和安全领域的比例最高。去年,企业软件、健康、金融和营销是最活跃的AI投资领域。

图片

图14. 自1990年来最受关注的AI投资领域(左)& 2023-2024年度风投支持领域数量柱状图(右)

在过去两年中,超大额2.5亿美元以上的融资主导了AI领域的融资,似乎存在一个明显的“GPT-4前后时代”(2023年),这一时期触发了所有资金系统的激增

图片

图15. 2010-2024投资金额变化

IPO市场依然萎靡,而并购活动较2021年的峰值下降了23%。在监管审查不断加剧和疫情后市场不稳定的情况下,交易活动变得冷淡,许多公司保持“观望”态度。

图片

图16. 收购、挂牌等商业活动对比

Attention is all you need. 你需要通过它为你的AI初创公司筹集数十亿美元并完成出售。Character.ai的Noam Shazeer将其团队以25亿美元出售回谷歌,而Adept被亚马逊收购并进入微软,交易金额为6.5亿美元。这些交易都涉及聘用创始人和明星员工,同时支付足够的资金给投资者作为技术授权费用,以促成交易。

图片

图17. 三家初创公司的初始资本募集 vs 收购价格

未完待续

本篇文章主要涵盖了报告的97~152页,下一篇会继续包括2024政治和安全方面的总结,以及针对2025做出的预测。

《State of AI Report - 2024》原报告链接贴这里:Welcome to State of AI Report 2024

https://bba12hub36.feishu.cn/docx/LboadJ2RXotdXLxdGg1cHfXunSd#share-EAcWdMnLjoc4baxxrJHceU1BnMd


http://www.kler.cn/a/543417.html

相关文章:

  • 蓝桥杯备赛笔记(二)
  • Flutter PIP 插件 ---- iOS Video Call
  • VS2019打开《喜缺全书算法册》附带代码的方法兼述单元测试
  • transformer
  • 从肠道菌群到炎症因子:读懂疾病的预警信号
  • 用语言模型探索语音风格空间:无需情感标签的情 感TTS
  • git,bash - 例子整理
  • wireshark网络抓包
  • mysql基本使用
  • 基于STM32对射式红外传感器计次
  • .net6 mvc 获取网站(服务器端)的IP地址和端口号
  • 正则表达式--元字符-限定符(4)
  • React - 组件之props属性
  • 网络编程(udp tcp)
  • 前沿技术新趋势:值得关注的创新发展
  • 校园网绕过认证上网很简单
  • 并发编程---多线程不安全示例以及解决,多线程创建方式
  • AI大语言模型
  • JAVA面试之容器
  • Linux进程创建与终止
  • Amazon Keyspaces (for Apache Cassandra)
  • 未来趋势系列 篇一(加更四):DeepSeek题材解析和股票梳理
  • CF Round 997 记录 题解 (div. 2 A - E)
  • SpringBoot中的Javaconfig
  • KRR(知识表示与推理,Knowledge Representation and Reasoning)
  • 冒泡排序