当前位置：首页 > article >正文

51c大模型~合集104

article 2025/4/2 8:26:50

我自己的原文哦~ https://blog.51cto.com/whaosoft/13076849

#Deepfake Detection

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

本文作者包括香港大学的王天一、Kam Pui Chow，湖南大学的廖鑫 (共同通讯)，圭尔夫大学的林晓东和齐鲁工业大学 (山东省科学院) 的王英龙 (第一通讯)。

基于深度神经网络对人脸图像进行编辑和篡改，深度伪造的发展为人们的生活带来了便利，但对其错误的应用也同时危害着人们的隐私和信息安全。

近年来，针对深度伪造对人们隐私安全造成的危害，虽然领域内的研究者们提出了基于不同角度和不同算法的检测手段，但是在实际的深度伪造相关案例中，鲜有检测模型被成功应用于司法判决，并真正做到保障人们的隐私安全。

近日，一篇基于可靠性视角的深度伪造检测综述收录在 ACM Computing Surveys (IF=23.8)。文章作者分析，在当前深度伪造领域内的研究中，尚缺乏一条完整的桥梁，可以将成熟的深度伪造检测模型与其在实际案例中的潜在应用联系起来。

论文标题：Deepfake Detection: A Comprehensive Survey from the Reliability Perspective
arXiv 地址: https://arxiv.org/abs/2211.10881

本综述由香港大学、齐鲁工业大学、湖南大学、圭尔夫大学联合发布，从可靠性的角度全面回顾了当前领域内的常用深度伪造基准数据库 (表 1) 和代表性检测模型，并基于现有检测模型的类型和优缺点，提出了三个值得领域内研究者们持续探索的话题和挑战 (图 1)：迁移性、可解释性和鲁棒性。

表 1: 依据质量、多样性、难度等特点而划分的三代深度伪造基准数据库信息。

三大话题和挑战

迁移性话题关注已完成训练的深度伪造检测模型是否能够在未曾见过的数据和篡改算法上依然维持令人满意的检测准确率。

详细来说，当一个深度伪造检测器在被广泛使用的 FaceForensics++ 数据集上完成训练后，除了在 FaceForensics++ 的测试集上展现出色的检测准确率，仍需要能够在 cross-dataset 和 cross-manipulation 设定下，维持较为稳定的效果。此目标旨在避免针对持续迭代出现的新的伪造数据和伪造算法时无休止地增加模型训练成本。

可解释性话题侧重于检测模型在判断真伪的同时能否额外提供令人信服的证据和通俗易懂的解释。

详细来说，当一个深度伪造检测器判断一张图片的真伪时，通常只能提供对其真或假的判断结论，以及在各个实验数据集上测试时的检测准确率。然而，对于需要依赖于检测模型来保护个人隐私信息的非专业人士，能够提供除准确率指标之外通俗易懂的额外证据 (例如，被标记的伪造区域定位或被可视化的伪造痕迹和噪声) 是极其重要的。

鲁棒性话题则基于已有的客观模型检测效果，着眼于实际生活场景，关注深度伪造素材在传播中遭受主观和客观画质损失后，是否依然可以被检测器正确判断。

详细来说，深度伪造素材的危害随着其在网络中的持续性传播而不断增加，而在上传、下载、转载等传播过程中，受不同平台对素材属性的限制和协议要求，该素材将不可避免地遭受质量上的折损和降低。另一方面，当攻击者 (即深度伪造素材的制造者) 已知领域内已有针对各类深度伪造算法的检测手段时，其会刻意向伪造的素材内有针对性地添加能够一定程度上扰乱深度伪造检测器的噪声。以上两类情况，都需要依赖于深度伪造检测模型的鲁棒性，从而可以持续地在实际生活案例中发挥作用。

图 1 : 关于三种话题和挑战的阐述

评估与实验

除了深入探讨三个话题和挑战的意义以及综述性地总结领域内的相关工作之外，本文还着重提出了一个针对模型可靠性的评估方法 (图 2)。

该方法受到司法鉴定中对 DNA 比对过程的启发，通过模拟和构建真实世界中的深度伪造数据的总 population，引入统计学中随机采样的方法，科学且严谨地评估深度伪造检测模型的可靠性，从而提供关于模型性能的统计学指标，以作为法庭审判的潜在证据和辅助证据。基于该指标，可得出在不同置信度条件下的模型检测准确率结论。该可靠性评估方法的初步探索，旨在提供一条路线可以使众多深度伪造检测模型能够在实际生活案例中真正发挥价值。

同时，该综述通过进行大量实验，在不同的样本集大小、置信度、采样次数等环境设定下，对为解决三种话题和挑战的七个深度伪造检测模型进行模型复现和可靠性分析。

图 2: 深度伪造检测模型可靠性分析算法。

此外，该综述将实验中的深度伪造检测模型应用在受害者分别为明星、政客、普通人的实际深度伪造案例中的假视频进行鉴伪和分析，并针对检测结果提供基于特定置信度条件下的模型检测准确率结论 (图 3)。

实验结果表明，当前领域内的现存深度伪造检测模型分别在迁移性、可解释性、鲁棒性话题方面各有建树，但当令其兼顾两个或三个话题和挑战时，在模型效果上则展现出了显著的权衡和取舍。

然而，通常来说，人们希望，一个可靠的深度伪造检测模型应同时具备良好的迁移性、通俗易懂的可解释性、稳定的鲁棒性，以便能够在实际生活中的深度伪造案例中保护和保障受害者的隐私安全。

因此，本综述论文所总结的理念、发现、结论也为深度伪造检测领域的研究者们提供了新的研究挑战与研究方向。

图 3: 深度伪造检测模型在四个实际案例中的视频上的检测结果以及其对应的 95% 置信度可靠性结论。

第一作者信息

王天一，本科毕业于美国华盛顿大学西雅图分校，修习计算机科学和应用数学双专业；博士毕业于香港大学，研究方向为多媒体取证；现为南洋理工大学在职博士后研究员。

引用信息

Tianyi Wang, Xin Liao, Kam Pui Chow, Xiaodong Lin, and Yinglong Wang. 2024. Deepfake Detection: A Comprehensive Survey from the Reliability Perspective. ACM Comput. Surv. 57, 3, Article 58 (March 2025), 35 pages. https://doi.org/10.1145/3699710

#OpenAI 不装了

左手赚钱，右手就一定有「神奇药水」吗？

近期，OpenAI CEO Sam Altman 一反此前的「故弄玄虚」「卖关子」，在其博客文章中明确表示，「已经知道如何构建通用人工智能（AGI）」。

为何 Sam Altman 这次如此笃定地表示已经明确知道如何做 AGI？要知道，在此前 OpenAI 官方发布的 AGI 路线图中，OpenAI 表示目前尚在 AGI 的 L2（推理者）阶段，在朝着 L3 阶段前进。

01. 从「神奇药水」到「通用软件」：OpenAI 不装了？

OpenAI 要如何构建 AGI？OpenAI 对于 AGI 定义的转变是为了其商业化战略调整铺路？

02. 通用人工智能系统才是 OpenAI 的「金苹果」？撑大「盘子」只是第一步

为什么说「通用」二字直接代表着「钱」？为什么通用人工智能系统才是「金苹果」？

03. Agent 才是最佳落地方式？Agent 方向最大的机会在哪？

Agent 的重要机会方向在哪？能否突破技术局限？

01 从「神奇药水」到「通用软件」：OpenAI 不装了？

Sam Altman 的自信，来自 OpenAI 对于定义 AGI 的转变。

1、据 OpenAI 与微软在 2024 年达成的一项未公开协议中提到，只有当 OpenAI 开发的 AI 系统，有「能力」为早期投资者（包括微软）创造出应得的最大总利润时，才视为实现了 AGI。最大总利润数字为 1000 亿美元。

① 简单来说，OpenAI 和微软将 AGI 定义为了能开发出盈利超 1000 亿美元的 AI 系统。

2、由此，在 OpenAI 看来，对于 AGI 的定义从在广泛的认知任务上能够与人类智能相媲美的人工智能转变成了盈利超 1000 亿美元的 AI 系统。

3、但为了实现 1000 亿的目标，对于 OpenAI 来说并不容易。OpenAI 目前仍处于亏损状态，预计在 2029 年才能实现首次盈利。

4、同样，Sam Altman 在其近期的推特中表示，由于用户使用 ChatGPT 的次数远远超出预期，OpenAI 在会员 PRO 付费订阅业务上仍是亏损状态。

5、2024 年 12 月，OpenAI 宣布了其组织架构调整，分为营利性和非营利性两部分。将现有的有限利润营利性公司 OpenAI Global 转化为特拉华州公共利益公司（Delaware Public Benefit Corporation，PBC。在完成转变后，公司非营利性组织对有限利润营利性公司 OpenAI Global 的股权将转化为 PBC 股份。PBC 将负责运营和控制盈利业务，而非营利组织将单独雇佣一支领导团队和员工，致力于在医疗、教育和科学等领域推进慈善事业。

6、OpenAI 将公司「一分为二」的调整，或许在一定意义上意味着要追求不同的「目标」。从「非盈利组织」到「有限利润公司」的转变，将更为方便地让 OpenAI 实现盈利和对外融资。一半是「赚钱」，另一半是「摘星 ASI」，而后者更像是提高盈利和股价的「砝码」。

7、从 OpenAI 对于定义 AGI 的转变，不难看出，关于「AGI 到底什么」、「是否已经真的找到了构建 AGI 的有效途径」等争议或许对于 OpenAI 来说并不重要，OpenAI 更大的关注点落在了如何做成通用人工智能系统，更进一步确切地讲，OpenAI 更想成为那个未来 10 亿或更多消费者使用的通用人工智能系统的「基石」。

8、OpenAI 技术团队成员 John Hallman 的话很有意思，「当 Sam 以及我们研究人员说 AGI 即将到来时，我们并不是为了卖你神奇的药水、2000 美元的订阅服务，或者诱使你在我们下一轮融资中投资。而是 AGI 时代真的要来了。」

02 OpenAI 更想做通用人工智能系统的基石，撑大「盘子」是第一步

回顾 OpenAI 从 24 年到 25 年伊始的种种动作，都指向了一个共同的关键词「通用」。

1、OpenAI 的目标是期望在未来一年内将用户规模扩大至 10 亿。让消费者在不同端侧、不同平台更好、更多地使用 OpenAI 的产品及服务，进一步扩大其市场「盘子」。

2、在 2024 年 5 月的「春季新品发布会」上，OpenAI 推出了生成模型 GPT-4o，该模型可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合输出。ChatGPT 基于 GPT-4o 的更新，集成了文本、语音、图像三种模态，相比于以往的 Siri 等语音助手，反应更快，且带感情、更通人性，能让用户感受更为自然的进行交互。GPT-4o 的推出，被认为是 OpenAI 抢夺移动端入口的「信号」。

3、同样，OpenAI 还 ......

03 通用人工智能系统是「金苹果」，而 Agent 是其重要载体

1、AI 为何重要？近来有一些说法将「AI」比作和电力一样重要且广泛可用的资源。电力曾经彻底变革了工业生产和生活方式，重塑了各个领域。

2、「通用」和「广泛可用」是目前业内追求实现 AI 的两个关键点。

3、吴恩达曾指出，AI 技术作为一项通用目的技术，如电力一般正在重塑各个领域。AI 应用是未来产生价值和收入的关键，随着半导体、云基础设施和基础模型的快速发展，AI 技术正成为推动社会进步的新引擎。

4、另一关键点是 AI 作为一种资源应广泛可用。谷歌前 CEO Eric Schmidt 曾提到，希望最大化人工智能技术的优势，AI 与电力、供暖、空调等东西一样重要，甚至可能更为重要，是人类可以利用、甚至滥用的智能，且是每个人都可以获得的智能，所以它极其强大。

5、OpenAI 也曾提到，公司的目标是让高级智能成为一种广泛可用的资源。

6、那么，通用人工智能中的「通用」具体指的是什么？如何构建通用人工智能系统？现在有能达到「通用人工智能」的系统吗？......

#Video Ocean V2.0

视频质量全面升级，依旧完全免费，薅羊毛的快乐等你来！

今日，潞晨 Video Ocean V2.0 正式来袭，本次升级不仅在模型、速度、功能玩法上 “大步进化”，还依旧完全免费，等着你来薅羊毛。创新的技术架构和用户导向的视频生成体验为你呈现全新的数字互动世界。

，赞1049

全面升级：不止于 “想得到”，更要 “拍得到”

在本次版本迭代中，我们对视频质量进行了全面升级：无论是人物、动物、环境，还是特写、近景、远景，画面精细度和真实感，都达到了全新的高度，带给你超级真实的样例。而且，不论是小幅动作还是大运动幅度的动态场景，都能做到流畅自然，让创作更加轻松、便捷。

现在，每个用户都可以轻松掌控镜头，导演属于自己的视觉大片！

三大亮点，让创作不再有束缚

1. 超级真实的画质

人物、场景、动作细节尽显逼真，视频中的每一帧都栩栩如生；角色面部、光影变化与环境交互细节，层次感倍增。

2. 运动幅度显著提升

无论是飞奔、跳跃还是极限运动场景，动态表现自然流畅，带来酣畅淋漓的视觉冲击；再 “疯狂” 的动作，Video Ocean 也能完美还原。

3. 风格更加多样

支持从 3D 写实到 2D 动画、从电影质感到赛博朋克等多重画风切换，让你的每个作品都拥有独特个性、无限惊喜。

现在就来体验 Video Ocean V2.0，让创意不再有束缚，轻松制作属于你的视觉大作！

X 网友都集体上头，热度直冲云霄！

不仅真人表现力更强，3D 角色的效果也同样出色。

国内用户创作入口：video.luchentech.com/zh-CN

视觉盛宴：多种 Demo，体验 V2.0 的 “大片” 魅力

下面展示几种风格各异的 Demo，看看 Video Ocean V2.0 如何将你的脑洞 “动” 起来：

未来视觉

极限驰骋

，时长00:04

动物世界

，时长00:05

真实瞬间

，时长00:05

萌宠拟人

，时长00:04

源自开源模型 Open Sora：让 AI 视频创作为人人所及

Video Ocean 视频大模型源自潞晨科技超火热的开源项目 Open Sora。自诞生以来热度持续飙升，一度登上 Github Trending 榜首。目前在 GitHub 上已经疯狂收割 23k+ stars，开发者们爱得不要不要的。Video Ocean 延续了该项目 “让 AI 视频创作为人人所及” 的初衷，这次的诚意也是拉满了，对所有人完全免费开放！

来，聊聊你能玩啥：文生、图生、角色生，一次爽个够！

文生视频：懒得拍摄、剪辑？只需写几行文字交给 AI，它帮你自动生成短片！风格随心选 —— 科幻、暗黑、古风、治愈系，灵感飞扬，创意无极限。

，时长00:04

一只熊猫骑着自行车穿梭在城市街头，车辆飞驰而过，4K 高清画质，电影级质感。

图生视频：给宠物照片 “注入灵魂”，让它在短视频里活蹦乱跳？上传图片，AI 就能将它变成动感十足的短片主角。让你的创意瞬间 “活” 起来！

，时长00:04

一只背上长着翅膀，带着彩虹项圈的小羊从草地上站起来，背景有彩虹和蝴蝶在飞，动画效果。

角色生视频：想拍连续剧或者同一角色出镜，烦恼每次都得重新设计形象？这个功能让你在不同场景下保证角色 “保持一致”，打造专属 IP，轻松实现多期内容联动，简直完美！

，时长00:04

泰勒・斯威夫特和道恩・强森为你送上新年祝福！

“视频续写 & 重试”：够长够爽，不满意就再来一发

有人喜欢短平快？有人偏爱长叙事？没问题！Video Ocean 支持最长续写到 20 秒，剧情更丰满，转折更多样。故事讲到一半还不过瘾？再加几秒！

而且，如果 AI 给你的初始版本没有击中内心深处的小宇宙，别急，直接点 “重试”—— 它再重新跑一遍，直到把你心里的小期待变成现实。这才叫自由创作，对吧？

全新 UI：像打开新年红包那样简单爽快

既然是 “全面升级”，怎么能少了 UI 改版？Video Ocean 的界面现在主打一个简洁好用：

简洁页面：不会埋伏太多功能 “陷阱”，新手拿到手也能秒懂怎么操作。
灵活输入框：文字输入、图片上传随意切换。5 秒搞定输入，光速开始生成。

从此，大佬小白都能在这个平台上嗨到飞起！

重点来了：本次升级依旧完全免费！见证真正的 “薅羊毛” 快乐！

别人家的平台，要么限时要么收费，但 Video Ocean 豪气冲天，完全免费啊！不用都感觉亏啊！

自媒体人士：换个思路打造爆款，“文案 + AI 短片” 轻松拿流量。
制片人导演：想搞大片、拍电影？玩转高难度动作和震撼特效？动作太危险、场景太贵？别担心！借助 AI 生视频，既能省钱又能降风险，大片照样拍得精彩！
个人爱好者：想捣鼓个贺岁小视频、二次元翻跳、宝可梦冒险？随时随地，有灵感就能动手，不怕犯错。
学生党：做课题、搞展示，一条 AI 视频燃爆全场，老师当场拍桌喊 666！

简直就是一场不花钱的 “创意大纵火”，喜欢就上手，不喜欢就删掉重来，也没损失。

这波操作，为什么大家都在 Pick Video Ocean？

技术过硬：自研 Open Sora，23k+ stars 可不是吹的！
算力逆天：潞晨科技为你保驾护航，少量机器也能跑出大片效果。
质量顶尖：视频质量全面升级，清晰度、流畅度、角色一致性都不逊色大厂。
操作门槛低：界面简单明了，生怕你不会用，手把手教你上天。
薅羊毛先行：完全免费！无需担心 “没钱尝试”。
多场景适用：短片、连续剧、IP 打造，皆可一站式满足。
模式灵活：文、图、角色，想怎么折腾就怎么折腾，还能继续写剧情。

最重要的一步：赶紧来体验啊！

点击链接前往 Video Ocean（http://video.luchentech.com/zh-CN），马上注册、登录，上手试一波，让 AI 把你的各种天马行空变成高清 “大片”。错过了，也别说我没提醒 —— 能免费创作视频的好机会可不常见！

别让免费的薅羊毛机会浪费！来，pick 一下！我们在 Video Ocean 等你哦！一起用 AI 把世界玩出花儿来～

#o1不是聊天模型？

24小时热度暴涨，奥特曼、Brockman在线围观

不要再将 o1 当做聊天模型了。

如何定位 o1 模型？你是否常常将其当做一个聊天模型来使用。

在刚刚过去的一天，一篇名为《o1 isn’t a chat model（and that’s the point）》的文章引发了包括 OpenAI CEO Sam Altman、总裁 Greg Brockman 的关注。

这篇文章表示 o1 不是一个聊天模型，我们可以将它想象成一个报告生成器。

原文链接：https://www.latent.space/p/o1-skill-issue

2024 年，OpenAI 接连放出了 o1、o1 pro、o3 模型，随着模型推理能力的提升，随着而来的是高昂的订阅费。但很多人在订阅使用后发现 o1 的表现并不如宣传的那样好，当然也包括本文的作者——曾任SpaceX软件工程师、苹果VisionOS人机交互设计师的Ben Hylak。

Hylak 表示每次他问 o1 一个问题时，都要等上 5 分钟的时间，结果看到的只是一大堆自相矛盾的胡言乱语，还有未经请求的架构图 + 优缺点列表。这让 Hylak 很是恼火，因此直言 o1 就是垃圾。

o1 回答问题，多次自相矛盾。

为了表达心中的愤怒，Hylak 还在社交媒体上分享了这种观点，「我今天一整天都在使用 o1 pro—— 我再怎么强调也不为过 —— 它真的很糟糕。」

「输出内容几乎接近胡言乱语，在同一个答案中多次自相矛盾。例如：我向它征求关于重构的建议。它建议合并文件，但输出的代码块中文件并未合并，然后又出现了完全不相关的结论。」

图源：https://x.com/benhylak/status/1864835651725910023

对于 Hylak 的观点，有人表示赞同，但也有人强烈反对，他们认为 o1 表现非常好。

随着 Hylak 与那些持反对意见的人交流越来越多，他逐渐意识到自己完全错了：他把 o1 当作聊天模型来使用，但实际上 o1 并不是聊天模型。

对于作者态度的转变，奥特曼很是欣慰，表示道：「随着人们学会如何使用 o1（包括 pro 版），观察人们对它态度的转变真是很有趣。」

奥特曼关于这条博客的推文浏览量达到 1.5M 。

Greg Brockman 表示：「o1 是一个不同类型的模型。要获得出色的性能，需要以一种与标准聊天模型不同的新方式来使用它。」

如果 o1 不是聊天模型，那它是什么？

我们可以把它想象成一个报告生成器（report generator）。如果你给定足够的上下文，然后告诉它你想要的输出，o1 通常会一下子确定解决方案。

接下来的问题是，如何使用 o1。

不要写提示，要写 Brief

给它大量的上下文，上下文的数量作者用 ton 来形容，我们可以把它想象成提示的 10 倍。

这张图解释了如何构建一个针对 o1 模型的提示（prompt），并将其分为几个部分。

通常情况下，当你使用像 Claude 3.5 Sonnet 或 4o 这样的聊天模型时，会先提出一个简单的问题并附带一些上下文。如果模型需要更多的上下文，它通常会向你询问。

你会与模型来回迭代，纠正它并扩展需求，直到达到期望的输出。聊天模型本质上是通过这种来回交互的方式从你这里获取上下文。在与模型交互过程中，我们可能会变得越来越懒，只要还能得到好的输出，输入的提示越来越敷衍。

但是，o1 会直接接受那些敷衍的问题，并不会试图从我们这里获取上下文。相反，你需要尽可能多地向 o1 提供上下文。

即使你只是询问一个简单的工程问题，你也需要：

详细说明所有你尝试过但没有奏效的方法；
添加所有数据库架构的完整 dump；
解释你公司的业务、规模（并定义公司特有的术语）。

简而言之，我们要把 o1 当作一个新入职的员工来对待。

把更多的时间用在开头提示上。图源：https://x.com/swyx/status/1839213190816870425

专注于目标：准确地描述你想要什么

一旦你向模型提供了尽可能多的上下文，就需要专注于解释你希望输出是什么。

在大多数模型中，我们会告诉模型我们希望它如何回答我们。例如：你是一位专家级软件工程师。你需要模型进行慢思考且思考的很仔细。

这与使用 o1 取得成功的方法完全相反。不要告诉它如何做 —— 只告诉它做什么。然后让 o1 接管，自行规划和解决问题的步骤。这就是自主推理的作用所在，实际上这比你作为人工环节手动审查和聊天要快得多。

知道 o1 擅长什么、不擅长什么

o1 擅长什么：

完美地一次性处理整个 / 多个文件：到目前为止，这是 o1 最令人印象深刻的能力。例如，复制 / 粘贴大量代码，大量关于正在构建内容的上下文，o1 会完全一次性地完成整个文件（或多个文件），通常没有错误，遵循现有模式代码库。
减少幻觉：例如，o1 确实擅长定制查询语言（如 ClickHouse 和 New Relic），而 Claude 经常混淆 Postgres 的语法。
医疗诊断：Hylak 的女朋友是一名皮肤科医生，当朋友或家人有皮肤问题时，他们通常会给 Hylak 的女朋友发一张照片。当 Hylak 拿照片询问 o1 时，o1 的回答通常与正确答案惊人地接近（约 60%）。对于医疗专业人员来说更有用 ——o1 几乎总能提供极其准确的鉴别诊断。
解释概念：Hylak 发现 o1 非常擅长通过示例解释非常困难的工程概念。
在制定困难的架构决策时，Hylak 经常会让 o1 生成多个计划，甚至比较这些计划，每个计划都有优缺点。
评估：Hylak 一直对使用 LLM 作为评估的判别器持非常怀疑的态度，但 o1 表现出巨大的希望 —— 它通常能够在很少的上下文下确定生成结果是否正确。

o1 做得还不够好的地方：

用特定的声音 / 风格写作：Hylak 发现 o1 不擅长写任何东西，尤其是在特定的声音或风格中。它遵循一种非常学术 / 企业的报告风格。

Hylak 尝试让 o1 写这篇博客的一个例子 — — 经过多次反复，它只会写一份平淡的报告。

构建整个应用程序：o1 非常擅长一次性构建整个文件，但 o1 不会构建整个 SaaS，至少不会进行大量迭代。不过，它几乎可以一次性完成整个功能，特别是前端功能或简单的后端功能。

延迟从根本上改变了我们对产品的体验。考虑一下电子邮件和短信之间的区别 —— 主要是延迟，语音消息与电话通话 —— 延迟，等等。

Hylak 将 o1 称为「报告生成器」，因为 o1 显然不是聊天模型 —— 它感觉更像电子邮件。

Hylak 认为 o1 将首次使某些产品成为可能 —— 例如，可以从高延迟、长时间运行的后台智能中受益的产品。

用户愿意等待 5 分钟来完成什么样的任务？一个小时？一天？3-5 个工作日？如果设计正确的话，有很多。

需要注意的是，o1-preview 和 o1-mini 支持流式传输，但不支持结构化生成或系统提示。o1 支持结构化生成和系统提示，但尚不支持流式传输。

当开发人员在 2025 年设计产品时，实际使用该模型做什么将会非常重要。

#从今以后，所有淘宝天猫商家都能一键图生视频了

这两年，大模型作为前沿技术，正逐步深入电商行业的各个环节。

2025，这一变革仍在加速：近日，【淘宝星辰 · 图生视频】工具已重磅上线，并对淘宝天猫商家正式开放！

体验地址：https://agi.taobao.com/

（目前仅对淘宝天猫商家开放，普通用户请耐心等待~）

以下视频来源于

阿里妈妈技术

，时长01:32

一、淘宝星辰：懂你，更懂电商！

【淘宝星辰】是由阿里妈妈基于自研的淘宝星辰视频生成大模型推出的视频AIGC工具。依靠先进的自研大模型、海量的电商数据、丰富的设计语言和业内领先的营销经验，【淘宝星辰 · 图生视频】工具在电商视频生成中展现出以下核心优势：

更懂商品的展示手法：基于丰富的电商数据和设计经验，自动识别并应用最适合不同类别商品的展示手法。从产品细节的精准呈现到整体风格的统一协调，确保每一件商品都能以最佳方式展示。

更强的多语种语义遵循能力：深度理解参考图片和多语种指令（中/英），精准捕捉文本指令中的关键动作信息，确保生成视频与用户意图高度契合。

合理的物理和动作规律：严格遵循物理规律和动作规范，确保画面流畅自然，避免出现不符合现实的画面效果，提升视频的真实感和专业度。

稳定的人物、商品和装饰保持：无论是人脸、商品、还是文字、贴纸等装饰元素，始终保持清晰、完整、无抖动或变形，提升视觉一致性。

二、淘宝星辰视频生成大模型

在主流AIGC背景下，视频生成早已不是单纯的生成算法优化和应用，而是一个更加复杂的、系统性的算法工程，其中人、数据、模型、算力是最核心的四个因素。

在2024年3月，我们基于Unet Diffusion Model路线研发并上线了阿瞳木动效视频，实现了视频AIGC在电商场景的首次应用落地，在业内产生了一定的传播度和影响力。但是，由于技术路线、数据等多个因素的限制，阿瞳木动效视频在画面稳定性、内容可控性、目标与动作丰富性等关键要素上，仍然存在较大的进步空间。

从去年3月至今，我们在视频AIGC方向上坚定地持续投入。通过算法、数据、工程等众多团队的密切协作，我们完成了面向生成任务的数据飞轮、自研3D VAE、自研淘宝星辰视频生成大模型（包括Tbstar-T2V、Tbstar-I2V、Tbstar-V2V等）等多个关键模块和模型从0到1的建设。目前，Tbstar-I2V大模型已经应用于【淘宝星辰 · 图生视频】工具中，为用户提供更懂电商的图生视频功能。

淘宝星辰视频生成大模型

三、更懂电商的图生视频3.1 操作便捷

仅需输入一张静态图片，淘宝星辰可根据对图片的理解直接生成视频，也可遵循用户输入的文本描述生成视频，一键生成高质量的5秒视频。

【淘宝星辰 · 图生视频】工具

3.2 更懂商品的展示手法

以更懂电商的方式展示服饰和非服饰商品，尤其是对模特动作的流畅性和专业性提升显著。

prompt：一个模特脸上带着酷酷的表情展示衣服

prompt：模特拿着咖啡，走向镜头，展示衣服

prompt：悬浮的气泡和水滴飘动

prompt：商品不动，植物随风摇动，云雾移动

3.3 更强的多语种语义遵循能力

深度理解参考图片，支持中英输入，精准捕捉文本指令中的关键动作信息，确保生成视频与用户意图高度契合。

prompt：模特拿手机挡着脸，对镜自拍展示衣服

，时长00:05

prompt：男生把手搭在女生肩膀上，两人靠在一起

3.4 专业的光影效果

根据参考图片和用户，推理光线变化，生成电影质感的光影效果。

，时长00:05

prompt：一个女人的脸部特写，创造出柔和的阴影和高光

，时长00:05

prompt：光线缓慢移动，创造出动态的阴影,背景保持不变，突出了人物面部和装饰的微妙变化

3.5 稳定的人物、商品和装饰保持

尤其针对电商图片中常见的文字、贴纸等装饰元素，始终保持清晰、完整、无抖动或变形，提升视觉一致性。

prompt：一个女模特对着镜头展示衣服

prompt：镜头后退，女模特走向镜头，展示衣服

四、高品质低成本的原生化应用

结合解说视频、模版视频等后期剪辑类工具，实现高品质、原生化电商视频的低成本智造，应用至主流电商场景，以及泛娱乐场景。

应用1：商品主图视频供给

单张商品主图一键生成主图视频。

单张主图 vs 主图视频

应用2：卖点吸睛视频

根据多张模特图分别生成视频片段，采用模版视频方式制作商品短视频，添加转场、特效和文字，快速生成吸睛的产品展示视频。

，时长00:11

应用3：服饰一体化解决方案

“模特图”或“平铺图”+虚拟模特，都能轻松生成多样化服饰视频。

根据用户虚拟试穿图片一键生成虚拟试穿视频，模拟服饰的真实上身效果。

用户虚拟试穿图

，时长00:05

用户虚拟试穿视频

应用5：UGC场景视频化

UGC图片一键转为视频，提升视频供给，例如评价、买家秀、逛逛等。

应用6：泛娱乐场景

AIGC时代可以不活但不能没活儿~

prompt：超级英雄和恐龙在沙滩上慢慢散步，背景是城市的天际线

，时长00:09

#FedCFA

破解联邦学习中的辛普森悖论，浙大提出反事实学习新框架

江中华，浙江大学软件学院硕士生二年级，导师为张圣宇老师。研究方向为大小模型端云协同计算。张圣宇，浙江大学平台「百人计划」研究员。研究方向包括大小模型端云协同计算，多媒体分析与数据挖掘。

随着机器学习技术的发展，隐私保护和分布式优化的需求日益增长。联邦学习作为一种分布式机器学习技术，允许多个客户端在不共享数据的情况下协同训练模型，从而有效地保护了用户隐私。然而，每个客户端的数据可能各不相同，有的数据量大，有的数据量小；有的数据特征丰富，有的数据特征单一。这种数据的异质性和不平衡性（Non-IID）会导致一个问题：本地训练的客户模型忽视了全局数据中明显的更广泛的模式，聚合的全局模型可能无法准确反映所有客户端的数据分布，甚至可能出现「辛普森悖论」—— 多端各自数据分布趋势相近，但与多端全局数据分布趋势相悖。

为了解决这一问题，来自浙江大学人工智能研究所的研究团队提出了 FedCFA，一个基于反事实学习的新型联邦学习框架。

FedCFA 引入了端侧反事实学习机制，通过在客户端本地生成与全局平均数据对齐的反事实样本，缓解端侧数据中存在的偏见，从而有效避免模型学习到错误的特征 - 标签关联。该研究已被 AAAI 2025 接收。

论文标题：FedCFA: Alleviating Simpson’s Paradox in Model Aggregation with Counterfactual Federated Learning

论文链接：https://arxiv.org/abs/2412.18904

项目地址：https://github.com/hua-zi/FedCFA

辛普森悖论

辛普森悖论（Simpson's Paradox）是一种统计现象。简单来说，当你把数据分成几个子组时，某些趋势或关系在每个子组中表现出一致的方向，但在整个数据集中却出现了相反的趋势。

图 1：辛普森悖论。在全局数据集上观察到的趋势在子集上消失 / 逆转，聚合的全局模型无法准确反映全局数据分布

在联邦学习中，辛普森悖论可能会导致全局模型无法准确捕捉到数据的真实分布。例如，某些客户端的数据中存在特定的特征 - 标签关联（如颜色与动物种类的关系），而这些关联可能在全局数据中并不存在。因此，直接将本地模型汇聚成全局模型可能会引入错误的学习结果，影响模型的准确性。

如图 2 所示。考虑一个用于对猫和狗图像进行分类的联邦学习系统，涉及具有不同数据集的两个客户端。客户端 i 的数据集主要包括白猫和黑狗的图像，客户端 j 的数据集包括浅灰色猫和棕色狗的图像。对于每个客户端而言，数据集揭示了类似的趋势：浅色动物被归类为「猫」，而深色动物被归类为「狗」。这导致聚合的全局模型倾向于将颜色与类别标签相关联并为颜色特征分配更高的权重。然而，全局数据分布引入了许多不同颜色的猫和狗的图像（例如黑猫和白狗），与聚合的全局模型相矛盾。在全局数据上训练的模型可以很容易地发现动物颜色与特定分类无关，从而减少颜色特征的权重。

图 2：FedCFA 可以生成客户端本地不存在的反事实样本，防止模型学习到不正确的特征 - 标签关联。

反事实学习

反事实（Counterfactual）就像是「如果事情发生了另一种情况，结果会如何？」的假设性推理。在机器学习中，反事实学习通过生成与现实数据不同的虚拟样本，来探索不同条件下的模型行为。这些虚拟样本可以帮助模型更好地理解数据中的因果关系，避免学习到虚假的关联。

反事实学习的核心思想是通过对现有数据进行干预，生成新的样本，这些样本反映了某种假设条件下的情况。例如，在图像分类任务中，我们可以改变图像中的某些特征（如颜色、形状等），生成与原图不同的反事实样本。通过让模型学习这些反事实样本，可以提高模型对真实数据分布的理解，避免过拟合局部数据的特点。

反事实学习广泛应用于推荐系统、医疗诊断、金融风险评估等领域。在联邦学习中，反事实学习可以帮助缓解辛普森悖论带来的问题，使全局模型更准确地反映整体数据的真实分布。

FedCFA 框架简介

为了解决联邦学习中的辛普森悖论问题，FedCFA 框架通过在客户端生成与全局平均数据对齐的反事实样本，使得本地数据分布更接近全局分布，从而有效避免了错误的特征 - 标签关联。

如图 2 所示，通过反事实变换生成的反事实样本使局部模型能够准确掌握特征 - 标签关联，避免局部数据分布与全局数据分布相矛盾，从而缓解模型聚合中的辛普森悖论。从技术上讲，FedCFA 的反事实模块，选择性地替换关键特征，将全局平均数据集成到本地数据中，并构建用于模型学习的反事实正 / 负样本。具体来说，给定本地数据，FedCFA 识别可有可无 / 不可或缺的特征因子，通过相应地替换这些特征来执行反事实转换以获得正 / 负样本。通过对更接近全局数据分布的反事实样本进行对比学习，客户端本地模型可以有效地学习全局数据分布。然而，反事实转换面临着从数据中提取独立可控特征的挑战。一个特征可以包含多种类型的信息，例如动物图像的一个像素可以携带颜色和形状信息。为了提高反事实样本的质量，需要确保提取的特征因子只包含单一信息。因此，FedCFA 引入因子去相关损失，直接惩罚因子之间的相关系数，以实现特征之间的解耦。

全局平均数据集的构建

为了构建全局平均数据集，FedCFA 利用了中心极限定理（Central Limit Theorem, CLT）。根据中心极限定理，若从原数据集中随机抽取的大小为 n 的子集平均值记为

，则当 n 足够大时，

的分布趋于正态分布，其均值为 μ，方差

，即：

，其中 µ 和

是原始数据集的期望和方差。

当 n 较小时，

能更精细地捕捉数据集的局部特征与变化，特别是在保留数据分布尾部和异常值附近的细节方面表现突出。相反，随着 n 的增大，

的稳定性显著提升，其方差明显减小，从而使其作为总体均值 𝜇 的估计更为稳健可靠，对异常值的敏感度大幅降低。此外，在联邦学习等分布式计算场景中，为了实现通信成本的有效控制，选择较大的 n 作为样本量被视为一种优化策略。

基于上述分析，FedCFA 按照以下步骤构建一个大小为 B 的全局平均数据集，以此近似全局数据分布：

1．本地平均数据集计算：每个客户端将其本地数据集随机划分为 B 个大小为

的子集

，其中

为客户端数据集大小。对于每个子集，计算其平均值

。由此，客户端能够生成本地平均数据集

以近似客户端原始数据的分布。

2．全局平均数据集计算：服务器端则负责聚合来自多个客户端的本地平均数据，并采用相同的方法计算出一个大小为 B 的全局平均数据集

，该数据集近似了全局数据的分布。对于标签 Y，FedCFA 采取相同的计算策略，生成其对应的全局平均数据标签

。最终得到完整的全局平均数据集

反事实变换模块

图 3：FedCFA 中的本地模型训练流程

FedCFA 中的本地模型训练流程如图 3 所示。反事实变换模块的主要任务是在端侧生成与全局数据分布对齐的反事实样本：

1. 特征提取：使用编码器（Encoder）从原始数据中提取特征因子

。

2. 选择关键特征：计算每个特征在解码器（Decoder）输出层的梯度，选择梯度小 / 大的 topk 个特征因子作为可替换的因子，使用

将选定的小 / 大梯度因子设置为零，以保留需要的因子

3. 生成反事实样本：用 Encoder 提取的全局平均数据特征替换可替换的特征因子，得到反事实正 / 负样本，对于正样本，标签不会改变。对于负样本，使用加权平均值来生成反事实标签：

因子去相关损失

同一像素可能包含多个数据特征。例如，在动物图像中，一个像素可以同时携带颜色和外观信息。为了提高反事实样本的质量，FedCFA 引入了因子去相关（Factor Decorrelation, FDC）损失，用于减少提取出的特征因子之间的相关性，确保每个特征因子只携带单一信息。具体来说，FDC 损失通过计算每对特征之间的皮尔逊相关系数（Pearson Correlation Coefficient）来衡量特征的相关性，并将其作为正则化项加入到总损失函数中。

给定一批数据，用

来表示第 i 个样本的所有因子。

表示第 i 个样本的第 j 个因子。将同一批次中每个样本的相同指标 j 的因子视为一组变量

。最后，使用每对变量的 Pearson 相关系数绝对值的平均值作为 FDC 损失：

其中 Cov (・) 是协方差计算函数，Var (・) 是方差计算函数。最终的总损失为：

实验结果

实验采用两个指标：500 轮后的全局模型精度和达到目标精度所需的通信轮数，来评估 FedCFA 的性能。

实验基于 MNIST 构建了一个具有辛普森悖论的数据集。具体来说，给 1 和 7 两类图像进行上色，并按颜色深浅划分给 5 个客户端。每个客户端的数据中，数字 1 的颜色都比数字 7 的颜色深。随后预训练一个准确率 96% 的 MLP 模型，作为联邦学习模型初始模型。让 FedCFA 与 FedAvg，FedMix 两个 baseline 作为对比，在该数据集上进行训练。如图 5 所示，训练过程中，FedAvg 和 FedMix 均受辛普森悖论的影响，全局模型准确率下降。而 FedCFA 通过反事实转换，可以破坏数据中的虚假的特征 - 标签关联，生成反事实样本使得本地数据分布靠近全局数据分布，模型准确率提升。