当前位置：首页 > article >正文

Cyber Weekly #36

article 2025/2/28 23:17:55

赛博·新闻

1、OpenAI发布会总结

Day3（12.10）：OpenAI Sora Turbo 能够根据文本、图像或现有视频生成新视频，视频最长可达 20 秒，分辨率高达 1080p，提供了 Remix、Re-cut、Loop、Blend 等编辑功，官网链接：http://sora.com。-->【视频】等到了!OpenAI第3天发布会正式上线Sora，这才是真正的AI视频
Day4（12.11）：ChatGPT 将 Canvas 功能完全整合到其核心模型中。用户现可直接在 Canvas 环境中执行 Python 代码，同时定制 GPTs 也引入该功能。-->【发布会回放】OpenAI第四天：Canvas新增3大AI功能，团队协作时间缩短40%
Day5（12.12）：ChatGPT 正式登陆 iOS 生态系统，全面支持 iPhone、iPad 和 Mac，用户可以通过苹果 Siri 直接访问 ChatGPT（GPT-4o 版本）。-->【视频】OpenAI 发布会第五天：全智能生态不是概念，这或许是AI手机的样子
Day6（12.13）：ChatGPT 推出了视频通话和屏幕共享功能以及一款圣诞老人限定语音「Santa Mode」。-->【发布会回放】OpenAI第六天：真正的AI助手-不仅会看懂屏幕，还能和你聊天
Day7（12.14）：OpenAI 发布 ChatGPT Projects 新功能，允许用户将聊天记录、文件及自定义指令整合至一个清晰的界面，让工作流程更加清晰。-->【视频】OpenAI发布会第七天：新增”文件夹”功能，AI不止是聊天机器人这么简单
Day8（12.17）：OpenAI宣布了 ChatGPT 搜索的全新升级，更新带来了更快的搜索速度、全新的地图体验和 YouTube 视频嵌入等突破性功能。此次更新主要包含三大重点：全方位体验升级、语音搜索新突破和全球同步推出。新一代 AI 搜索的浪潮正在重塑我们获取信息的方式，包括对话式搜索、多维度整合、实时互动、场景化服务和智能推荐。这些功能让知识获取变得更普遍、更高效、更智能，改变我们的认知边界。-->【视频】OpenAI 发布会第八天：关于新一代AI搜索，你必须知道的5件事
Day9（12.18）：OpenAI 宣布了 o1 模型的 API 开放使用，为开发者带来了一系列激动人心的更新。这些更新包括成本的大幅降低，例如语音功能价格降低了 60%，并推出了价格仅为原价十分之一的 “迷你版” 语音服务。o1 模型的 API 现已支持功能调用、开发者消息、Structured Outputs 以及视觉识别等功能。此外，实时 API 升级集成了简单的 WebRTC 功能，偏好微调技术帮助开发者根据用户需求和偏好优化模型，而 Go 和 Java SDK 的测试版开放使得开发者可以快速上手集成。这些进步意味着 AI 应用的开发变得更简单、更便宜，也更容易根据具体需求进行定制。-->OpenAI 发布会第九天：o1 模型开放 API 使用，开发者最关心的更新有哪些？
Day10（12.19）：OpenAI宣布用户可以通过电话或 WhatsApp 等即时通讯工具使用 ChatGPT，这一举措极大地降低了 AI 的使用门槛，扩大了受众群体，并提升了使用场景。-->【深度】OpenAI第十天发布会：打个电话就能用AI？从一个电话号码看十亿用户的布局
Day11（12.20）：OpenAI宣布了 ChatGPT 桌面版的三项更新，这些更新将改变工作方式，包括自动处理文档、在 30 个应用间无缝切换和语音对话功能。这些更新不仅提升了用户体验，还标志着 AI 开始真正理解人类的工作方式和思维方式。-->【视频】今天第11天的发布会很短，因为OpenAI把所有惊喜都留在了明天
Day12（12.21）：OpenAI发布新一代 AI 模型 o3 及其精简版 o3-mini。o3 在编程领域展现出媲美顶级程序员的实力，在科学推理方面创造了多项新纪录。o3-mini 计划于 1 月底向公众开放，预示着革命性技术将很快走入普通人的生活。文章详细介绍了 o3 的八大看点，包括其超越人类极限的 AI 能力、超越传统思维的思考方式、高昂的计算成本、局限性、与通用人工智能（AGI）的距离、AI 进化史上的里程碑时刻、o3 的开源计划，以及参与改变历史的红队测试申请机会。-->【发布会回顾】OpenAI第12天：新品o3发布会的8大看点，第5个让全球都坐不住了

腾讯科技对12天发布会的总结：

2、MidJourney 发布在线创作工具 Patchwork

Midjourney 最近推出了一款名叫 Patchwork 的新工具。公司创始人 David Holz 表示，Patchwork 就像是一个由 AI 支持的创意画板，用户可以在上面把零散的创意想法慢慢发展成完整的故事，还能和其他人一起构建一个连贯的故事世界，甚至可以把各种图片和文字「拼贴」成独特的视觉故事。创建的世界默认是公开的，但用户也可以设置成私密的或者只允许别人查看。

3、Gemini 2.0 发布，全面转向 Agent

Google 最近推出了新一代的大模型 Gemini 2.0。该模型支持图片、视频和音频等多模态输入，并且能够进行多模态输出，例如直接生成图像与文本混合的内容，以及原生生成可控的多语言文本转语音（TTS）音频。在关键基准测试中，Gemini 2.0 Flash 的速度是前代产品 Gemini 1.5 Pro 的两倍。基于 Gemini 2.0 模型，谷歌能够构建新的 AI Agent（智能体）。

4、谷歌发布Veo 2视频生成模型，效果反超Sora

本周，谷歌发布多款视频/图片生成模型，其中Veo 2 在理解物理世界、生成人类表情、处理复杂细节方面表现出色，被认为在视频生成领域超越了 Sora 等模型。谷歌还进行了人类评估者对比评估，Veo 2 在整体偏好和指令遵从度上均表现强势。此外，谷歌计划将 Veo 2 扩展到 YouTube Shorts 等产品上。

Veo 2：视频生成模型，可使用文本或图像 prompt 生成高真实感、高质量的视频；
Imagen 3：文生图模型，可更忠实地遵从提示词，实现更加丰富的细节和纹理渲染；
Whisk：图生图工具，基于 Imagen 3 与 Gemini 的视觉理解和描述能力打造，能让用户更加方便地调整图像的场景、风格和物体。

5、Kimi 发布视觉思考模型 k1

本周一（12.16），Kimi 发布了其视觉思考模型 k1，该模型基于强化学习技术，支持端到端图像理解和思维链技术，并将能力扩展到数学之外的更多基础科学领域。k1 模型在数学、物理、化学等基础科学学科的基准能力测试中超过了 OpenAI 的 o1、GPT-4o 以及 Claude 3.5 Sonnet。k1 模型已上线最新版 Kimi 智能助手的 Android 和 iPhone 手机 APP 以及网页版kimi.com，提供拍照或传图体验，并展示推理思维链 CoT。k1 模型在强化学习技术的助推下，显著提升了解决复杂任务的成功率，并在基准测试中取得行业领先成绩。此外，Kimi 还构建了一个标准化的测试集 Science Vista，涵盖不同难度的数理化图片题目，将开放给全行业使用。

6、可灵 1.6 模型全新发布！

本周，快手宣布了可灵 AI 平台的 1.6 模型全新发布，该版本在文本响应度、动态质量及画面质量方面均有显著提升。1.6 模型能够更好地响应运动、时序类动作等文字描述，并生成首帧图中未包含的元素。动态质量方面，人物表情更自然，运动合理性得到提升。画面质量方面，风格保持更好，色彩更美观，光影更合理，细节更逼真。1.6 模型支持标准和高品质模式，价格保持不变。

7、豆包视觉理解模型正式发布

在本周（12月18日）举办的火山引擎 Force 大会上，字节跳动正式发布豆包视觉理解模型，为企业提供极具性价比的多模态大模型能力。豆包视觉理解模型千tokens输入价格仅为3厘，一元钱就可处理284张720P的图片，比行业价格便宜85％。

赛博·洞见

1、Ilya Sutskever ：预训练即将终结

在温哥华举行的神经信息处理系统大会(NeurIPS)上，OpenAI 前首席科学家 Ilya Sutskever 发表公开演讲。

Ilya 指出，当前 AI 模型预训练方式将不可避免地走向终结。他将 AI 训练数据比作「化石燃料」，认为互联网上的人类生成内容是有限的，业界已经达到了数据峰值，「我们只有一个互联网，必须适应现有的数据资源」。他预测，下一代 AI 系统将突破当前局限，具备真正的主动性和类人推理能力，但他也警告，随着 AI 推理能力的提升，其行为将变得愈发难以预测，就如同即便是顶尖棋手也无法准确预判高级象棋 AI 的走法。

2、AI Coding 最全图谱：Agent 将如何颠覆软件

文章深入探讨了 AI 在编程领域的应用，特别是 Agent 如何改变软件工程。文章提到了以下观点：

软件工程的民主化将使软件制造成本大幅下降，用户无需理解编程操作，只需理解运行逻辑。
未来的开发体验将结合同步和异步的 AI 辅助，提升开发效率和质量。
UI/UX 交互层面的创新将降低使用门槛，使 AI 应用空间得到扩展，特别是在 AI 编程领域。

3、一文看懂：四种多Agent范式哪种最好

文章首先介绍了多智能体系统在对话任务解决中的潜力和局限，指出尽管多智能体系统在复杂推理任务中表现出色，但在基础任务上不尽人意。文章提出了三个挑战：讨论长度与任务要求的符合度、长时间讨论的对齐崩溃风险，以及长时间生成造成的讨论垄断问题。接着，文章详细介绍了多智能体大语言模型（MALLM）的概念，包括智能体、讨论和决策三个主要部分，并探讨了智能体的分类、讨论范式、提示技术和决策制定过程。最后，文章通过 MALLM 框架对不同范式进行了评估，分析了范式性能与任务的关系、内部通信结构的重要性、多智能体 LLM 在识别无法回答的问题上的效果，以及讨论长度和角色对任务性能的影响，为未来研究提供了新的思路。

4、再融7800万美金，AI toC独角兽来了

Speak，一款 AI 英语学习产品，宣布完成 7800 万美元 C 轮融资，总融资额达到 1.62 亿美元，估值 10 亿美元，成为首个真正面向消费者的 AI 独角兽企业。Speak 的 ARR 接近 5000 万美元，年增长率 100%。投资人包括顶级 VC Accel、OpenAI Startup Fund 等。Speak 的收入主要来自亚洲市场，尤其是韩国和日本，近期中国台湾市场收入快速增长。产品迭代包括增加 ChatBot、快速练习功能，以及覆盖更多实际场景的对话练习，同时引入游戏化设计和个性化定制课程。尽管人均使用时长下降，但用户接受度和商业化方式显示出积极效果。

5、红杉：AI 大厦将成，2025 三大 AI 预测

红杉资本认为 2024 年是 AI 的元年，预计到 2025 年 AI 的基础设施将更加稳固。文章提出了三大预测：首先，大语言模型供应商将出现差异化竞争，五家公司成为 “最终入围者”。其次，AI 搜索将成为杀手级应用，改变白领工作者的工作方式。最后，尽管投资回报率面临问题，但资本支出将趋于稳定，新的数据中心产能将投入使用，AI 算力价格将继续下降，激励创新。

6、微软 CEO 纳德拉最新两万字洞察：C 端 Agent 商业模式仍需摸索，广告流量模式或面临转变，B 端关键在生态集成

微软 CEO Satya Nadella 在与投资人的讨论中分享了对 AI 发展的深刻见解。他认为 AI 领域将不再是赢家通吃，而是多个企业在不同层次的技术领域展开竞争。智能体（Agent）被视为比传统搜索引擎更智能和个性化的工具，能够保持状态、记住用户历史并提供持续的互动。随着消费者对 AI 的需求增加，传统搜索引擎面临新挑战，未来将见证从传统搜索到基于 AI 的问答系统的转变。智能体的出现可能打破了传统搜索引擎的界限，能够提供直接的答案，而不仅仅是链接，改变了用户的互动方式。对于消费者端，智能体的商业模式仍在摸索中，传统的广告和流量驱动模式可能需要转变。企业级的智能体接口可能会变得更加重要，微软已经在利用 AI 接入多个系统，如 Adobe、SAP 和自家的 CRM（Dynamics）。这种接口可以帮助 AI 获取和整合企业数据，进而提供更高效的服务。

7、对话哥飞：内容就是新时代的 SEO

文章通过与 SEO 专家哥飞的对话，揭示了内容创作与 SEO 之间的紧密联系。哥飞指出，无论是谷歌还是现代内容平台，它们都不生产内容，而是依赖站长和创作者提供内容。因此，创作者需要制作既吸引平台算法又吸引用户的内容。哥飞分享了 SEO 的宝贵经验，包括如何通过结构化信息和提供增量内容来获得谷歌的青睐，以及如何通过内容获得社交媒体的自发传播流量。文章还讨论了爬虫的基本原理和 SEO 实践中产品与开发的紧密配合。最后，哥飞提供了自媒体运营的建议，强调了持续生产、反馈、调整的重要性，并鼓励每个人都尝试自媒体。

8、对话谷歌科学家：智能体是大模型落地重点，AI的未来是大小模型协作

文章通过与谷歌科学家的对话，深入探讨了强化学习在 AI 领域的重要性，特别是 AlphaZero 项目如何展示了 AI 超越人类知识限制的能力。讨论了智能体和多模态整合作为 AI 未来的关键发展方向，强调了从单一模型向拥有多种能力的智能体转变的重要性。同时，文章指出 AI 开发范式已从数据主导转变为模型主导，未来 AI 系统将由多个 AI 模型或智能体相互协作构成。谷歌 Kaggle 的 CEO D.Sculley 强调了 AI 领域进展的快速性，以及社区在评估和压力测试大型模型中的关键作用。

赛博·工具

1、Slea.ai

免费的 AI Logo 生成器。

2、AI音效生成器

免费生成各种音效，比如雨声、风声。

3、颜色代码表

在线配色设计工具集。

赛博·资源

1、2024年度AI十大趋势报告（关注公众号【产品老A】回复【2024年度AI十大趋势报告】下载）

量子位智库发布，该报告深入分析了AI技术的最新进展和行业应用，预测了AI在多个领域的发展趋势，包括大模型创新、AGI探索、AI应用格局变化等。报告认为AI技术正成为科技发展的主旋律，影响着全球的产业和经济。AI技术的发展不仅在科学研究中占有重要地位，而且在产业变革中发挥着关键作用。随着技术的不断进步，AI将在更多行业中发挥更大的作用，推动社会进入一个新的发展阶段。十大趋势总结如下：

技术：

趋势一：大模型创新：架构优化加速涌现，融合迭代大势所趋。
趋势二：Scaling Law 泛化：推理能力成皇冠明珠，倒逼计算和数据变革。
趋势三：AGI探索：视频生成点燃世界模型，空间智能统一虚拟和现实。

产品：

趋势四：AI应用格局：第一轮洗牌结束，聚焦20赛道5大场景。
趋势五：AI应用竞争：多领域竞速运营大于技术，AI助手兵家必争。
趋势六：AI应用增长：AI+X赋能类产品大干快上，原生AI爆款难求。
趋势七：AI产品趋势：多模态上马，Agent席卷一切，高度个性化呼之欲出。

行业：

趋势八：AI智变千行百业：左手变革生产力，右手重塑行业生态。
趋势九：AI行业渗透率：数据基础决定初速度，用户需求成为加速度。
趋势十：AI创投：投融资马太效应明显，国家队出手频率提升。

2、2024人工智能产业30条判断（关注公众号【产品老A】回复【2024人工智能产业30条判断】下载）

甲子光年智库发布，报告深入分析了2024年人工智能产业的多个方面，包括技术进步、行业应用、市场趋势和未来发展。报告通过数据和图表展示了AI在不同领域的应用情况，如AI在PC、GPU、数据中心等领域的发展，并预测了AI技术的未来走向。AI技术将继续深刻影响各行各业，推动技术进步和产业变革。AI技术的发展将带来更多的商业机会和挑战，同时也需要关注AI技术的伦理和安全问题。30个判断总结如下：

算力迈向超万卡时代
算力已从基础设施走向公共服务，将开启算力即服务时代
光互连成为加速GPU算力集群新选择
AI终端推动端侧算力需求增加，端侧NPU成为新热点
预训练大模型从百模大战走向寡头垄断
算法变革元年，寻找非Transformer架构的算法最优解
o1推动AI“深思熟虑”地“归纳世界”
单元大模型，推动AI终端走向群体智能
数据标注已成建设高质量中文数据集的重要路径
数据空间，让数据流通起来的新起点
Agent重构软件形态，多智能体协同推动业务智能化场景落地
AI Infra，算力供需矛盾催生出新的赛道
AI SaaS的新十年，企业智能化管理从AI合同开始
C端市场已经开启流量争夺战
价格背后是商业变现的焦虑
GPTs倒下了，AI Store的故事还在继续
AI搜索有望成为下一个真正的AI超级应用
AI代码让产品开发进入自然语言交互时代
视频生成从短视频走向长视频，从生活场景走向专业场景
AI体验营销，重塑营销理论与流程，推动营销管理思想变革
AI for Science：AI改变科技，科技改变生活
AI改变医疗范式，从“被动治疗”走向“主动健康”
具身智能的未来在工厂
手机+智能体，AI手机的新形态
AI新物种，AI PC将成为用户的个人AI助理
XR，AI元宇宙的虚实连接器
端到端自动驾驶技术从感知走向决策
AI交互重塑人机协作分工模式
AI主语化，人类主导权在逐步让渡
人择世界，决定AI文明的发展上线