Cyber Weekly #36
赛博·新闻
1、OpenAI发布会总结
- Day3(12.10):OpenAI Sora Turbo 能够根据文本、图像或现有视频生成新视频,视频最长可达 20 秒,分辨率高达 1080p,提供了 Remix、Re-cut、Loop、Blend 等编辑功,官网链接:http://sora.com。-->【视频】等到了!OpenAI第3天发布会正式上线Sora,这才是真正的AI视频
- Day4(12.11):ChatGPT 将 Canvas 功能完全整合到其核心模型中。用户现可直接在 Canvas 环境中执行 Python 代码,同时定制 GPTs 也引入该功能。-->【发布会回放】OpenAI第四天:Canvas新增3大AI功能,团队协作时间缩短40%
- Day5(12.12):ChatGPT 正式登陆 iOS 生态系统,全面支持 iPhone、iPad 和 Mac,用户可以通过苹果 Siri 直接访问 ChatGPT(GPT-4o 版本)。-->【视频】OpenAI 发布会第五天:全智能生态不是概念,这或许是AI手机的样子
- Day6(12.13):ChatGPT 推出了视频通话和屏幕共享功能以及一款圣诞老人限定语音「Santa Mode」。-->【发布会回放】OpenAI第六天:真正的AI助手-不仅会看懂屏幕,还能和你聊天
- Day7(12.14):OpenAI 发布 ChatGPT Projects 新功能,允许用户将聊天记录、文件及自定义指令整合至一个清晰的界面,让工作流程更加清晰。-->【视频】OpenAI发布会第七天:新增”文件夹”功能,AI不止是聊天机器人这么简单
- Day8(12.17):OpenAI宣布了 ChatGPT 搜索的全新升级,更新带来了更快的搜索速度、全新的地图体验和 YouTube 视频嵌入等突破性功能。此次更新主要包含三大重点:全方位体验升级、语音搜索新突破和全球同步推出。新一代 AI 搜索的浪潮正在重塑我们获取信息的方式,包括对话式搜索、多维度整合、实时互动、场景化服务和智能推荐。这些功能让知识获取变得更普遍、更高效、更智能,改变我们的认知边界。-->【视频】OpenAI 发布会第八天:关于新一代AI搜索,你必须知道的5件事
- Day9(12.18):OpenAI 宣布了 o1 模型的 API 开放使用,为开发者带来了一系列激动人心的更新。这些更新包括成本的大幅降低,例如语音功能价格降低了 60%,并推出了价格仅为原价十分之一的 “迷你版” 语音服务。o1 模型的 API 现已支持功能调用、开发者消息、Structured Outputs 以及视觉识别等功能。此外,实时 API 升级集成了简单的 WebRTC 功能,偏好微调技术帮助开发者根据用户需求和偏好优化模型,而 Go 和 Java SDK 的测试版开放使得开发者可以快速上手集成。这些进步意味着 AI 应用的开发变得更简单、更便宜,也更容易根据具体需求进行定制。-->OpenAI 发布会第九天:o1 模型开放 API 使用,开发者最关心的更新有哪些?
- Day10(12.19):OpenAI宣布用户可以通过电话或 WhatsApp 等即时通讯工具使用 ChatGPT,这一举措极大地降低了 AI 的使用门槛,扩大了受众群体,并提升了使用场景。-->【深度】OpenAI第十天发布会:打个电话就能用AI?从一个电话号码看十亿用户的布局
- Day11(12.20):OpenAI宣布了 ChatGPT 桌面版的三项更新,这些更新将改变工作方式,包括自动处理文档、在 30 个应用间无缝切换和语音对话功能。这些更新不仅提升了用户体验,还标志着 AI 开始真正理解人类的工作方式和思维方式。-->【视频】今天第11天的发布会很短,因为OpenAI把所有惊喜都留在了明天
- Day12(12.21):OpenAI发布新一代 AI 模型 o3 及其精简版 o3-mini。o3 在编程领域展现出媲美顶级程序员的实力,在科学推理方面创造了多项新纪录。o3-mini 计划于 1 月底向公众开放,预示着革命性技术将很快走入普通人的生活。文章详细介绍了 o3 的八大看点,包括其超越人类极限的 AI 能力、超越传统思维的思考方式、高昂的计算成本、局限性、与通用人工智能(AGI)的距离、AI 进化史上的里程碑时刻、o3 的开源计划,以及参与改变历史的红队测试申请机会。-->【发布会回顾】OpenAI第12天:新品o3发布会的8大看点,第5个让全球都坐不住了
腾讯科技对12天发布会的总结:
2、MidJourney 发布在线创作工具 Patchwork
Midjourney 最近推出了一款名叫 Patchwork 的新工具。公司创始人 David Holz 表示,Patchwork 就像是一个由 AI 支持的创意画板,用户可以在上面把零散的创意想法慢慢发展成完整的故事,还能和其他人一起构建一个连贯的故事世界,甚至可以把各种图片和文字「拼贴」成独特的视觉故事。创建的世界默认是公开的,但用户也可以设置成私密的或者只允许别人查看。
3、Gemini 2.0 发布,全面转向 Agent
Google 最近推出了新一代的大模型 Gemini 2.0。该模型支持图片、视频和音频等多模态输入,并且能够进行多模态输出,例如直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。在关键基准测试中,Gemini 2.0 Flash 的速度是前代产品 Gemini 1.5 Pro 的两倍。基于 Gemini 2.0 模型,谷歌能够构建新的 AI Agent(智能体)。
4、谷歌发布Veo 2视频生成模型,效果反超Sora
本周,谷歌发布多款视频/图片生成模型,其中Veo 2 在理解物理世界、生成人类表情、处理复杂细节方面表现出色,被认为在视频生成领域超越了 Sora 等模型。谷歌还进行了人类评估者对比评估,Veo 2 在整体偏好和指令遵从度上均表现强势。此外,谷歌计划将 Veo 2 扩展到 YouTube Shorts 等产品上。
- Veo 2:视频生成模型,可使用文本或图像 prompt 生成高真实感、高质量的视频;
- Imagen 3:文生图模型,可更忠实地遵从提示词,实现更加丰富的细节和纹理渲染;
- Whisk:图生图工具,基于 Imagen 3 与 Gemini 的视觉理解和描述能力打造,能让用户更加方便地调整图像的场景、风格和物体。
5、Kimi 发布视觉思考模型 k1
本周一(12.16),Kimi 发布了其视觉思考模型 k1,该模型基于强化学习技术,支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。k1 模型在数学、物理、化学等基础科学学科的基准能力测试中超过了 OpenAI 的 o1、GPT-4o 以及 Claude 3.5 Sonnet。k1 模型已上线最新版 Kimi 智能助手的 Android 和 iPhone 手机 APP 以及网页版kimi.com,提供拍照或传图体验,并展示推理思维链 CoT。k1 模型在强化学习技术的助推下,显著提升了解决复杂任务的成功率,并在基准测试中取得行业领先成绩。此外,Kimi 还构建了一个标准化的测试集 Science Vista,涵盖不同难度的数理化图片题目,将开放给全行业使用。
6、可灵 1.6 模型全新发布!
本周,快手宣布了可灵 AI 平台的 1.6 模型全新发布,该版本在文本响应度、动态质量及画面质量方面均有显著提升。1.6 模型能够更好地响应运动、时序类动作等文字描述,并生成首帧图中未包含的元素。动态质量方面,人物表情更自然,运动合理性得到提升。画面质量方面,风格保持更好,色彩更美观,光影更合理,细节更逼真。1.6 模型支持标准和高品质模式,价格保持不变。
7、豆包视觉理解模型正式发布
在本周(12月18日)举办的火山引擎 Force 大会上,字节跳动正式发布豆包视觉理解模型,为企业提供极具性价比的多模态大模型能力。豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%。
赛博·洞见
1、Ilya Sutskever :预训练即将终结
在温哥华举行的神经信息处理系统大会(NeurIPS)上,OpenAI 前首席科学家 Ilya Sutskever 发表公开演讲。
Ilya 指出,当前 AI 模型预训练方式将不可避免地走向终结。他将 AI 训练数据比作「化石燃料」,认为互联网上的人类生成内容是有限的,业界已经达到了数据峰值,「我们只有一个互联网,必须适应现有的数据资源」。他预测,下一代 AI 系统将突破当前局限,具备真正的主动性和类人推理能力,但他也警告,随着 AI 推理能力的提升,其行为将变得愈发难以预测,就如同即便是顶尖棋手也无法准确预判高级象棋 AI 的走法。
2、AI Coding 最全图谱:Agent 将如何颠覆软件
文章深入探讨了 AI 在编程领域的应用,特别是 Agent 如何改变软件工程。文章提到了以下观点:
- 软件工程的民主化将使软件制造成本大幅下降,用户无需理解编程操作,只需理解运行逻辑。
- 未来的开发体验将结合同步和异步的 AI 辅助,提升开发效率和质量。
- UI/UX 交互层面的创新将降低使用门槛,使 AI 应用空间得到扩展,特别是在 AI 编程领域。
3、一文看懂:四种多Agent范式哪种最好
文章首先介绍了多智能体系统在对话任务解决中的潜力和局限,指出尽管多智能体系统在复杂推理任务中表现出色,但在基础任务上不尽人意。文章提出了三个挑战:讨论长度与任务要求的符合度、长时间讨论的对齐崩溃风险,以及长时间生成造成的讨论垄断问题。接着,文章详细介绍了多智能体大语言模型(MALLM)的概念,包括智能体、讨论和决策三个主要部分,并探讨了智能体的分类、讨论范式、提示技术和决策制定过程。最后,文章通过 MALLM 框架对不同范式进行了评估,分析了范式性能与任务的关系、内部通信结构的重要性、多智能体 LLM 在识别无法回答的问题上的效果,以及讨论长度和角色对任务性能的影响,为未来研究提供了新的思路。
4、再融7800万美金,AI toC独角兽来了
Speak,一款 AI 英语学习产品,宣布完成 7800 万美元 C 轮融资,总融资额达到 1.62 亿美元,估值 10 亿美元,成为首个真正面向消费者的 AI 独角兽企业。Speak 的 ARR 接近 5000 万美元,年增长率 100%。投资人包括顶级 VC Accel、OpenAI Startup Fund 等。Speak 的收入主要来自亚洲市场,尤其是韩国和日本,近期中国台湾市场收入快速增长。产品迭代包括增加 ChatBot、快速练习功能,以及覆盖更多实际场景的对话练习,同时引入游戏化设计和个性化定制课程。尽管人均使用时长下降,但用户接受度和商业化方式显示出积极效果。
5、红杉:AI 大厦将成,2025 三大 AI 预测
红杉资本认为 2024 年是 AI 的元年,预计到 2025 年 AI 的基础设施将更加稳固。文章提出了三大预测:首先,大语言模型供应商将出现差异化竞争,五家公司成为 “最终入围者”。其次,AI 搜索将成为杀手级应用,改变白领工作者的工作方式。最后,尽管投资回报率面临问题,但资本支出将趋于稳定,新的数据中心产能将投入使用,AI 算力价格将继续下降,激励创新。
6、微软 CEO 纳德拉最新两万字洞察:C 端 Agent 商业模式仍需摸索,广告流量模式或面临转变,B 端关键在生态集成
微软 CEO Satya Nadella 在与投资人的讨论中分享了对 AI 发展的深刻见解。他认为 AI 领域将不再是赢家通吃,而是多个企业在不同层次的技术领域展开竞争。智能体(Agent)被视为比传统搜索引擎更智能和个性化的工具,能够保持状态、记住用户历史并提供持续的互动。随着消费者对 AI 的需求增加,传统搜索引擎面临新挑战,未来将见证从传统搜索到基于 AI 的问答系统的转变。智能体的出现可能打破了传统搜索引擎的界限,能够提供直接的答案,而不仅仅是链接,改变了用户的互动方式。对于消费者端,智能体的商业模式仍在摸索中,传统的广告和流量驱动模式可能需要转变。企业级的智能体接口可能会变得更加重要,微软已经在利用 AI 接入多个系统,如 Adobe、SAP 和自家的 CRM(Dynamics)。这种接口可以帮助 AI 获取和整合企业数据,进而提供更高效的服务。
7、对话哥飞:内容就是新时代的 SEO
文章通过与 SEO 专家哥飞的对话,揭示了内容创作与 SEO 之间的紧密联系。哥飞指出,无论是谷歌还是现代内容平台,它们都不生产内容,而是依赖站长和创作者提供内容。因此,创作者需要制作既吸引平台算法又吸引用户的内容。哥飞分享了 SEO 的宝贵经验,包括如何通过结构化信息和提供增量内容来获得谷歌的青睐,以及如何通过内容获得社交媒体的自发传播流量。文章还讨论了爬虫的基本原理和 SEO 实践中产品与开发的紧密配合。最后,哥飞提供了自媒体运营的建议,强调了持续生产、反馈、调整的重要性,并鼓励每个人都尝试自媒体。
8、对话谷歌科学家:智能体是大模型落地重点,AI的未来是大小模型协作
文章通过与谷歌科学家的对话,深入探讨了强化学习在 AI 领域的重要性,特别是 AlphaZero 项目如何展示了 AI 超越人类知识限制的能力。讨论了智能体和多模态整合作为 AI 未来的关键发展方向,强调了从单一模型向拥有多种能力的智能体转变的重要性。同时,文章指出 AI 开发范式已从数据主导转变为模型主导,未来 AI 系统将由多个 AI 模型或智能体相互协作构成。谷歌 Kaggle 的 CEO D.Sculley 强调了 AI 领域进展的快速性,以及社区在评估和压力测试大型模型中的关键作用。
赛博·工具
1、Slea.ai
免费的 AI Logo 生成器。
2、AI音效生成器
免费生成各种音效,比如雨声、风声。
3、颜色代码表
在线配色设计工具集。
赛博·资源
1、2024年度AI十大趋势报告(关注公众号【产品老A】回复【2024年度AI十大趋势报告】下载)
量子位智库发布,该报告深入分析了AI技术的最新进展和行业应用,预测了AI在多个领域的发展趋势,包括大模型创新、AGI探索、AI应用格局变化等。报告认为AI技术正成为科技发展的主旋律,影响着全球的产业和经济。AI技术的发展不仅在科学研究中占有重要地位,而且在产业变革中发挥着关键作用。随着技术的不断进步,AI将在更多行业中发挥更大的作用,推动社会进入一个新的发展阶段。十大趋势总结如下:
技术:
- 趋势一:大模型创新:架构优化加速涌现,融合迭代大势所趋。
- 趋势二:Scaling Law 泛化:推理能力成皇冠明珠,倒逼计算和数据变革。
- 趋势三:AGI探索:视频生成点燃世界模型,空间智能统一虚拟和现实。
产品:
- 趋势四:AI应用格局:第一轮洗牌结束,聚焦20赛道5大场景。
- 趋势五:AI应用竞争:多领域竞速运营大于技术,AI助手兵家必争。
- 趋势六:AI应用增长:AI+X赋能类产品大干快上,原生AI爆款难求。
- 趋势七:AI产品趋势:多模态上马,Agent席卷一切,高度个性化呼之欲出。
行业:
- 趋势八:AI智变千行百业:左手变革生产力,右手重塑行业生态。
- 趋势九:AI行业渗透率:数据基础决定初速度,用户需求成为加速度。
- 趋势十:AI创投:投融资马太效应明显,国家队出手频率提升。
2、2024人工智能产业30条判断(关注公众号【产品老A】回复【2024人工智能产业30条判断】下载)
甲子光年智库发布,报告深入分析了2024年人工智能产业的多个方面,包括技术进步、行业应用、市场趋势和未来发展。报告通过数据和图表展示了AI在不同领域的应用情况,如AI在PC、GPU、数据中心等领域的发展,并预测了AI技术的未来走向。AI技术将继续深刻影响各行各业,推动技术进步和产业变革。AI技术的发展将带来更多的商业机会和挑战,同时也需要关注AI技术的伦理和安全问题。30个判断总结如下:
- 算力迈向超万卡时代
- 算力已从基础设施走向公共服务,将开启算力即服务时代
- 光互连成为加速GPU算力集群新选择
- AI终端推动端侧算力需求增加,端侧NPU成为新热点
- 预训练大模型从百模大战走向寡头垄断
- 算法变革元年,寻找非Transformer架构的算法最优解
- o1推动AI“深思熟虑”地“归纳世界”
- 单元大模型,推动AI终端走向群体智能
- 数据标注已成建设高质量中文数据集的重要路径
- 数据空间,让数据流通起来的新起点
- Agent重构软件形态,多智能体协同推动业务智能化场景落地
- AI Infra,算力供需矛盾催生出新的赛道
- AI SaaS的新十年,企业智能化管理从AI合同开始
- C端市场已经开启流量争夺战
- 价格背后是商业变现的焦虑
- GPTs倒下了,AI Store的故事还在继续
- AI搜索有望成为下一个真正的AI超级应用
- AI代码让产品开发进入自然语言交互时代
- 视频生成从短视频走向长视频,从生活场景走向专业场景
- AI体验营销,重塑营销理论与流程,推动营销管理思想变革
- AI for Science:AI改变科技,科技改变生活
- AI改变医疗范式,从“被动治疗”走向“主动健康”
- 具身智能的未来在工厂
- 手机+智能体,AI手机的新形态
- AI新物种,AI PC将成为用户的个人AI助理
- XR,AI元宇宙的虚实连接器
- 端到端自动驾驶技术从感知走向决策
- AI交互重塑人机协作分工模式
- AI主语化,人类主导权在逐步让渡
- 人择世界,决定AI文明的发展上线