当前位置: 首页 > article >正文

Cyber Weekly #36

赛博·新闻

1、OpenAI发布会总结

  • Day3(12.10):OpenAI Sora Turbo 能够根据文本、图像或现有视频生成新视频,视频最长可达 20 秒,分辨率高达 1080p,提供了 Remix、Re-cut、Loop、Blend 等编辑功,官网链接:http://sora.com。-->【视频】等到了!OpenAI第3天发布会正式上线Sora,这才是真正的AI视频
  • Day4(12.11):ChatGPT 将 Canvas 功能完全整合到其核心模型中。用户现可直接在 Canvas 环境中执行 Python 代码,同时定制 GPTs 也引入该功能。-->【发布会回放】OpenAI第四天:Canvas新增3大AI功能,团队协作时间缩短40%
  • Day5(12.12):ChatGPT 正式登陆 iOS 生态系统,全面支持 iPhone、iPad 和 Mac,用户可以通过苹果 Siri 直接访问 ChatGPT(GPT-4o 版本)。-->【视频】OpenAI 发布会第五天:全智能生态不是概念,这或许是AI手机的样子
  • Day6(12.13):ChatGPT 推出了视频通话和屏幕共享功能以及一款圣诞老人限定语音「Santa Mode」。-->【发布会回放】OpenAI第六天:真正的AI助手-不仅会看懂屏幕,还能和你聊天
  • Day7(12.14):OpenAI 发布 ChatGPT Projects 新功能,允许用户将聊天记录、文件及自定义指令整合至一个清晰的界面,让工作流程更加清晰。-->【视频】OpenAI发布会第七天:新增”文件夹”功能,AI不止是聊天机器人这么简单
  • Day8(12.17):OpenAI宣布了 ChatGPT 搜索的全新升级,更新带来了更快的搜索速度、全新的地图体验和 YouTube 视频嵌入等突破性功能。此次更新主要包含三大重点:全方位体验升级、语音搜索新突破和全球同步推出。新一代 AI 搜索的浪潮正在重塑我们获取信息的方式,包括对话式搜索、多维度整合、实时互动、场景化服务和智能推荐。这些功能让知识获取变得更普遍、更高效、更智能,改变我们的认知边界。-->【视频】OpenAI 发布会第八天:关于新一代AI搜索,你必须知道的5件事
  • Day9(12.18):OpenAI 宣布了 o1 模型的 API 开放使用,为开发者带来了一系列激动人心的更新。这些更新包括成本的大幅降低,例如语音功能价格降低了 60%,并推出了价格仅为原价十分之一的 “迷你版” 语音服务。o1 模型的 API 现已支持功能调用、开发者消息、Structured Outputs 以及视觉识别等功能。此外,实时 API 升级集成了简单的 WebRTC 功能,偏好微调技术帮助开发者根据用户需求和偏好优化模型,而 Go 和 Java SDK 的测试版开放使得开发者可以快速上手集成。这些进步意味着 AI 应用的开发变得更简单、更便宜,也更容易根据具体需求进行定制。-->OpenAI 发布会第九天:o1 模型开放 API 使用,开发者最关心的更新有哪些?
  • Day10(12.19):OpenAI宣布用户可以通过电话或 WhatsApp 等即时通讯工具使用 ChatGPT,这一举措极大地降低了 AI 的使用门槛,扩大了受众群体,并提升了使用场景。-->【深度】OpenAI第十天发布会:打个电话就能用AI?从一个电话号码看十亿用户的布局
  • Day11(12.20):OpenAI宣布了 ChatGPT 桌面版的三项更新,这些更新将改变工作方式,包括自动处理文档、在 30 个应用间无缝切换和语音对话功能。这些更新不仅提升了用户体验,还标志着 AI 开始真正理解人类的工作方式和思维方式。-->【视频】今天第11天的发布会很短,因为OpenAI把所有惊喜都留在了明天
  • Day12(12.21):OpenAI发布新一代 AI 模型 o3 及其精简版 o3-mini。o3 在编程领域展现出媲美顶级程序员的实力,在科学推理方面创造了多项新纪录。o3-mini 计划于 1 月底向公众开放,预示着革命性技术将很快走入普通人的生活。文章详细介绍了 o3 的八大看点,包括其超越人类极限的 AI 能力、超越传统思维的思考方式、高昂的计算成本、局限性、与通用人工智能(AGI)的距离、AI 进化史上的里程碑时刻、o3 的开源计划,以及参与改变历史的红队测试申请机会。-->【发布会回顾】OpenAI第12天:新品o3发布会的8大看点,第5个让全球都坐不住了

腾讯科技对12天发布会的总结: 

2、MidJourney 发布在线创作工具 Patchwork

Midjourney 最近推出了一款名叫 Patchwork 的新工具。公司创始人 David Holz 表示,Patchwork 就像是一个由 AI 支持的创意画板,用户可以在上面把零散的创意想法慢慢发展成完整的故事,还能和其他人一起构建一个连贯的故事世界,甚至可以把各种图片和文字「拼贴」成独特的视觉故事。创建的世界默认是公开的,但用户也可以设置成私密的或者只允许别人查看。

3、Gemini 2.0 发布,全面转向 Agent

Google 最近推出了新一代的大模型 Gemini 2.0。该模型支持图片、视频和音频等多模态输入,并且能够进行多模态输出,例如直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。在关键基准测试中,Gemini 2.0 Flash 的速度是前代产品 Gemini 1.5 Pro 的两倍。基于 Gemini 2.0 模型,谷歌能够构建新的 AI Agent(智能体)。

4、谷歌发布Veo 2视频生成模型,效果反超Sora

本周,谷歌发布多款视频/图片生成模型,其中Veo 2 在理解物理世界、生成人类表情、处理复杂细节方面表现出色,被认为在视频生成领域超越了 Sora 等模型。谷歌还进行了人类评估者对比评估,Veo 2 在整体偏好和指令遵从度上均表现强势。此外,谷歌计划将 Veo 2 扩展到 YouTube Shorts 等产品上。

  • Veo 2:视频生成模型,可使用文本或图像 prompt 生成高真实感、高质量的视频;
  • Imagen 3:文生图模型,可更忠实地遵从提示词,实现更加丰富的细节和纹理渲染;
  • Whisk:图生图工具,基于 Imagen 3 与 Gemini 的视觉理解和描述能力打造,能让用户更加方便地调整图像的场景、风格和物体。

5、Kimi 发布视觉思考模型 k1

本周一(12.16),Kimi 发布了其视觉思考模型 k1,该模型基于强化学习技术,支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。k1 模型在数学、物理、化学等基础科学学科的基准能力测试中超过了 OpenAI 的 o1、GPT-4o 以及 Claude 3.5 Sonnet。k1 模型已上线最新版 Kimi 智能助手的 Android 和 iPhone 手机 APP 以及网页版kimi.com,提供拍照或传图体验,并展示推理思维链 CoT。k1 模型在强化学习技术的助推下,显著提升了解决复杂任务的成功率,并在基准测试中取得行业领先成绩。此外,Kimi 还构建了一个标准化的测试集 Science Vista,涵盖不同难度的数理化图片题目,将开放给全行业使用。

6、可灵 1.6 模型全新发布!

本周,快手宣布了可灵 AI 平台的 1.6 模型全新发布,该版本在文本响应度、动态质量及画面质量方面均有显著提升。1.6 模型能够更好地响应运动、时序类动作等文字描述,并生成首帧图中未包含的元素。动态质量方面,人物表情更自然,运动合理性得到提升。画面质量方面,风格保持更好,色彩更美观,光影更合理,细节更逼真。1.6 模型支持标准和高品质模式,价格保持不变。

7、豆包视觉理解模型正式发布

在本周(12月18日)举办的火山引擎 Force 大会上,字节跳动正式发布豆包视觉理解模型,为企业提供极具性价比的多模态大模型能力。豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%。

赛博·洞见

1、Ilya Sutskever :预训练即将终结

在温哥华举行的神经信息处理系统大会(NeurIPS)上,OpenAI 前首席科学家 Ilya Sutskever 发表公开演讲。

Ilya 指出,当前 AI 模型预训练方式将不可避免地走向终结。他将 AI 训练数据比作「化石燃料」,认为互联网上的人类生成内容是有限的,业界已经达到了数据峰值,「我们只有一个互联网,必须适应现有的数据资源」。他预测,下一代 AI 系统将突破当前局限,具备真正的主动性和类人推理能力,但他也警告,随着 AI 推理能力的提升,其行为将变得愈发难以预测,就如同即便是顶尖棋手也无法准确预判高级象棋 AI 的走法。

2、AI Coding 最全图谱:Agent 将如何颠覆软件

文章深入探讨了 AI 在编程领域的应用,特别是 Agent 如何改变软件工程。文章提到了以下观点:

  • 软件工程的民主化将使软件制造成本大幅下降,用户无需理解编程操作,只需理解运行逻辑。
  • 未来的开发体验将结合同步和异步的 AI 辅助,提升开发效率和质量。
  • UI/UX 交互层面的创新将降低使用门槛,使 AI 应用空间得到扩展,特别是在 AI 编程领域。

3、一文看懂:四种多Agent范式哪种最好

文章首先介绍了多智能体系统在对话任务解决中的潜力和局限,指出尽管多智能体系统在复杂推理任务中表现出色,但在基础任务上不尽人意。文章提出了三个挑战:讨论长度与任务要求的符合度、长时间讨论的对齐崩溃风险,以及长时间生成造成的讨论垄断问题。接着,文章详细介绍了多智能体大语言模型(MALLM)的概念,包括智能体、讨论和决策三个主要部分,并探讨了智能体的分类、讨论范式、提示技术和决策制定过程。最后,文章通过 MALLM 框架对不同范式进行了评估,分析了范式性能与任务的关系、内部通信结构的重要性、多智能体 LLM 在识别无法回答的问题上的效果,以及讨论长度和角色对任务性能的影响,为未来研究提供了新的思路。

4、再融7800万美金,AI toC独角兽来了

Speak,一款 AI 英语学习产品,宣布完成 7800 万美元 C 轮融资,总融资额达到 1.62 亿美元,估值 10 亿美元,成为首个真正面向消费者的 AI 独角兽企业。Speak 的 ARR 接近 5000 万美元,年增长率 100%。投资人包括顶级 VC Accel、OpenAI Startup Fund 等。Speak 的收入主要来自亚洲市场,尤其是韩国和日本,近期中国台湾市场收入快速增长。产品迭代包括增加 ChatBot、快速练习功能,以及覆盖更多实际场景的对话练习,同时引入游戏化设计和个性化定制课程。尽管人均使用时长下降,但用户接受度和商业化方式显示出积极效果。

5、红杉:AI 大厦将成,2025 三大 AI 预测

红杉资本认为 2024 年是 AI 的元年,预计到 2025 年 AI 的基础设施将更加稳固。文章提出了三大预测:首先,大语言模型供应商将出现差异化竞争,五家公司成为 “最终入围者”。其次,AI 搜索将成为杀手级应用,改变白领工作者的工作方式。最后,尽管投资回报率面临问题,但资本支出将趋于稳定,新的数据中心产能将投入使用,AI 算力价格将继续下降,激励创新。

6、微软 CEO 纳德拉最新两万字洞察:C 端 Agent 商业模式仍需摸索,广告流量模式或面临转变,B 端关键在生态集成

微软 CEO Satya Nadella 在与投资人的讨论中分享了对 AI 发展的深刻见解。他认为 AI 领域将不再是赢家通吃,而是多个企业在不同层次的技术领域展开竞争。智能体(Agent)被视为比传统搜索引擎更智能和个性化的工具,能够保持状态、记住用户历史并提供持续的互动。随着消费者对 AI 的需求增加,传统搜索引擎面临新挑战,未来将见证从传统搜索到基于 AI 的问答系统的转变。智能体的出现可能打破了传统搜索引擎的界限,能够提供直接的答案,而不仅仅是链接,改变了用户的互动方式。对于消费者端,智能体的商业模式仍在摸索中,传统的广告和流量驱动模式可能需要转变。企业级的智能体接口可能会变得更加重要,微软已经在利用 AI 接入多个系统,如 Adobe、SAP 和自家的 CRM(Dynamics)。这种接口可以帮助 AI 获取和整合企业数据,进而提供更高效的服务。

7、对话哥飞:内容就是新时代的 SEO

文章通过与 SEO 专家哥飞的对话,揭示了内容创作与 SEO 之间的紧密联系。哥飞指出,无论是谷歌还是现代内容平台,它们都不生产内容,而是依赖站长和创作者提供内容。因此,创作者需要制作既吸引平台算法又吸引用户的内容。哥飞分享了 SEO 的宝贵经验,包括如何通过结构化信息和提供增量内容来获得谷歌的青睐,以及如何通过内容获得社交媒体的自发传播流量。文章还讨论了爬虫的基本原理和 SEO 实践中产品与开发的紧密配合。最后,哥飞提供了自媒体运营的建议,强调了持续生产、反馈、调整的重要性,并鼓励每个人都尝试自媒体。

8、对话谷歌科学家:智能体是大模型落地重点,AI的未来是大小模型协作

文章通过与谷歌科学家的对话,深入探讨了强化学习在 AI 领域的重要性,特别是 AlphaZero 项目如何展示了 AI 超越人类知识限制的能力。讨论了智能体和多模态整合作为 AI 未来的关键发展方向,强调了从单一模型向拥有多种能力的智能体转变的重要性。同时,文章指出 AI 开发范式已从数据主导转变为模型主导,未来 AI 系统将由多个 AI 模型或智能体相互协作构成。谷歌 Kaggle 的 CEO D.Sculley 强调了 AI 领域进展的快速性,以及社区在评估和压力测试大型模型中的关键作用。

赛博·工具

1、Slea.ai

免费的 AI Logo 生成器。

2、AI音效生成器

免费生成各种音效,比如雨声、风声。

3、颜色代码表

在线配色设计工具集。

赛博·资源

1、2024年度AI十大趋势报告(关注公众号【产品老A】回复【2024年度AI十大趋势报告】下载)

量子位智库发布,该报告深入分析了AI技术的最新进展和行业应用,预测了AI在多个领域的发展趋势,包括大模型创新、AGI探索、AI应用格局变化等。报告认为AI技术正成为科技发展的主旋律,影响着全球的产业和经济。AI技术的发展不仅在科学研究中占有重要地位,而且在产业变革中发挥着关键作用。随着技术的不断进步,AI将在更多行业中发挥更大的作用,推动社会进入一个新的发展阶段。十大趋势总结如下:

技术:

  • 趋势一:大模型创新:架构优化加速涌现,融合迭代大势所趋。
  • 趋势二:Scaling Law 泛化:推理能力成皇冠明珠,倒逼计算和数据变革。
  • 趋势三:AGI探索:视频生成点燃世界模型,空间智能统一虚拟和现实。

产品:

  • 趋势四:AI应用格局:第一轮洗牌结束,聚焦20赛道5大场景。
  • 趋势五:AI应用竞争:多领域竞速运营大于技术,AI助手兵家必争。
  • 趋势六:AI应用增长:AI+X赋能类产品大干快上,原生AI爆款难求。
  • 趋势七:AI产品趋势:多模态上马,Agent席卷一切,高度个性化呼之欲出。

行业:

  • 趋势八:AI智变千行百业:左手变革生产力,右手重塑行业生态。
  • 趋势九:AI行业渗透率:数据基础决定初速度,用户需求成为加速度。
  • 趋势十:AI创投:投融资马太效应明显,国家队出手频率提升。

2、2024人工智能产业30条判断(关注公众号【产品老A】回复【2024人工智能产业30条判断】下载)

甲子光年智库发布,报告深入分析了2024年人工智能产业的多个方面,包括技术进步、行业应用、市场趋势和未来发展。报告通过数据和图表展示了AI在不同领域的应用情况,如AI在PC、GPU、数据中心等领域的发展,并预测了AI技术的未来走向。AI技术将继续深刻影响各行各业,推动技术进步和产业变革。AI技术的发展将带来更多的商业机会和挑战,同时也需要关注AI技术的伦理和安全问题。30个判断总结如下:

  1. 算力迈向超万卡时代
  2. 算力已从基础设施走向公共服务,将开启算力即服务时代
  3. 光互连成为加速GPU算力集群新选择
  4. AI终端推动端侧算力需求增加,端侧NPU成为新热点
  5. 预训练大模型从百模大战走向寡头垄断
  6. 算法变革元年,寻找非Transformer架构的算法最优解
  7. o1推动AI深思熟虑”地“归纳世界”
  8. 单元大模型,推动AI终端走向群体智能
  9. 数据标注已成建设高质量中文数据集的重要路径
  10. 数据空间,让数据流通起来的新起点
  11. Agent重构软件形态,多智能体协同推动业务智能化场景落地
  12. AI Infra,算力供需矛盾催生出新的赛道
  13. AI SaaS的新十年,企业智能化管理从AI合同开始
  14. C端市场已经开启流量争夺战
  15. 价格背后是商业变现的焦虑
  16. GPTs倒下了,AI Store的故事还在继续
  17. AI搜索有望成为下一个真正的AI超级应用
  18. AI代码让产品开发进入自然语言交互时代
  19. 视频生成从短视频走向长视频,从生活场景走向专业场景
  20. AI体验营销,重塑营销理论与流程,推动营销管理思想变革
  21. AI for ScienceAI改变科技,科技改变生活
  22. AI改变医疗范式,从“被动治疗”走向“主动健康”
  23. 具身智能的未来在工厂
  24. 手机+智能体,AI手机的新形态
  25. AI新物种,AI PC将成为用户的个人AI助理
  26. XRAI元宇宙的虚实连接器
  27. 端到端自动驾驶技术从感知走向决策
  28. AI交互重塑人机协作分工模式
  29. AI主语化,人类主导权在逐步让渡
  30. 人择世界,决定AI文明的发展上线


http://www.kler.cn/a/446881.html

相关文章:

  • XILINX平台LINUX下高速ADC08060驱动
  • Python中的上下文管理器:从资源管理到自定义实现
  • STM32 高级 物联网通信之CAN通讯
  • 使用CNN模型训练图片识别(键盘,椅子,眼镜,水杯,鼠标)
  • OB删除1.5亿数据耗费2小时
  • 音视频入门基础:MPEG2-TS专题(21)——FFmpeg源码中,获取TS流的视频信息的实现
  • 《Java核心技术I》Swing中的边框
  • OOP面向对象编程:类与类之间的关系
  • 进程与线程以及如何查看
  • 12.15-12.22学习周报
  • uniapp video组件无法播放视频解决方案
  • C# Winform自定义的UI分页控件
  • Everything实现,快速搜索文件
  • 宠物管理系统(2):utils
  • LeetCode136. 只出现一次的数字(2024冬季每日一题 38)
  • 基于SpringBoot+layui+html实现电影院售票系统【源码+数据库文件+包部署成功+答疑解惑问到会为止】
  • 相机(Camera)成像原理详解
  • JavaScript中,常用crypto模块进行rsa加密,crypto-js模块进行md5算法
  • 【数据库】SQL语句基础
  • Java中正则表达式的介绍、使用场景及示例代码
  • Java学习,输出数组元素
  • 31.设计模式
  • Element@2.15.14-tree checkStrictly 状态实现父项联动子项,实现节点自定义编辑、新增、删除功能
  • Java基础面试题17:GenericServlet和HttpServlet有什么区别?
  • 【Java】mac安装Java17(JDK17)
  • 前端数据持久化指南:LocalStorage、SessionStorage 等的区别与应用