当前位置：首页 > article >正文

今日 AI 简报｜苹果推出的新框架，智源开源千万级多模态数据集，字节推出图像编辑模型，开源大语言模型和实时对话系统等

article 2025/2/24 19:05:34

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

在这里插入图片描述

App Intents 是苹果推出的支持开发者在 iOS、macOS 等平台上集成 Siri 和 Apple Intelligence 的新框架，实现应用功能与系统体验的无缝融合。用户可以直接用 Siri 控制应用、搜索应用内容，创建自动化操作，提升应用的智能化和便捷性。

在这里插入图片描述

Infinity-MM 是智源研究院推出的千万级多模态指令数据集，包含 4300 万条样本，数据量达 10TB。数据集经过质量过滤和去重，能提升开源视觉-语言模型（VLMs）的性能。基于 Infinity-MM，智源成功训练 20 亿参数的多模态模型 Aquila-VL-2B，取得最先进的性能。

在这里插入图片描述

HK-O1aw 是由香港生成式 AI 研发中心和北京大学合作推出的法律推理大模型，在合同法、消费者权益保护法等多个法律领域表现出色。模型采用 O1 风格数据集和训练方式，侧重慢思考和链式推理，提供逻辑严密的法律意见。

在这里插入图片描述

VideoChat 是开源的实时数字人对话系统，支持语音输入和实时对话功能。用户可以自定义数字人的形象和音色，首包延迟低至 3 秒。系统支持流式视频输出，适配多种实时语音交互场景。

在这里插入图片描述

FabricDiffusion 是谷歌和卡内基梅隆大学共同推出的高保真度 3D 服装生成技术，能将 2D 服装图像的纹理和印花高质量地转移到 3D 服装模型上。基于去噪扩散模型和大规模合成数据集，实现在不同光照条件下的精确渲染。

在这里插入图片描述

OpenCoder 是由墨尔本大学、复旦大学等高校联合无限光年推出的开源代码生成模型，能在多个编码基准测试中达到专有模型的性能，提供模型权重和推理代码，助力研究社区构建和创新。

项目官网：https://opencoder-llm.github.io
GitHub 仓库：https://github.com/OpenCoder-llm/OpenCoder-llm
HuggingFace 模型库：https://huggingface.co/collections/infly/opencoder-672cec44bbb86c39910fb55e
arXiv 技术论文：https://arxiv.org/pdf/2411.04905

在这里插入图片描述

DimensionX 是由香港科技大学、清华大学和生数科技共同推出的框架，能从单张图片生成高逼真度的 3D 和 4D 场景，基于视频扩散技术实现对空间和时间维度的精确控制。框架包含轨迹感知机制和身份保持去噪策略，增强场景的一致性和真实感。

在这里插入图片描述

SeedEdit 是字节豆包大模型团队推出的通用图像编辑模型，基于简单的自然语言指令编辑图像，支持局部替换、几何变换、重新照明、风格变化等操作。模型在图像编辑的通用性、可控性和高质量输出方面取得突破。

项目官网：https://team.doubao.com/en/special/seededit
技术论文：https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/SeedEdit.pdf
在线体验 Demo：https://huggingface.co/spaces/ByteDance/SeedEdit-APP

🥦 微信公众号｜搜一搜：蚝油菜花 🥦