今日 AI 简报|苹果推出的新框架,智源开源千万级多模态数据集,字节推出图像编辑模型,开源大语言模型和实时对话系统等
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
App Intents:苹果推出的新框架
App Intents 是苹果推出的支持开发者在 iOS、macOS 等平台上集成 Siri 和 Apple Intelligence 的新框架,实现应用功能与系统体验的无缝融合。用户可以直接用 Siri 控制应用、搜索应用内容,创建自动化操作,提升应用的智能化和便捷性。
资源
- 项目官网:https://developer.apple.com/documentation/appintents
Infinity-MM:智源的千万级多模态指令数据集
Infinity-MM 是智源研究院推出的千万级多模态指令数据集,包含 4300 万条样本,数据量达 10TB。数据集经过质量过滤和去重,能提升开源视觉-语言模型(VLMs)的性能。基于 Infinity-MM,智源成功训练 20 亿参数的多模态模型 Aquila-VL-2B,取得最先进的性能。
资源
- HuggingFace 模型库:https://huggingface.co/datasets/BAAI/Infinity-MM
- arXiv 技术论文:https://arxiv.org/pdf/2410.18558
HK-O1aw:法律推理大模型
HK-O1aw 是由香港生成式 AI 研发中心和北京大学合作推出的法律推理大模型,在合同法、消费者权益保护法等多个法律领域表现出色。模型采用 O1 风格数据集和训练方式,侧重慢思考和链式推理,提供逻辑严密的法律意见。
资源
- GitHub 仓库:https://github.com/HKAIR-Lab/HK-O1aw/
- HuggingFace 模型库:https://huggingface.co/HKAIR-Lab/HK-O1aw
VideoChat:实时数字人对话系统
VideoChat 是开源的实时数字人对话系统,支持语音输入和实时对话功能。用户可以自定义数字人的形象和音色,首包延迟低至 3 秒。系统支持流式视频输出,适配多种实时语音交互场景。
资源
- GitHub 仓库:https://github.com/Henry-23/VideoChat
- 在线体验 Demo:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
FabricDiffusion:高保真度 3D 服装生成技术
FabricDiffusion 是谷歌和卡内基梅隆大学共同推出的高保真度 3D 服装生成技术,能将 2D 服装图像的纹理和印花高质量地转移到 3D 服装模型上。基于去噪扩散模型和大规模合成数据集,实现在不同光照条件下的精确渲染。
资源
- 项目官网:https://humansensinglab.github.io/fabric-diffusion
- arXiv 技术论文:https://arxiv.org/pdf/2410.01801
OpenCoder:开源代码生成模型
OpenCoder 是由墨尔本大学、复旦大学等高校联合无限光年推出的开源代码生成模型,能在多个编码基准测试中达到专有模型的性能,提供模型权重和推理代码,助力研究社区构建和创新。
资源
- 项目官网:https://opencoder-llm.github.io
- GitHub 仓库:https://github.com/OpenCoder-llm/OpenCoder-llm
- HuggingFace 模型库:https://huggingface.co/collections/infly/opencoder-672cec44bbb86c39910fb55e
- arXiv 技术论文:https://arxiv.org/pdf/2411.04905
DimensionX:单图像生成 3D/4D 场景框架
DimensionX 是由香港科技大学、清华大学和生数科技共同推出的框架,能从单张图片生成高逼真度的 3D 和 4D 场景,基于视频扩散技术实现对空间和时间维度的精确控制。框架包含轨迹感知机制和身份保持去噪策略,增强场景的一致性和真实感。
资源
- 项目官网:https://chenshuo20.github.io/DimensionX
- GitHub 仓库:https://github.com/wenqsun/DimensionX
- arXiv 技术论文:https://arxiv.org/pdf/2411.04928
SeedEdit:AI 图像编辑模型
SeedEdit 是字节豆包大模型团队推出的通用图像编辑模型,基于简单的自然语言指令编辑图像,支持局部替换、几何变换、重新照明、风格变化等操作。模型在图像编辑的通用性、可控性和高质量输出方面取得突破。
资源
- 项目官网:https://team.doubao.com/en/special/seededit
- 技术论文:https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/SeedEdit.pdf
- 在线体验 Demo:https://huggingface.co/spaces/ByteDance/SeedEdit-APP
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦