当前位置: 首页 > article >正文

今日 AI 简报|苹果推出的新框架,智源开源千万级多模态数据集,字节推出图像编辑模型,开源大语言模型和实时对话系统等

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


App Intents:苹果推出的新框架

在这里插入图片描述

App Intents 是苹果推出的支持开发者在 iOS、macOS 等平台上集成 Siri 和 Apple Intelligence 的新框架,实现应用功能与系统体验的无缝融合。用户可以直接用 Siri 控制应用、搜索应用内容,创建自动化操作,提升应用的智能化和便捷性。

资源

  1. 项目官网:https://developer.apple.com/documentation/appintents

Infinity-MM:智源的千万级多模态指令数据集

在这里插入图片描述

Infinity-MM 是智源研究院推出的千万级多模态指令数据集,包含 4300 万条样本,数据量达 10TB。数据集经过质量过滤和去重,能提升开源视觉-语言模型(VLMs)的性能。基于 Infinity-MM,智源成功训练 20 亿参数的多模态模型 Aquila-VL-2B,取得最先进的性能。

资源

  1. HuggingFace 模型库:https://huggingface.co/datasets/BAAI/Infinity-MM
  2. arXiv 技术论文:https://arxiv.org/pdf/2410.18558

HK-O1aw:法律推理大模型

在这里插入图片描述

HK-O1aw 是由香港生成式 AI 研发中心和北京大学合作推出的法律推理大模型,在合同法、消费者权益保护法等多个法律领域表现出色。模型采用 O1 风格数据集和训练方式,侧重慢思考和链式推理,提供逻辑严密的法律意见。

资源

  1. GitHub 仓库:https://github.com/HKAIR-Lab/HK-O1aw/
  2. HuggingFace 模型库:https://huggingface.co/HKAIR-Lab/HK-O1aw

VideoChat:实时数字人对话系统

在这里插入图片描述

VideoChat 是开源的实时数字人对话系统,支持语音输入和实时对话功能。用户可以自定义数字人的形象和音色,首包延迟低至 3 秒。系统支持流式视频输出,适配多种实时语音交互场景。

资源

  1. GitHub 仓库:https://github.com/Henry-23/VideoChat
  2. 在线体验 Demo:https://www.modelscope.cn/studios/AI-ModelScope/video_chat

FabricDiffusion:高保真度 3D 服装生成技术

在这里插入图片描述

FabricDiffusion 是谷歌和卡内基梅隆大学共同推出的高保真度 3D 服装生成技术,能将 2D 服装图像的纹理和印花高质量地转移到 3D 服装模型上。基于去噪扩散模型和大规模合成数据集,实现在不同光照条件下的精确渲染。

资源

  1. 项目官网:https://humansensinglab.github.io/fabric-diffusion
  2. arXiv 技术论文:https://arxiv.org/pdf/2410.01801

OpenCoder:开源代码生成模型

在这里插入图片描述

OpenCoder 是由墨尔本大学、复旦大学等高校联合无限光年推出的开源代码生成模型,能在多个编码基准测试中达到专有模型的性能,提供模型权重和推理代码,助力研究社区构建和创新。

资源

  1. 项目官网:https://opencoder-llm.github.io
  2. GitHub 仓库:https://github.com/OpenCoder-llm/OpenCoder-llm
  3. HuggingFace 模型库:https://huggingface.co/collections/infly/opencoder-672cec44bbb86c39910fb55e
  4. arXiv 技术论文:https://arxiv.org/pdf/2411.04905

DimensionX:单图像生成 3D/4D 场景框架

在这里插入图片描述

DimensionX 是由香港科技大学、清华大学和生数科技共同推出的框架,能从单张图片生成高逼真度的 3D 和 4D 场景,基于视频扩散技术实现对空间和时间维度的精确控制。框架包含轨迹感知机制和身份保持去噪策略,增强场景的一致性和真实感。

资源

  1. 项目官网:https://chenshuo20.github.io/DimensionX
  2. GitHub 仓库:https://github.com/wenqsun/DimensionX
  3. arXiv 技术论文:https://arxiv.org/pdf/2411.04928

SeedEdit:AI 图像编辑模型

在这里插入图片描述

SeedEdit 是字节豆包大模型团队推出的通用图像编辑模型,基于简单的自然语言指令编辑图像,支持局部替换、几何变换、重新照明、风格变化等操作。模型在图像编辑的通用性、可控性和高质量输出方面取得突破。

资源

  1. 项目官网:https://team.doubao.com/en/special/seededit
  2. 技术论文:https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/SeedEdit.pdf
  3. 在线体验 Demo:https://huggingface.co/spaces/ByteDance/SeedEdit-APP

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


http://www.kler.cn/a/389511.html

相关文章:

  • 【OH】openHarmony开发环境搭建(基于windows子系统WSL)
  • 设计模式之责任链模式(Chain Of Responsibility)
  • 限流算法(令牌通漏桶计数器)
  • Android音频架构
  • TCP/IP协议,TCP和UDP区别
  • GaussDB部署架构
  • 24/11/7 算法笔记 PCA主成分分析
  • 【前端】JavaScript 方法速查大全-函数、正则、格式化、转换、进制、 XSS 转义(四)
  • ArkTS--应用状态
  • Linux服务器使用ps和top命令查看进程
  • 加载与存储指令及算数指令
  • HarmonyOS Next 实战卡片开发 01
  • Android CCodec Codec2 (二十)C2Buffer与Codec2Buffer
  • 深度学习中的 Dropout:原理、公式与实现解析
  • [Linux] 共享内存
  • 使用 IDEA 创建 Java 项目(二)
  • Hive:UDTF 函数
  • 优化时钟网络之时钟偏移
  • leetcode01 --- 环形链表判定
  • 优选算法合集————双指针(专题一)
  • DAF-FM DA与NO反应后,生成的产物能够发出强烈的绿色荧光,254109-22-3
  • Tomcat(10) 如何在Tomcat中配置虚拟主机?
  • Rust-Trait 特征编程
  • HarmonyOS Next 并发 taskpool 和 worker
  • 从0开始学PHP面向对象内容之(常用魔术方法)
  • ElasticSearch:使用dsl语句同时查询出最近2小时、最近1天、最近7天、最近30天的数量