当前位置: 首页 > article >正文

大模型时代下的具身智能

参考:张伟男(哈尔滨工业大学):具身大模型关键技术与应用

1 构建智能机器人

在这里插入图片描述
在这里插入图片描述

2 具身智能

在这里插入图片描述
在这里插入图片描述

2.1 具身感知

重点需要感知能力的机器人:服务机器人、人机协作场景下机器人、社交导航机器人、环境探索机器人

2.1.1 物体感知

物体感知:
PointNet、MeshNet、VoxelNet、DeepSDF、Occupancy Networks

几何形状感知的下游任务:物体位姿估计
构建同类别物体统一坐标空间

物体抓取

传统的物体抓取、基于深度学习的物体抓取、CoPA:结合大模型物体感知的抓取

2.1.2 场景感知

定义:场景感知是通过实现与场景的交互来理解现实世界场景
意义:赋予机器人理解周围环境并与之交互的能力
具体形式:点云、地标、拓扑图、场景图、隐表示
在这里插入图片描述

2.1.3 行为感知

人类行为理解:可理解人类动作和视频的大语言模型MotionLLM
在这里插入图片描述

2.1.4 表达感知

在这里插入图片描述

(1) 感知能力强 AND 有一定的推理能力,就可以成为一个很好的机器人落地产品
(2) 感知能力也可以为抓取、操作等执行任务提供帮助,在端到端执行模型性能达标前,抓取等任务更多依赖感知能力
(3) 多模态大模型处理语言、2D图片、3D数据都没有超出我们的想象。但能处理交互数据的大模型还没有出现在地平线上
(4) 基于已有大模型,依赖人类先验设计模型结构或训练算法来弥补这个缺陷?人类先验或许不那么有效

2.2 具身推理

① 任务规划
在这里插入图片描述
基于深度学习技术的任务规划:RPN网络
结合大模型的任务规划:大模型作为转换器
结合大模型的任务规划:大模型作为规划器
在这里插入图片描述
微调大模型用于任务规划
训练小模型检测可行性,与大模型结合
任务规划的评估
在这里插入图片描述
具身导航(Embodied Navigation):智能体在3D环境中移动完成导航目标

目标的形式可以是点、物体、图像、区域;目标可以结合声音、自然语言指令、人类先验

在这里插入图片描述
基于规则的导航
基于学习的导航
在这里插入图片描述
在这里插入图片描述

2.3 具身执行

具身感知根据感知对象的不同分为四大类

对非人的感知:物体感知、场景感知
对人的感知:行为感知、表达感知

具身推理:任务规划、导航、具身问答

具身执行:技能学习(以技能描述、环境观察为输入,输出完成技能所需的7Dof轨迹)

大模型用于具身执行会存在很多问题:推理速度慢、数量需求大、可解释性差
具身执行强调泛化性,对物体位置、形状、场景、技能、机器人类别各种维度上的泛化性,泛化性也是目前最主要的挑战

3 具身智能发展

在这里插入图片描述
(1)多模态具身智能大模型构建技术
在这里插入图片描述
(2)基于大模型的持续学习技术
在这里插入图片描述
(3)基于大模型的交互式学习技术
在这里插入图片描述
(4)仿真环境及世界模型的构建技术
在这里插入图片描述


http://www.kler.cn/a/526275.html

相关文章:

  • NLP深度学习 DAY5:Seq2Seq 模型详解
  • 上位机知识篇---GitGitHub
  • Kubernetes 环境中的自动化运维实战指南
  • DeepSeek-R1本地部署笔记
  • Spring Boot - 数据库集成05 - 集成MongoDB
  • Java面试题2025-并发编程基础(多线程、锁、阻塞队列)
  • 实验五---控制系统的稳定性分析---自动控制原理实验课
  • LabVIEW温度修正部件测试系统
  • 图漾相机——C++语言属性设置
  • Java 知识速记:全面解析 final 关键字
  • Linux《基础指令》
  • 动态规划DP 最长上升子序列模型 登山(题目分析+C++完整代码)
  • RocketMQ实战—2.RocketMQ集群生产部署
  • 车载软件架构 --- 基于AUTOSAR软件架构的ECU开发流程小白篇
  • 【腾讯云】腾讯云docker搭建单机hadoop
  • 窥探目标文件
  • Git进阶之旅:.gitignore 文件
  • PostgreSQL技术内幕24:定时任务调度插件pg_cron
  • 告别页面刷新!如何使用AJAX和FormData优化Web表单提交
  • 集合的奇妙世界:Python集合的经典、避坑与实战
  • 35【VS工具和c语言的关系】
  • INCOSE需求编写指南-附录 C: 需求模式
  • SystemVUE安装与入门
  • 论文阅读(十一):基因-表型关联贝叶斯网络模型的评分、搜索和评估
  • C++并发:设计基于锁的并发数据结构
  • Chrome浏览器编译系统研究与优化分析