当前位置: 首页 > article >正文

HiRT | 异步控制策略,告别VLA时延问题

论文:HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers

前言:HiRT 通过异步处理的策略,将 VLM 作为低频慢思考过程,将轻量的动作策略模型作为高频快响应过程 ,以此解决 VLA 驱动带来的控制时延问题。这是本菜看的第一篇具身智能相关的论文,理解总结不当处欢迎批评指正!


01 模型动机

研究背景:Large Vision-Language-Action (VLA),基于Large Vision-Language models (VLM) 的推理生成动作控制信息,以此通过语言指令让机器人完成特定任务。

研究问题:虽然拥有数十亿参数的 VLM 带来了卓越的泛化优势,但产生大量的计算负担。在部署过程中,它会导致控制推理速度低和延迟高的问题。算力负担导致的控制时延仍然是一个大问题

研究贡献:设计了一种新的快响应策略模型 HiRT:能够借助预训练 VLM 从多模态输入中提取丰富的语义表示,将这些表示应用于异步运行且独立于 VLM 的轻量级动作策略。控制频率提升一倍,甚至准确率也有略微提升,实物动态任务上准确率从48% →75%。


02 模型主体

2.1 核心思想

人类认知双重过程理论的启发(直觉型快思考,分析型慢思考)。在HiRT框架中,大型的视觉-语言模型(VLM)和轻量级的动作策略模型以不同的频率运行。VLM以较低频率运行,用于提取长期不变的特征,而动作策略模型则以较高频率运行,用于实时决策。这种设计允许模型在保持高性能的同时提高推理速度

  • 理解模块(长期场景理解,慢思考):InstructBLIP,一个预训练大预言模型。
  • 执行模块(短期场景认知,快思考):轻量的基于视觉的行动策略。

2.2 理解模块:VLM驱动的低频慢思考过程

使用一个预训练的视觉-语言模型(InstructBLIP),将视觉观察(图像)和语言指令转换为潜在特征。这些特征包含了输入数据的丰富语义信息,并能够捕捉长期场景理解所需的信息,是任务规划必须依赖的高级特征。

2.3 执行模块:轻量模型驱动的高频快思考过程

Latent-Conditioned model == Lower-Level policy == Latent-Conditioned Policy

上述都是论文中出现的关键词,其实都在描述同一个东西:高频轻量模型,用于快速响应,输出动作决策。模型包括 Vision Encoder 和 Action Head,参数量小适合高速推理。此处需要关注的核心是,该模块如何使用 VLM 产生的特征。

VLM编码多模态信息并将其存储在缓存中。轻量级策略使用缓存中的最新潜在变量(高级特征)快速输出动作,从而避免了由于VLM较慢的推理速度而导致的延迟。同时,为了实现特征的条件调整,以更好地利用 VLM 得到的特征信息,同时文章使用了三种方法:FiLM、 Cross-Attention、 Prefix Tuning。

2.4 对齐问题:如何解决异步操作导致的延迟对齐问题。

由于VLM和动作策略模型运行频率不同,动作策略模型在某一时刻使用的 VLM 提取的潜在变量(latent variables),可能实际上反映的是几秒钟前的场景和指令信息。这意味着,动作策略模型在做出决策时,所依据的信息可能已经过时了

在训练阶段,模型学习到的是从当前状态和最新的指令中提取特征并做出决策。然而,在实际应用中,由于潜在变量的延迟,动作策略模型可能不得不使用与训练时不一致的信息来做出决策。这种信息的不一致性,或者说“对齐问题”,可能会导致模型在实际应用中的表现不如训练过程。

为了解决这个问题,HiRT 框架在训练阶段随机选择过去观察上下文中的缓存信息,并使用相应的第三视角图像作为 VLM 的视觉输入。这样做可以增强模型对于时间不一致潜在变量的鲁棒性,即使在实际应用中遇到信息延迟的情况,也能保持较好的性能。简而言之,就是让模型在训练时就学会处理这种潜在的信息延迟,从而在实际使用中更加稳健。


03 实验效果 


http://www.kler.cn/news/343158.html

相关文章:

  • 【RPC】—Thrift协议 VS Protobuf
  • StringEntity 用于将字符串内容作为 HTTP 请求实体(请求体)
  • docker+mysql创建用户名密码_docker里面的mysql 更换密码
  • Linux与RTOS的区别
  • SQL第13课——创建高级联结
  • Spring Security之RememberMe
  • 美发店管理革新:SpringBoot系统的应用
  • 【低代码】前端低代码开发日记2_遇到的问题(2)变量绑定
  • python 实现BFS判断是否是二分图Bipartite算法
  • 机器学习和深度学习的差别
  • Elasticsearch 入门
  • 数字马力ai面试题
  • 推荐一个边缘物联网平台
  • Streamlit:用Python快速构建交互式Web应用
  • 宝塔 进程守护管理器 神坑,再次跌入。thinkphp-queue队列 勤勤学长
  • 跨集群复制:在Amazon OpenSearch服务中实现数据同步
  • 牛上脑和各类牛排的叫法,不要土老帽了~
  • NRF24L01无线通信模块学习 来自正点原子标准库
  • Unity3D 动画回调函数详解
  • Spring14——案例:利用AOP环绕通知计算业务层接口执行效率