当前位置：首页 > article >正文

【AI视野·今日Robot 机器人论文速览第五十八期】Thu, 19 Oct 2023

article 2025/2/25 7:21:13

AI视野·今日CS.Robotics 机器人学论文速览
Thu, 19 Oct 2023
Totally 25 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Robotics Papers

InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot Interactions
Authors Hanbo Zhang, Jie Xu, Yuchen Mo, Tao Kong
歧义在人类交流中普遍存在。以前的人机交互 HRI 方法通常依赖于预定义的交互模板，导致现实和开放式场景中的性能下降。为了解决这些问题，我们提出了一个大规模数据集 invig，用于语言歧义下的交互式视觉基础。我们的数据集包含超过 52 万张图像，并附有开放式目标导向的消歧对话，包含数百万个对象实例和相应的问题答案对。利用 invig 数据集，我们进行了广泛的研究，并提出了一套用于端到端交互式视觉消歧和基础的基线解决方案，在验证过程中实现了 45.6 的成功率。据我们所知，invig 数据集是第一个用于解决开放式交互式视觉基础的大型数据集，为模糊感知 HRI 提供了实用但极具挑战性的基准。

CAPGrasp: An $\mathbb{R}^3\times \text{SO(2)-equivariant}$ Continuous Approach-Constrained Generative Grasp Sampler
Authors Zehang Weng, Haofei Lu, Jens Lundell, Danica Kragic
我们提出了 CAPGrasp，一种 mathbb R 3 倍文本 SO 2 等变 6 DoF 连续方法约束生成抓取采样器。它包括一种用于训练 CAPGrasp 的新颖学习策略，无需整理大量有条件标记的数据集，还包括一种约束抓取细化技术，可在尊重抓取方法方向约束的同时改进抓取姿势。实验结果表明，CAPGrasp 的采样效率是无约束抓取采样器的三倍以上，同时抓取成功率提高了 38 倍。与受约束但非连续的抓取采样器相比，CAPGrasp 的抓取成功率还高 4 10。

One-Shot Imitation Learning: A Pose Estimation Perspective
Authors Pietro Vitiello, Kamil Dreczkowski, Edward Johns
在本文中，我们在以下具有挑战性的环境下研究模仿学习：1 仅一次演示，2 没有进一步的数据收集，3 没有先验任务或对象知识。我们展示了如何在这些约束下将模仿学习表述为轨迹转移和不可见物体姿态估计的组合。为了探索这个想法，我们深入研究了最先进的看不见的物体姿势估计器如何在十个现实世界任务中进行一次模仿学习，并且我们深入研究了相机校准、姿势估计误差、和空间泛化对任务成功率有影响。

Monte-Carlo Tree Search for Behavior Planning in Autonomous Driving
Authors Qianfeng Wen, Zhongyi Gong, Lifeng Zhou, Zhongshun Zhang
自动驾驶汽车融入城市和高速公路环境需要开发强大且适应性强的行为规划系统。本研究提出了一种创新方法来应对这一挑战，即利用基于蒙特卡罗树搜索 MCTS 的算法进行自动驾驶行为规划。

Simultaneous Learning of Contact and Continuous Dynamics
Authors Bibit Bianchini, Mathew Halm, Michael Posa
如果机器人能够快速生成它们遇到的新物体的模型，则机器人操作可以极大地受益于基于模型的方法的数据效率、鲁棒性和可预测性。当复杂的关节摩擦等效应缺乏明确的第一原理模型并且通常被物理模拟器忽略时，这尤其困难。此外，数值刚性接触动力学可能会使常见的模型构建方法变得困难。我们提出了一种通过接触丰富的轨迹观察其运动来同时学习新颖的、可能是多链接对象的接触和连续动态的方法。我们制定了一个系统识别过程，其损失推断出未测量的接触力，在给定当前模型参数的情况下惩罚其违反物理约束和运动定律。我们的损失与可微模拟中使用的基于预测的损失不同。使用真实铰接物体轨迹的新数据集和现有的立方体投掷数据集，我们的方法优于可微分模拟和端到端替代方案，具有更高的数据效率。

TeslaCharge: Smart Robotic Charger Driven by Impedance Control and Human Haptic Patterns
Authors Oussama Alyounes, Miguel Altamirano Cabrera, Dzmitry Tsetserukou
对电动汽车日益增长的需求需要开发自动汽车充电方法。目前，电动汽车的充电过程完全是手动的，需要体力才能完成，不适合残疾人士。通常，研究的重点是检测插座的位置和方向，这导致了相对较高的精度，pm 5 mm 和 pm 10 o。然而，这种精度还不足以完成充电过程。在这项工作中，我们专注于设计一种基于人类触觉的稳健机器人插拔的新颖方法，以克服插座位置和方向的误差。参与者被邀请执行充电任务，通过测量充电器运动所施加的力来识别他们的认知能力。基于阻抗控制设计了三个控制器来模仿电动汽车充电的人类模式。记录的人类数据用于校准阻抗控制器惯性 M d 、阻尼 D d 和刚度 K d 的参数。进行了机器人验证，将设计的控制器应用于机器人 UR10。

LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic Tabletop Manipulation
Authors Shengqiang Zhang, Philipp Wicke, L tfi Kerem enel, Luis Figueredo, Abdeldjallil Naceri, Sami Haddadin, Barbara Plank, Hinrich Sch tze
具身代理和大型语言模型法学硕士的融合为具身指令遵循带来了重大进步。特别是，法学硕士强大的推理能力使机器人能够执行长期任务，而无需昂贵的注释演示。然而，用于测试语言条件机器人在各种场景下的长视野推理能力的公共基准仍然缺失。为了填补这一空白，这项工作重点关注桌面操作任务，并发布了一个模拟基准，textit LoHoRavens，它涵盖了跨越颜色、大小、空间、算术和参考等各种长视域推理方面。此外，对于法学硕士的长视野操作任务，存在一个关键的模态桥接问题，即如何将机器人执行期间的观察反馈纳入法学硕士的闭环规划，但之前的工作对此研究较少。我们研究了两种桥接模态间隙字幕生成和可学习接口的方法，分别将显式和隐式观察反馈纳入法学硕士。这些方法作为我们提出的基准的两个基线。实验表明，这两种方法都难以解决某些任务，这表明长范围操作任务对于当前流行的模型来说仍然具有挑战性。

KI-PMF: Knowledge Integrated Plausible Motion Forecasting
Authors Abhishek Vivekanandan, Ahmed Abouelazm, Philip Sch rner, J. Marius Z llner
准确预测交通参与者的运动对于大规模部署自动驾驶汽车至关重要。当前的轨迹预测方法主要集中于使用特定指标优化损失函数，这可能导致预测不遵守物理定律或违反外部约束。我们的目标是结合显式的先验知识，使网络能够预测未来的轨迹，同时符合车辆的运动学约束和驾驶环境的几何形状。为了实现这一目标，我们引入了非参数剪枝层和注意力层来整合定义的知识先验。我们提出的方法旨在确保复杂和动态情况下交通参与者的可达性保证。

UNav-Sim: A Visually Realistic Underwater Robotics Simulator and Synthetic Data-generation Framework
Authors Abdelhakim Amer, Olaya lvarez Tu n, Halil Ibrahim Ugurlu, Jonas le Fevre Sejersen, Yury Brodskiy, Erdal Kayacan
由于复杂的工作环境和对各种传感器模式的需求，水下机器人测量的成本可能很高。虽然水下模拟器至关重要，但许多现有模拟器缺乏足够的渲染质量，限制了它们将算法从模拟转移到现实世界应用的能力。为了解决这一限制，我们推出了 UNav Sim，据我们所知，它是第一个集成了虚幻引擎 5 UE5 高效、高细节渲染的模拟器。 UNav Sim 是开源的，包括基于自主视觉的导航堆栈。

Flexible Computation Offloading at the Edge for Autonomous Drones with Uncertain Flight Times
Authors Giorgos Polychronis, Spyros Lalis
越来越多的应用可以使用空中无人驾驶飞行器，或所谓的无人机，从空中执行不同的传感任务，也可能执行驱动任务。在某些情况下，在移动到下一个点之前必须处理在给定点捕获的数据。无人机可以利用附近的边缘服务器来卸载计算，而不是在本地执行。然而，如果服务器的计算资源有限并且无人机的能源有限，那么以简单的方式执行此操作可能不是最佳的。在本文中，我们提出了一种协议和资源预留方案，让每个无人机和边缘服务器以动态和完全去中心化的方式决定是否卸载计算以及是否接受这样的卸载请求，目的是均匀地减少计算量。无人机的任务时间。我们通过广泛的模拟实验评估了我们的方法，表明与无卸载场景相比，它可以显着减少任务时间高达 26.2 倍，同时优于离线计算的卸载计划高达 7.4 倍以及纯粹的机会主义方法

Do We Run Large-scale Multi-Robot Systems on the Edge? More Evidence for Two-Phase Performance in System Size Scaling
Authors Jonas Kuckling, Robin Luckey, Viktor Avrutin, Andrew Vardy, Andreagiovanni Reina, Heiko Hamann
随着越来越多的移动机器人进入现实世界的应用，更多的机器人在同一空间共存、交互，甚至可能协作。例如，从群机器人技术中已知为此类系统提供系统尺寸可扩展性的方法。示例策略包括自组织行为、严格的分散方法以及限制机器人通信。尽管应用了这样的策略，任何多机器人系统都会突破一定的临界系统规模，即机器人的数量，因为太多的机器人共享资源，例如空间、通信通道。我们根据模拟提供了额外的证据，表明在这些关键系统规模下，系统性能分为两个阶段：接近最佳性能和最低性能。我们推测，在配置为最佳系统规模的现实应用程序中，所谓的高性能系统实际上可能靠借来的时间生存，因为它正处于崩溃的瞬态。

GMC-Pos: Graph-Based Multi-Robot Coverage Positioning Method
Authors Khattiya Pongsirijinda, Zhiqiang Cao, Muhammad Shalihan, Benny Kai Kiat Ng, Billy Pik Lik Lau, Chau Yuen, U Xuan Tan
如今，一些现实世界的任务需要足够的环境覆盖来维持多个机器人之间的通信，例如目标搜索任务、环境监测和灾后救援。在这项研究中，我们研究了有一名人类操作员和多个机器人的情况，并且我们假设每个人或机器人覆盖一定范围的区域。我们希望他们共同最大限度地扩大覆盖范围。因此，在本文中，我们提出了基于图的多机器人覆盖定位方法GMC Pos，以找到最大化区域覆盖范围的机器人的战略位置。我们的新颖方法由两个主要模块组成：图生成和节点选择。首先，图生成使用加权连通图来表示环境。然后，我们提出了一种新颖的基于广义图的距离，并将其与图度一起用作递归方式节点选择的条件。我们的方法部署在具有不同设置的三个环境中。

Real-time Perceptive Motion Control using Control Barrier Functions with Analytical Smoothing for Six-Wheeled-Telescopic-Legged Robot Tachyon 3
Authors Noriaki Takasugi, Masaya Kinoshita, Yasuhisa Kamikawa, Ryoichi Tsuzaki, Atsushi Sakamoto, Toshimitsu Kai, Yasunori Kawanami
为了实现安全的腿部运动，考虑到机器人和环境的各种限制，实时生成运动非常重要。在本研究中，我们为新开发的六轮伸缩腿机器人 Tachyon 3 提出了一种轻量级实时透视运动控制系统。在所提出的方法中，分析平滑约束（包括平滑分离轴定理 Smooth SAT）作为一种新颖的高阶可微碰撞检测对于 3D 形状，应用于控制屏障函数 CBF 。所提出的集成 CBF 的系统在 1 ms 的短控制周期内实现在线运动生成，满足关节限制、环境碰撞避免和安全凸立足点约束。 Smooth SAT 的效率可以从 1 us 或更短的碰撞检测时间和 Tachyon3 的几个 us 的 CBF 约束计算时间看出。

Bias in Emotion Recognition with ChatGPT
Authors Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi
该技术报告探讨了 ChatGPT 从文本中识别情感的能力，这可以成为交互式聊天机器人、数据注释和心理健康分析等各种应用的基础。虽然之前的研究已经显示了 ChatGPT 在情感分析方面的基本能力，但其在更细致的情感识别方面的表现尚未得到探索。在这里，我们进行了实验来评估其在不同数据集和情感标签上的情感识别性能。我们的研究结果表明其性能具有合理的可重复性，并且通过微调有显着的改进。然而，性能随着不同的情感标签和数据集而变化，突出了固有的不稳定性和可能的偏差。数据集和情感标签的选择显着影响 ChatGPT 的情感识别性能。

Estimating Material Properties of Interacting Objects Using Sum-GP-UCB
Authors M. Yunus Seker, Oliver Kroemer
机器人需要根据观察来估计物体的材料和动态特性，以便准确地模拟它们。我们提出了一种贝叶斯优化方法，用于根据一组观察来识别物体的材料属性参数。我们的重点是根据对具有不同交互对象集的场景的观察来估计这些属性。我们提出了一种方法，通过分别对每个观察的奖励进行建模并仅使用该场景中对象的参数作为输入来利用奖励函数的结构。由此产生的低维模型在参数空间上具有更好的泛化能力，从而实现更快的优化。为了进一步加快优化过程，并减少找到良好参数值所需的模拟运行次数，我们还提出了奖励函数的部分评估，其中所选参数仅在现实世界评估的子集上进行评估。

Forward Kinematics of Object Transport by a Multi-Robot System with Deformable Sheet
Authors Jiawei Hu, Wenhang Liu, Jingang Yi, Zhenhua Xiong
我们展示了由多机器人团队以可变形板作为载体的物体处理和运输。由于片材的可变形性和整个系统的高尺寸，对于给定的多机器人系统的形成，清楚地描述物体在片材上的所有可能位置是具有挑战性的。本文提出了一种完整的正向运动学 FK 方法，用于具有可变形板的 N 移动机器人团队处理物体。基于虚拟变缆模型，结合系统的形状闭合和最小势能条件，建立了约束二次问题CQP。提出了 CQP 的解析解，然后用力闭合条件进一步验证。通过所提出的 FK 方法，可以通过给定的初始板材形状和机器人团队形成获得所有可能的解决方案。

Flymation: Interactive Animation for Flying Robots
Authors Yunlong Song, Davide Scaramuzza
轨迹可视化和动画在机器人研究中发挥着至关重要的作用。然而，现有的数据可视化和动画工具往往缺乏灵活性、可扩展性和多功能性，导致充分探索和分析飞行数据的能力有限。为了解决这个限制，我们引入了 Flymation，一种新的飞行轨迹可视化和动画工具。 Flymation 基于 Unity3D 引擎构建，是一款直观的交互式工具，允许用户实时可视化和分析飞行数据。用户可以从各种来源导入数据，包括飞行模拟器和现实世界数据，并通过高质量渲染创建定制的可视化效果。借助 Flymation，用户可以在轨迹快照和动画之间进行选择，两者都可以提供对底层自主系统行为的宝贵见解。

Classification of Safety Driver Attention During Autonomous Vehicle Operation
Authors Santiago Gerling Konrad, Julie Stephany Berrio, Mao Shan, Favio Masson, Stewart Worrall
尽管高级驾驶员辅助系统 ADAS 不断取得进步，并且高级自动驾驶汽车 AV 不断发展，但人们普遍认为，在中短期内，需要人工主管来处理不可避免出现的边缘情况。鉴于这一要求，必须监控车辆操作员的状态，以确保他们为车辆的安全运行做出贡献。本文介绍了一种双源方法，集成来自面向车辆操作员的红外摄像头和车辆感知系统的数据，以生成驾驶员警觉性指标，以促进和确保操作员的安全行为。红外摄像头检测驾驶员的头部，从而能够计算头部方向，这是相关的，因为头部通常根据个人的注意力焦点移动。通过结合来自感知系统的环境数据，可以确定车辆操作员是否观察到周围的物体。使用在澳大利亚悉尼收集的数据进行实验，模拟城市环境中的自动驾驶汽车操作。我们的结果表明，所提出的系统有效地确定了车辆操作员注意力水平的指标，从而可以适当地进行警告或减少自主功能等干预措施。

Language Models as Zero-Shot Trajectory Generators
Authors Teyun Kwon 1 , Norman Di Palo 1 , Edward Johns 1 1 Imperial College London
大型语言模型法学硕士最近在获得一系列低水平技能时显示出作为机器人高级规划者的希望。然而，人们通常认为法学硕士不具备足够的知识来用于低水平轨迹本身。在这项工作中，我们彻底解决了这个假设，并研究了当仅访问对象检测和分割视觉模型时，LLM GPT 4 是否可以直接预测操作技能的末端执行器姿势的密集序列。我们研究了一个与任务无关的提示，在没有任何上下文示例、运动基元或外部轨迹优化器的情况下，可以在 26 种基于现实世界语言的任务中执行得如何，例如打开瓶盖和用海绵擦拭盘子，并且我们调查该提示中的哪些设计选择是最有效的。我们的结论提出了机器人学法学硕士的假设限制，并且我们首次揭示法学硕士确实拥有足以完成一系列常见任务的低水平机器人控制的理解，并且他们还可以检测故障，然后重新规划轨迹因此。

Hybrid Trajectory Optimization of Simple Skateboarding Tricks through Contact
Authors Michael Burgess
轨迹针对二维简化滑板系统进行了优化，使其能够执行称为 ollie 的基本滑板技巧。提出并演示了一种通过控制质点相对于木板的位置来生成特技轨迹的方法，并在一系列峰值跳跃高度上进行了演示。采用混合动力学方法来执行此优化，根据整个技巧的指定部分中的板位置，沿着一系列离散时间步长应用接触约束。这些约束在特技序列的选定部分之间引入了显式和隐式的不连续性。

Towards Inferring Users' Impressions of Robot Performance in Navigation Scenarios
Authors Qiping Zhang, Nathan Tsoi, Booyeon Choi, Jie Tan, Hao Tien Lewis Chiang, Marynel V zquez
人类对机器人性能的印象通常通过调查来衡量。作为一种更具可扩展性和成本效益的替代方案，我们研究了使用非语言行为线索和机器学习技术来预测人们对机器人行为的印象的可能性。为此，我们首先贡献 SEAN TOGETHER 数据集，其中包含虚拟现实模拟中人与移动机器人之间交互的观察结果，以及用户按 5 分制提供的机器人性能印象。其次，我们分析了人类和监督学习技术如何根据观察类型（例如面部、空间和地图特征）的不同组合来预测感知的机器人性能。我们的结果表明，面部表情本身就提供了有关人类对机器人性能印象的有用信息，但在我们测试的导航场景中，空间特征是此推理任务最关键的信息。此外，当评估结果为二元分类而不是多类分类时，人类预测和机器学习模型的 F1 分数增加了一倍以上，这表明两者都比预测准确的性能评级更擅长判断机器人性能的方向性。

Diver Interest via Pointing in Three Dimensions: 3D Pointing Reconstruction for Diver-AUV Communication
Authors Chelsey Edge, Demetrious Kutzke, Megdalia Bromhal, Junaed Sattar
本文提出了通过三维指向 DIP 3D 实现潜水员兴趣，这是一种通过指向将感兴趣的对象从潜水员转发到自主水下航行器 AUV 的方法，其中包括三维距离信息，以区分 AUV 相机图像中的多个对象。由于场景特征相对缺乏显着性且照明条件较差，用于水下距离估计的传统密集立体视觉具有挑战性。然而，当多个物体出现在机器人的图像平面内时，包括距离信息对于机器人感知潜水员指向是必要的。我们通过使用关键点的稀疏重建对机器人立体相机的左右图像进行姿态估计，颠覆了水下距离估计的挑战。当多个物体位于 AUV 视野中时，三角测量姿态关键点以及经典的物体检测方法使 DIP 3D 能够推断出感兴趣物体的位置。

Field Robot for High-throughput and High-resolution 3D Plant Phenotyping
Authors Felix Esser, Radu Alexandru Rosu, Andr Corneli en, Lasse Klingbeil, Heiner Kuhlmann, Sven Behnke
由于需要养活不断增长的世界人口，农作物生产的效率至关重要。为了支持育种和田间管理，需要测量植物表型的各种特征，如果手动执行，这是一个耗时的过程。我们推出了一个配备多个激光和摄像头传感器的机器人平台，可实现高通量、高分辨率的田间植物扫描。我们通过 3D 重建创建植物的数字双胞胎。这可以估计表型性状，例如叶面积、叶角度和株高。

Guaranteed, Predictable, Polynomial AGV Time-Pathing
Authors James Forster
在本文中，我们提出了一个关键算法和数据结构的框架，只要满足一些容易满足的假设，就可以从任何给定图上的任何给定位置有效地为任意数量的 AGV 生成时间表，以完成任何给定的需求。我们提出的算法在可预测的多项式运行时间内提供有保证的解决方案，这对于任何实时应用程序都是基础。

A Finite-Horizon Approach to Active Level Set Estimation
Authors Phillip Kearns, Bruno Jedynak, John Lipor
我们在水平集估计 LSE 的空间采样背景下考虑主动学习问题，其目标是尽快定位感兴趣的函数位于给定阈值之上的所有区域。我们提出了一种有限水平搜索过程，在一维中执行 LSE，同时最佳地平衡最终估计误差和固定数量样本的行进距离。调整参数用于在估计精度和行驶距离之间进行权衡。我们表明，所产生的优化问题可以以封闭形式解决，并且所产生的策略概括了解决该问题的现有方法。然后，我们展示如何使用这种方法在流行的高斯过程模型下执行更高维度的水平集估计。合成数据的实证结果表明，随着旅行成本的增加，我们的方法非近视地处理距离的能力使其能够显着改进现有技术。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

查看全文

http://www.kler.cn/a/106514.html