具身智能打响争夺战:自主感知、行动与进化简史(连载1)
大模型演进至今,寻求杀手级应用成为业界共同面临的核心命题。2024年上半年,大模型价格战“打”的轰轰烈烈。而到了下半年,几乎人人都在谈“AI Agent”(人工智能代理,也可称为“智能体”)。在海外市场,微软、苹果、谷歌、OpenAI、Anthropic等科技巨头纷纷公布相关进展;在国内市场,百度、阿里、腾讯、智谱、荣耀、联想等一众厂商的智能体平台也纷至杳来,一场围绕“AI Agent”的争夺战正悄然开启。
与此同时,具身智能也在如火如荼发展中,身智能,即“具身+智能”,是将机器学习算法适配至物理实体,从而与物理世界交互的人工智能范式。以 ChatGPT 为代表的“软件智能体”(或称“离身智能体”)使用大模型通过网页端、手机 APP 与用户进行交互,能够接受语音、文字、图片、视频的多种模态的用户指令,从而实现感知环境、规划、记忆以及工具调用,执行复杂的任务。
在这些基础之上,具身智能体则将大模型嵌入到物理实体上,通过机器配备的传感器与人类交流,强调智能体与物理环境之间的交互。
通俗一点讲,就是要给人工智能这个聪明的“头脑”装上一副“身体”。这个“身体”可以是一部手机,可以是一台自动驾驶汽车。而人形机器人则是集各类核心尖端技术于一体的载体,是具身智能的代表产品。
具身智能的三要素:本体、智能、环境具身智能的三要素:“本体”,即硬件载体;“智能”,即大模型、语音、图像、控制、导航等算法;“环境”,即本体所交互的物理世界。本体、智能、环境的高度耦合才是高级智能的基础。不同环境下的会有不同形态的硬件本体以适应环境。比如室内平地更适用轮式机器人,崎岖不平的地面更适用四足机器人(机器狗)。
在具身智能体与环境的交互中,智能算法可以通过本体的传感器以感知环境,做出决策以操控本体执行动作任务,从而影响环境。在智能算法与环境的交互中还可以通过“交互学习”和拟人化思维去学习和适应环境,从而实现智能的增长。
以下内容来源:自动化学报
本节从历史发展脉络出发, 将具身智能发展分为早期阶段、具身认知提出阶段、深度学习与强化学习阶段、现代发展阶段, 系统梳理具身智能与智能体技术的演进历程, 帮助读者构建更全面的认知。
1、具身智能的发展阶段:
1) 早期阶段. 具身智能体的研究历史悠久, 可以追溯至 20 世纪 50 年代. 此时人工智能的概念刚刚被提出, 研究主要集中在符号处理和逻辑推理。机器人学开始起步, 但主要关注的是工业自动化和简单的任务执行. 1950 年, 英国计算机科学家 Turing[4]开创性地提出“图灵测试”概念, 他认为如果一台机器能够与人类进行自然的对话, 并且无法被人类辨别, 那么这台机器就可以被认为是具有智能的. “图灵测试”的提出标志着智能体研究的开端, 为后续研究奠定了坚实的理论基础. 20 世纪 60 和 70 年代,智能体研究取得了一系列进展. 1966 年, 美国科学家 Weizenbaum 开发了首款聊天机器人“ELIZA”,能够模拟心理医生谈话, 引发了人们对智能体的浓厚兴趣. 知识表示和推理成为 AI 研究的主要方向,但这些方法通常依赖于预先定义的规则和模型, 缺乏对环境的动态适应能力。
2) 具身认知提出阶段. 20 世纪 80 和 90 年代,智能体研究取得了突破性进展. 1986 年, 美国计算机科学家 Minsky[14] 首次提出“Agent”概念, 将逐渐构成人类心智或其他认知系统的简单个体环节定义为智能体, 对后续研究产生深远影响. 1990 年,被誉为“机器人教父”的 Brooks 创立了 iRobot 公司, 致力于开发实用性强的机器人产品, 并提出“行为主义机器人”概念, 促进了具身智能技术的广泛应用. 1993 年, Dennett[15] 提出具身认知 (Embodied cognition) 的概念, 强调智能体的认知能力与其物理实体和环境互动密切相关. 这一理论挑战了传统的符号主义认知观, 认为智能不仅仅是大脑的产物, 而是实体和环境共同作用的结果. 1997 年, 由美国 IBM 公司开发的“深蓝”智能体在国际象棋比赛中战胜了人类世界冠军卡斯帕罗夫, 标志着智能体在特定领域已经达到或超越了人类的智能水平。
3) 深度学习与强化学习阶段. 21 世纪以来, 随着 AI 技术的快速发展, 具身智能的研究也进入了新的阶段. 研究人员开始将深度学习、强化学习等新技术应用于具身智能研究, 取得了令人瞩目的结果. 强化学习方法在机器人学中得到广泛应用, 机器人可以通过与环境的互动不断优化自己的行为策略. 多模态传感器技术的发展使得机器人能够获取更丰富的环境信息, 如视觉、听觉、触觉等. 硬件设备发展带来的深度学习的崛起为具身智能提供了强大的工具. 深度强化学习结合了深度神经网络和强化学习, 使机器人能够在复杂和高维的环境中学习和执行任务. 这一阶段的具身智能已经可以被较为详细地分为多模态感知深度学习领域和行为决策强化学习领域。
4) 现代发展阶段. 具身智能进一步发展, 研究重点在多模态感知与融合、行为决策的基础上新增了自主学习与适应、人机协作等[16]. 现代具身智能系统通过整合环境感知数据和智能体认知信息, 能够在动态和不确定的环境中表现出更高的适应性和灵活性. 研究者还致力于实现具身智能系统的自主学习与进化, 使其能够在不同任务和环境中持续优化自己的行为[17]. 2009 年, 美国波士顿动力公司研发了四足机器人“BigDog”及第一款人形双足机器人“Petman”, 历经 4 年的技术攻关, 最终于 2013年构建了第一代“Altas”人形机器人原型机, 同年被谷歌收购. 同一时期, 汉森机器人、优必选等企业纷纷入局具身智能机器人产业, 2016 年, 汉森机器人推出“Sophia”机器人, 引发全球广泛关注; 2018 年,优必选正式发布第一代双足仿人服务机器人“Walker”.2023 年, 特斯拉公司接连发布了第一、二代“Optimus”系列人形机器人, 标志着具身智能技术迈入了新的里程碑. 具身机器人在近 10 年内的飞速发展带来了多个具有里程碑意义的机器人系统, 表 1 根据时间线列举了这些系统的相关信息。
2、具身智能的优势和挑战:
具身智能强调通过物理智能体与环境之间的主动式交互及智能体的自主进化, 持续提升智能体的环境适应性和场景理解能力, 并实现更加便捷的人机交互. 然而, 目前的具身智能研究在智能体学习效率、性能、泛化性方面依然存在巨大挑战, 如何设计开放场景通用任务的具身智能系统有待深入研究.
2.1 优势分析
具身智能视角下的机器人需要全面感知、理解其所处的环境, 根据任务需求控制其物理实体、作出决策, 并通过与外界环境的交互快速调整其行动,基于持续的交互式学习和经验累积自主进化. 相较于其他人工智能算法, 主要在以下三方面更具优势:
1) 多感官精准感知与理解能力. 具身智能体通常配备有多种传感器, 能够更普遍地通过视觉、听觉、触觉等感官, 充分感知其所处场景的物理特性和语义信息, 从而作出更精准的决策, 实现与场景中其他实体的高效协作. 通过更为丰富的传感器,具身智能体相较于普通人工智能载体能感知到更为全面的环境信息, 并借助多模态大模型等算法更好地理解所处环境及操作者意图。
2) 交互式场景适应与学习能力. 具身智能体能够通过姿势、表情、声音、触感等途径与人类及其他物理实体进行交互, 并根据环境的变化快速调整自身行为, 通过与环境进行主动交互来更加灵活地适应不同情况和任务. 相较于传统人工智能算法, 具身智能更加强调智能体在复杂环境中的知识迁移和泛化能力, 以及基于具身交互的具体任务调整能力。
3) 智能体持续自主进化能力. 具身智能涵盖了对智能体持续自主进化能力的需求, 通过物理智能体、虚拟智能体、真实环境之间的持续交互, 不断提升智能系统对复杂环境的长期适应能力. 不同于现有人工智能载体在投入使用后不具备自我更新的能力, 具身智能体能够在工作中自主地识别训练数据中未出现的样本, 并在其数量积累到一定阈值后实现自我学习与进化, 通过持续的知识更新影响决策行为, 从而实现具身反馈闭环。
2.2 挑战分析
目前, 实际的具身智能系统距离具身智能所构想的通用 AI 机器人系统仍然存在根本性差异, 主要表现在具身交互、具身认知、具身实体等方面.
1) 具身交互. 目前在具身智能领域通常应用具身模拟器来复制物理世界, 以开展特定任务的研究和测试, 从而避免现实世界数据收集的繁琐劳动.然而, 真实世界中的交互学习挑战以及“仿真−现实迁移”技术方面存在的不足, 进一步妨碍了具身智能研究成果在现实世界中的应用和部署. 更多物体类型的物理交互和传感模拟技术需要突破。
2) 具身认知. 现实开放场景通常呈现数据形式多模态、数据质量不可控、数据分布长尾化、数据特性动态漂移等多源不确定性. 人类天然地拥有从外部世界的自然模态学习并基于直觉理解物理世界的能力, 这种自然习得的认知能力能够有效对抗现实世界的不确定性, 而目前的具身认知方法还不具备从自然模态中学习到关于世界的结构化表征与抽象的能力。
3) 具身实体. 具身智能系统制造所需的机械结构和设备较为复杂, 并且通常需要配备大量的传感器和执行器. 高昂的硬件设备与软件研发成本成为具身智能机器人大规模应用进程中的障碍. 尤其当需要实现高度复杂的运动或操作时, 涉及机械设计、工程制造等多方面挑战。
作者:沈甜雨,陶子锐,王亚东,张庭祯,刘宇航,王兴霞,杨静,李志伟,陈龙,王坤峰,王飞跃。
未完待续。
推荐书籍:
《分布式商业生态战略:数字商业新逻辑与企业数字化转型新策略》
作者:思二勋
书籍介绍:
本书从新时代的新市场和新趋势出发,如:元宇宙、Web 3.0、资产数字化、反垄断、要素市场化配置、分布式自治组织(distributed autonomous organization,DAO)、非同质化通证(non-fungible token,NFT)等,以企业数字化转型为核心,以区块链等数字化技术为基本点,以场景为基本面,勾勒了数字化时代分布式商业演化的新趋势,以及其对企业经营管理的影响,提出了数字化时代企业数字化转型的新策略和分布式经营管理的低成本、高效率发展方案。
分布式商业是数字经济时代的基本商业形态,分布式商业生态战略也是企业数字化生存与发展的基本战略,是企业数字化转型的全新模式和路径,亦是元宇宙商业生态建设的新范式。