基于DeepSeek的具身智能高校实训解决方案——从DeepSeek+机器人到通用具身智能
一、 行业背景
具身智能作为人工智能领域的新兴方向,为机器人与环境交互赋予了全新的内涵和能力,它不再局限于传统的编程式指令执行,而是朝着像人类一样理解和适应环境的方向发展。
在具身智能的发展历程中,DeepSeek的出现成为了关键的推动力量。DeepSeek具有海量的参数和强大的语言理解、知识表示能力,能够为机器人的行为决策提供更丰富的信息和更智能的指导。然而,单纯的DeepSeek模型在面对复杂多变的现实物理环境时仍存在局限性,因为机器人需要准确感知周围环境的三维结构、物体属性和空间关系。
这正是 3D 视觉技术发挥重要作用的地方。3D 视觉为机器人带来了前所未有的感知能力,它能够精确地获取环境的深度信息,构建出三维空间模型。与传统的 2D 视觉相比,3D 视觉可以让机器人更准确地识别物体的形状、位置和姿态,无论是在室内环境中识别家具的布局,还是在工业场景中抓取复杂形状的工件,3D 视觉都提供了关键的感知支持。
高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将DeepSeek与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台,使他们能够深入理解通用具身智能的原理和应用。这不仅有助于培养学生在人工智能和机器人领域的专业技能,还能激发他们的创新思维,为未来的科研和产业发展储备人才,满足社会对具身智能相关技术日益增长的需求。
二、总体架构介绍
本实训方案围绕「多模态输入 -> 感知与理解 -> 行动执行 -> 反馈学习」的闭环过程展开。通过多模态数据的融合(包括听觉、视觉、触觉等),并结合DeepSeek模型和深度学习算法,方案实现了对自然语言指令的理解、物体识别和抓取、路径规划以及任务执行的完整流程。
主要模块如下:
1、 多模态感知层
a. 包括语音识别模块、视觉感知模块、以及触觉传感模块。
b. 语音识别:通过LLM内置的语音识别工具,如Whisper或开源的AppBuilder SDK,将语音指令转化为文字,并利用自然语言处理技术进一步解析指令。
c. 视觉感知:采用3D深度相机(Orbbec Gemini 335L和Femto Bolt iToF等),用于物体识别、三维定位和空间建图,为机械臂提供环境感知支持。
d. 触觉传感:在机械臂末端安装力矩传感器,检测机械臂与物体接触时的力反馈,确保安全抓取并提升执行精度。
2、 多模态理解与决策层
e. 使用DeepSeek处理自然语言指令,解析指令意图并生成相应的执行任务。
f. 结合视觉和语音信息,构建多模态融合模型,实现对复杂指令的精准理解,支持类似“把绿色积木放到红色方块上”这样的复杂命令。
g. 多模态语义融合:将语音、视觉信息和触觉数据汇总,通过DeepSeek分析,输出物体的位置坐标、目标坐标,并转换为机械臂的操作指令。
3、 行动执行层
h. 执行层包括任务规划模块、运动控制模块和机械臂操作模块。
i. 任务规划模块:利用逆运动学解算模块将物体坐标转化为电机的转动角度。根据DeepSeek生成的操作步骤进行任务分解,并发送给机械臂执行。
j. 运动控制模块:依托高精度自由度机械臂,机械臂能够根据指令进行精确运动和抓取。控制算法支持拖动示教、碰撞即停等功能,保障操作的安全性和灵活性。
k. 实时反馈与修正:借助触觉传感器和视觉实时反馈,调整机械臂的运动轨迹和抓取力度,以确保任务的高精度和稳定性。
4、 学习反馈层
l. 利用多模态学习框架(如深度强化学习DRL)实时优化执行路径和抓取策略,使系统在执行过程中能够自主学习和优化。
通过自动化的错误反馈机制,收集任务执行过程中产生的错误信息和成功经验,利用强化学习算法在仿真环境中反复训练,提升系统的决策能力和任务执行成功率。
m. 将实训过程中的各项数据进行记录,提供给参与实训的本科生和研究生进行分析和复盘,以便提升学生们对学习反馈层的理解。
日前,该“具身智能高校实训解决方案-从AI大模型+机器人到通用具身智能”基于华为技术有限公司AI框架昇思MindSpore,完成并通过昇腾相互兼容性技术认证。
三、技术方案实现概览
1、 语音与视觉协同处理:
语音指令通过DeepSeek解析为动作指令,并通过视觉感知模块定位目标物体。视觉模块通过3D相机构建环境的三维模型,并实时跟踪物体位置。语音和视觉数据通过多模态大模型进行融合,以实现指令的准确传达和物体的精确定位。
2、 路径规划与逆运动学求解:
通过多模态输入的坐标信息,路径规划模块利用逆运动学算法生成机械臂的关节角度路径。该过程不仅考虑目标位置,还要确保路径的碰撞避免及效率优化。
3、 多传感器融合技术:
通过深度学习算法,将3D视觉数据与触觉反馈实时融合,能够显著提升机械臂的抓取和放置精度。这种方法利用视觉传感器捕获物体的颜色和纹理信息,同时通过触觉传感器获取物体表面的接触点位置和方向。在此基础上,算法能够实时修正机械臂的运动路径,优化避障和目标捕捉能力,实现精确操作。
4、 强化学习的训练与优化:
在仿真环境中,我们可以通过强化学习技术对机械臂的抓取策略和路径规划算法进行预训练和优化。这种方法可以显著提高机械臂在实际操作中的精度和稳定性,同时降低失败率。通过仿真训练,我们可以模拟不同的环境和障碍物设置,让机械臂在虚拟环境中学习如何有效地避开障碍并准确抓取目标。这样,当机械臂在现实世界中执行任务时,它已经具备了一定的经验和策略,能够更加稳定和精确地完成抓取和放置操作。
四、教学实训与科研应用场景
1、 任务分解与流程执行:
如“沏茶”任务可以分解为多个子任务:取杯、取茶、注水等。每个子任务的执行路径和动作参数通过多模态大模型生成和优化。学生可以深入理解自然语言指令到实际执行动作的整个流程。
2、 多模态数据的融合与处理:
学生将有机会使用语音、视觉和触觉等多模态数据进行分析和训练,深入理解多模态数据融合的优势及其在具身智能中的应用。
3、 自主学习和策略优化:
通过强化学习框架的应用,学生可以研究如何利用深度学习进行策略优化,提升机械臂在动态环境中的适应能力。
4、 前沿技术研究:
结合多模态大模型与机器人控制技术,为高校在机器人领域提供前沿研究的支撑。学生可在视觉-语言-动作模型、任务规划等领域探索新的研究方法,进一步推动具身智能的技术进步。
五、实训方案优势
1、 真实场景模拟:
通过3D视觉和触觉传感实现环境感知和任务执行,学生可以体验从仿真到真实场景的任务转移过程,提升其实践操作能力。
2、 创新性与前沿性:
系统整合了当前最前沿的DeepSeek、多模态融合、深度学习和3D视觉等技术,符合当前具身智能的最新发展方向。
3、 高度模块化与灵活扩展:
硬件和软件模块高度集成,可根据实际需求更换3D相机、传感器及大模型等,使平台具有高度的扩展性。
六、面向专业
本实训解决方案面向相关专业的本科、高职和研究生。主要面向的专业包括:
1. 自动化类:自动化、轨道交通信号与控制、机器人工程、智能装备与系统、工业智能、智能工程与创意设计等;
2. 计算机类:计算机科学与技术、软件工程、网络工程、物联网工程、智能科学与技术、空间信息与数字技术、电子与计算机工程、数据科学与大数据技术、电影制作、服务科学与工程、虚拟现实技术等;
3. 电气类:电气工程及其自动化、电气工程与智能控制、电动载运工程、电机电器智能化等;
4. 电子信息类:电子信息工程、通信工程、微电子科学与工程、光电信息科学与工程、信息工程、集成电路设计与集成系统、医学信息工程、电磁场与无线技术、电子信息科学与技术、应用电子技术教育、人工智能、智能测控工程和智能视觉工程等;
5. 机械类:机械工程、机械设计制造及其自动化、机械电子工程、过程装备与控制工程、车辆工程、微机电系统工程、机电技术教育、智能制造工程、智能车辆工程、仿生科学与工程、新能源汽车工程、智能交互设计、工程和农林智能装备工程等;
6. 交通运输类:交通运输、交通工程、轮机工程、飞行技术、交通设备与控制工程、船舶电子电气工程、轨道交通电气与控制、智慧交通和智能运输工程等;
7. 航空航天类:航空航天工程、飞行器设计与工程、飞行器制造工程、飞行器动力工程、飞行器适航技术、飞行器控制与信息工程、无人驾驶航空器系统工程、智能飞行器技术、空天智能电推进技术等;
8. 兵器类:武器系统与工程、武器发射工程、探测制导与控制技术、信息对抗技术和智能无人系统技术等;
9. 其他专业:农业机械化及其自动化、农业电气化、农业智能装备工程、智慧建筑与建造、公安视听技术、未来机器人、交叉工程、智能医学工程、智能影像工程、大数据管理与应用、物流工程、测控技术与仪器、智能感知工程、海洋机器人、智慧海洋技术和智能海洋装备等;
七、产品清单
类型 | 项目/产品 | 建议配置 | 介绍 |
硬件套装一:3D相机 | Orbbec Gemini 335L | 按实训学生人数,每2人或4人配置一台 | Gemini 335L是奥比中光新一代全场景双目3D相机-Gemini 330系列的首发产品,能适应最广泛的场景需求。Gemini 335L搭载奥比中光最新自研的先进深度引擎芯片MX6800,配备高性能主被动融合成像系统,具备出色的环境适应性,能够在户外、室内、夜晚、白昼等不同光照条件以及复杂多变的动态环境中稳定输出高质量深度数据,精准还原场景和物体的3D信息,广泛适用于AMR、巡检机器人、协作机械臂等机器人和AI视觉应用场景。 |
硬件套装一:智算盒 | 研华(Advantech MIC-713-ON) | • 基于 NVIDIA®Jetson Orin™ Nano AI 推理系统 • 紧凑型无风扇系统• NVIDIA® Jetson Orin™ Nano, 算力最大 40 TOPS • 支持 2 x GbE, 6 x USB 3.2 Gen 2 • 支持 1 x mPCIe, 1 x M.2 3052, 1 x M.2 2280 • 支持 Allxon 全天候远程管理与OTA 部署 | |
硬件套装一:协作机器人 | 大象机器人(mycobot 320-M5) | myCobot 320 机械臂由大象机器人公司开发,是专为教育、研究和轻工业自动化设计的协作机器人。这款机器人以其紧凑的设计和强大的功能而闻名,致力于为创新和学习提供无限可能。它的最大臂展为 350 毫米,最大有效载荷为 1 千克,支持不同难度的编程语言,适合各种技能水平的用户使用。机械臂支持 Python 语言,硬件接口包括 IO、USB 等,便于连接各种传感器和执行器。并且提供丰富的开放源代码库和 API,以简化开发流程,与 Windows、Linux 和 MacOS 兼容,适用于各种开发环境,鼓励用户参与扩展开发。 | |
硬件套装二: DOFBOT AI视觉机械臂 (树莓派版) | DOFBOT AI视觉机械臂 (树莓派版) | 按实训学生人数,每2人或4人配置一台 | • AI人工智能,手眼合一 • 模型训练,智能分拣 • ROS系统+OpenCV视觉识别 • moveIt运动规划,Rviz仿真 |
硬件套装三: 3D 视觉实验箱(Orbbot 3D BOX) | 3D 视觉实验箱(Orbbot 3D BOX) | 按实训学生人数,每2人或4人配置一台 | 1、实验箱采用ABS高分子材料,具备强度高、韧性好、耐腐蚀、耐高温等特点,搭载15.6寸IPS高清屏,1080P+HDR分辨率,178°广视角; 2、内置开源卡片电脑,5.0 TOPS算力NPU,支持OpenCV,可以通过OpenCV调用深度学习加速芯片NPU,LPDDR4/4X :2GB;EMMC 5.1:16GB;支持USB、Type-C、miniHDMI接口; 3、搭载奥比中光Gemini2深度相机,工作范围:0.2m-5m,相对深度精度:≤2%(1280*800@2m & 81% ROI);深度FoV:H:91°/V:66°/D:101°±3°@2m;深度图像分辨率@帧率:1280*800@30fps、640*400@60fps; 4、搭配仿生桌面机械手掌,自带开源三合一控制板; 5、搭配6自由度机械臂,采用6个高精度串行总线伺服舵机(4关节+1水平旋转+1夹持器),单个舵机扭矩达25KG/cm,整机起重量达500g;支持在机械臂末端安装Gemini2深度相机; 6、基于实验箱开发由人民邮电出版社出版的《图像处理与计算机视觉实践(基于OpenCV&Python )》教材,包含十三个章节的课程,可作为教学课件; 7、实验箱为学习者准备了十二个实验项目手册,包括人识别、目标跟踪、手势识别、机械臂抓取等; |
大模型等相关算法和实训环境 | 大模型等相关算法和实训环境 | 提供包括并不限于右侧的算法API、SDK及相应的Tokens额度; | 不限于以下开发环境和算法模型: 开发环境:树莓派4B、Ubuntu 20.04等;语音识别:AppBuilder-SDK短语音识别(极速版)等;语音合成:AppBuilder-SDK短文本在线合成(PaddleSpeech-TTS)等;大语言模型:DeepSeek、Qwen等;多模态视觉语言大模型:DeeSeek-vl2、Yi-Vision、Qwen-VL、CogVLM2、InternVL、Grounding DINO等; 交付物技术资源包:DeepSeek私有化部署,SDK API使用说明文档、3D视觉技术教程。 源代码与模型文件:交付DEMO工程源代码和模型文件。不少于1个大语言模型和1个多模态模型的开源大模型部署指南。 实践项目与评估:机器人实训实验全流程示例DEMO工程源代码,示例模型文件、代码文件及使用说明文档。 交付形式电子文档:所有代码、模型相关的材料、技术指南和使用说明均以PDF、word、PPT等通用格式提供。部分提供在线访问权限,确保学生可以随时查阅最新资料。 |
大模型部署 | DeepSeek模型私有化部署 | 提供私有化部署和调试 | 为合作客户提供DeepSeek模型的私有化部署一套,并进行调试。 |
课程 | 具身智能与大模型 | 18课时 | 1、具身智能与大模型基础 2、多模态感知层 3、NLP与人机交互技术 4、大模型与多模态模型基础 5、多模态大模型开发 6、特定场景下的具身智能应用 7、智能体Agent开发与控制 8、大模型相关技术深化 9、综合实践 交付物课程设计与实训材料:每个课程一套详细的课程大纲、教案、实训指导书和代码文档。 交付形式所有课程材料、技术指南和实验说明均以PDF、word、PPT等通用格式提供,部分提供在线访问权限,确保学生可以随时查阅最新资料。 |
实验课程一 | 具身智能与大模型培训教学实验一 | 10个实验 | 实验1:多模态感知层 实验2:语音交互实验,人机对话与任务调度 实验3:多模态模型实操:物体识别与抓取 实验4:语音交互实验:人机对话与任务调度 实验5:视觉-语言-动作融合模型,实现场景交互 实验6: Agent智能体(机械臂)的搭建与应用 实验7:编程实现智能体(机械臂)的高精度抓取与安全避障 实验8:DeepSeek模型的分布式推理实操 实验9:工业制造产品智能分拣系统开发 实验10:AIGC应用 交付物课程设计与实训材料:每个课程一套详细的课程大纲、教案、实训指导书和代码文档。 交付形式所有课程材料、技术指南和实验说明均以PDF、word、PPT等通用格式提供,部分提供在线访问权限,确保学生可以随时查阅最新资料。 |
实验课程二 | 具身智能与大模型培训教学实验二 | 10个实验 | 实验1:多模态感知与环境感知实验 实验2:智能语音交互与动作反应实验 实验3:多模态数据融合与物体操作实验 实验4:空间规划与操作优化实验 实验5:视觉 - 语言 - 动作融合模型实验 实验6:智能体Agent的搭建与应用实验 实验7:编程实现智能体(机械臂)的高精度抓取与安全避障实验 实验8:DeepSeek模型的分布式推理实操(结合机械臂操作) 实验9:工业制造产品智能分拣系统开发实验 实验10:AIGC应用实验(结合智能机械臂) 交付物课程设计与实训材料:每个课程一套详细的课程大纲、教案、实训指导书和代码文档。 交付形式所有课程材料、技术指南和实验说明均以PDF、word、PPT等通用格式提供,部分提供在线访问权限,确保学生可以随时查阅最新资料。 |
师资培训 | 教学辅助师资培训 | 3课时 | 具身智能与3D视觉技术的融合应用 培训课程大纲及体系架构详解 机器人抓取任务实战演示 实训流程及操作指南 创新实践项目的探索与实施 实训过程中的关注点与风险规避 |
硬件套装一
方案特点:系统集成奥比+研华+大象协作机器人的教学演示功能开发、常规操作与设备管理流程,确保系统在3D视觉理解、自然语言处理、物体抓取与放置、动作表现及任务执行等方面达到高标准的性能和可靠性,从而提升用户体验和市场竞争力。
主要功能:AI协作机器人:集成人工智能、大模型技术与机械臂硬件的智能设备,具备多模态感知和自主操作能力。末端执行器:机械臂末端用于执行特定任务的工具或装置,如夹具、吸盘等。
多模态视觉语言大模型:结合视觉和语言处理能力的人工智能模型,支持复杂的图像理解与自然语言交互。
Agent智能体:用于任务编排与优化的智能软件模块,负责机械臂的动作规划与执行。
序号 | 产品名称 | 产品型号 | 技术参数 |
1 | 3D相机 | Orbbec Gemini 335L | Gemini 335L是奥比中光新一代全场景双目3D相机-Gemini 330系列的首发产品,能适应最广泛的场景需求。Gemini 335L搭载奥比中光最新自研的先进深度引擎芯片MX6800,配备高性能主被动融合成像系统,具备出色的环境适应性,能够在户外、室内、夜晚、白昼等不同光照条件以及复杂多变的动态环境中稳定输出高质量深度数据,精准还原场景和物体的3D信息,广泛适用于AMR、巡检机器人、协作机械臂等机器人和AI视觉应用场景。 |
2 | 智算盒 | 研华(Advantech MIC-713-ON) | • 基于 NVIDIA®Jetson Orin™ Nano AI 推理系统 • 紧凑型无风扇系统• NVIDIA® Jetson Orin™ Nano, 算力最大 40 TOPS • 支持 2 x GbE, 6 x USB 3.2 Gen 2 • 支持 1 x mPCIe, 1 x M.2 3052, 1 x M.2 2280 • 支持 Allxon 全天候远程管理与OTA 部署 |
3 | 协作机器人 | 大象机器人(mycobot 320-M5) | myCobot 320 机械臂由大象机器人公司开发,是专为教育、研究和轻工业自动化设计的协作机器人。这款机器人以其紧凑的设计和强大的功能而闻名,致力于为创新和学习提供无限可能。它的最大臂展为 350 毫米,最大有效载荷为 1 千克,支持不同难度的编程语言,适合各种技能水平的用户使用。机械臂支持 Python 语言,硬件接口包括 IO、USB 等,便于连接各种传感器和执行器。并且提供丰富的开放源代码库和 API,以简化开发流程,与 Windows、Linux 和 MacOS 兼容,适用于各种开发环境,鼓励用户参与扩展开发。 |
硬件套装二
DOFBOT AI视觉机械臂 (树莓派版)
• AI人工智能,手眼合一 • 模型训练,智能分拣 • ROS系统+OpenCV视觉识别 • moveIt运动规划,Rviz仿真
硬件套装三
3D 视觉实验箱(Orbbot 3D BOX)
产品技术参数与配置
-
采用 ABS 高分子材料, 具备强度高、 韧性好、 耐腐蚀、 耐高温等特点, 搭载 15.6 寸 IPS高清屏,1080P+HDR 分辨率,178°广视角,产品体积小,易携带,整机重量不超过6KG。
-
支持开箱上电即用,搭配卡片电脑、屏幕、鼠标、键盘、深度相机、机械手掌、多轴机械臂等配件,箱体结构灵活,支持 USB、Type-C、miniHDMI 接口。
-
实验箱采用模块化设计, 各单元相互独立, 各组件均支持自由插拔, 布署灵活, 方便更新升级。
-
搭载 Amlogic A311D 开源卡片电脑,内置 5.0 TOPS 算力 NPU,支持 OpenCV,可以通过 OpenCV 调用深度学习加速芯片 NPU。SOC :Amlogic A311D;2.2GHz 4 核 ARM Cortex-A73 加 1.8GHz 双核 Cortex-A53 CPU,ARM G52 MP4 GPU 最高 800MHz,5 TOPS Performance NPU。LPDDR4/4X [2]:2GB;EMMC 5.1:16GB。
-
配置奥比中光 Gemini2 深度相机, 可实现深度信息感知、 人脸识别与测距等, 深度相机工作范围: 0.2m-5m; 相对深度精度: ≤2% (1280*800@2m & 81% ROI) ; 深度 FoV:H:91°/V:66°/D:101°±3°@2m ;深度图像分辨率@帧率:1280*800@30fps、640*400@60fps。
-
配置仿生桌面机械手掌,控制器兼容 Arduino 版本,手掌自由度:手部 5 个 DOF;底座 1 个 DOF。7. 配置桌面级六自由度机械臂,采用 6 个高精度串行总线伺服舵机(4 关节+1 水平旋转+1 夹持器) , 单个舵机扭矩达 25KG/cm, 整机起重量达 500g, 单个舵机转动范围≥300度;支持在机械臂末端快速安装 Gemini2 深度相机。
实现案例:机器人沏茶倒茶实训案例
以最具挑战性的沏茶任务为例:
通过语音输入,大模型进行语义理解,转化成系统需要执行指令集
两台3D深度相机分别从不同角度拍摄场景,并进行自主学习;
机械臂根据大模型所生成的指令集开始执行对应的动作
机械臂在深度相机支持下实现茶具定位、动作引导,最终完成置茶、冲泡、倒茶、奉茶全流程。
八、AI实训课程
教学课程:具身智能与大模型培训教学大纲
课时:18课时
1. 具身智能与大模型基础
-
具身智能的发展概述
-
具身智能与大模型关系
-
Embodied AI和GAI概述
-
具身智能关键技术和领域
-
ChatGPT与大模型的启示
-
机器人的起源
-
智能机器人
-
具身智能划分
-
具身感知
-
具身推理
-
具身执行
-
2. 多模态感知层
-
语音识别模块、视觉感知模块、以及触觉传感模块
-
ViT技术
-
多模态融合感知技术
-
数据对齐技术
-
数据 - 自动化构造数据
3. NLP与人机交互技术
-
自然语言理解与生成的基本原理
-
语言数据的收集、标注与模型训练
-
自然语言与执行动作的交互
-
人类行为理解
-
具身问答
4. 大模型与多模态模型基础
-
大模型与多模态模型概述
-
DeepSeek模型及其应用开发 - 学习DeepSeek模型的部署和优化方法
-
大模型之模型架构:语言模型LLM, BERT, GPT系列模型比较, Transformer架构
-
大模型开发基础:大模型的训练与应用、大模型实操与API调用、提示工程技术;
-
RAG基础与架构:RAG基础与架构、文档切分常见算法、向量数据库常见算法;
-
模型微调与私有化大模型:开源模型介绍、模型微调基础、GPU与算力、高效微调技术 LoRA
5. 多模态大模型开发
-
多模态大模型基础
-
多模态模型项目剖析
-
多模态大模型开发的技术与关键技术
-
构建智能机器人
-
智能机器人整体架构
-
不同类型智能机器人的功能特点
-
-
具身智能技术栈
6. 特定场景下的具身智能应用
-
3D视觉与物体识别技术
-
3D视觉感知的工作原理及技术特点
-
实现不同场景下的3D数据采集与实时分析
-
系统集成后的数据融合与处理方法
-
深度相机识别形状复杂的物体
-
结合大模型算法生成空间语义信息,提升物体定位精度
-
-
视觉 - 语言 - 动作模型简介
-
多模态数据的标注与融合算法
-
结合3D场景重建实现视觉 - 语言互动
-
基于场景语义理解调整任务规划
-
使用大模型算法生成动作序列,并实现视觉引导
-
7. 智能体Agent开发与控制
-
Agent开发基础、自定义工具、深入浅出ReAct框架、深度剖析Agent核心部件
-
Agent案例分享和前沿应用
-
智能设备与小参数模型
-
智能设备上的模型优化基础
-
模型在智能设备上的部署
-
边缘计算中的大模型应用
-
-
智能体Agent基本概念、常见架构和组件
-
智能体协作机器人概述
-
智能体控制算法与应用
-
协作机器人控制策略
-
智能体精度与稳定性调优
-
使用反馈控制技术提升动作的准确性
8. 大模型相关技术深化
-
大模型微调
-
大模型的基础技术理解
-
主流的底座模型
-
前沿的指令微调技术
-
高效的微调方法(参数高效、内存高效)
-
各类常用的对齐技术等
-
-
大模型推理优化
-
推理过程的概述与常见挑战
-
模型推理的性能瓶颈分析
-
多机多卡分布式推理的必要性与优势
-
MindIE简介与多模态推理
-
MindIE架构与工作原理
-
多模态推理的挑战与解决方案
-
推理优化的前沿技术与研究调技术
-
9. 综合实践
-
具身智能综合设计:工业制造领域智能分拣Agent构建
-
需求分析与场景定义:介绍工业制造中智能分拣的需求,定义具体应用场景。
-
数据准备与预处理:讲解如何收集和处理用于训练智能分拣系统的数据,包括图像数据的标注和处理。
-
模型选择与训练:介绍适用于智能分拣任务的模型,如CNN和目标检测模型,并讲解如何训练这些模型。
-
智能分拣Agent架构设计:阐述如何结合DeepSeek和ReAct框架,设计一个能够理解和执行分拣任务的智能Agent。
-
集成与测试:说明如何将训练好的模型集成到智能分拣系统中,并进行实际测试。
-
性能评估与优化:讲解如何评估智能分拣系统的性能,并根据评估结果进行优化。
-
-
AIGC应用开发实践课程 - 多模态大模型应用开发
-
AIGC相关的理论和技术,包括视觉大模型和多模态大模型的原理及应用
-
AIGC工具,如ChatGPT、DALL - E等技术介绍、应用案例分析
-
实验课程一:具身智能与大模型培训教学实验一
实验1:多模态感知层
-
语音识别:通过LLM内置的语音识别工具,Whisper或开源的AppBuilder SDK将语音指令转化为文字,测试在智算盒(Advantech MIC-713-ON)上的运行效率和准确性,优化语音识别模型的参数。
-
视觉感知:
-
环境搭建:将3D深度相机(Orbbec Gemini 335L)与基于NVIDIA®Jetson Orin™ Nano AI推理系统(由智算盒承载)进行硬件连接,确保系统稳定运行。
-
设备功能测试:利用3D相机进行物体识别、三维定位和空间建图,测试其在不同环境光照条件下的性能表现,为协作机器人(mycobot 320-M5)的机械臂提供精确的环境感知支持。
-
数据采集与预处理:使用3D相机采集多模态数据,结合视觉-语言-动作融合模型,对采集的数据进行预处理,提升后续物体定位与抓取的准确性和鲁棒性。
实验2:语音交互实验,人机对话与任务调度
-
自然语言指令响应测试:在智算盒上运行多模态视觉语言大模型,测试机械臂在自然语言指令下的动作反应,优化模型的自然语言理解和指令解析能力。
-
任务规划与执行:根据语音指令,利用Agent智能体进行任务规划和动作执行,实现多任务处理和优先级调度算法,提高机械臂的工作效率。
实验3:多模态模型实操:物体识别与抓取
-
环境搭建与硬件连接:确保3D相机、麦克风等设备与基于NVIDIA®Jetson Orin™ Nano AI推理系统以及协作机器人(mycobot 320-M5)正确连接,搭建稳定的实验环境。
-
多模态数据交互实验:使用3D相机、麦克风等设备采集多模态数据,利用语音、视觉、文本三模态数据进行交互实验,验证多模态信息的有效融合。
-
机器人动作控制:
-
指令识别与理解:利用大模型算法,结合智算盒的强大算力,实现机器人对语音指令的识别与理解。
-
基础任务实现:通过Python语言编程控制机械臂,依据语音指令实现物体识别并进行抓取,优化抓取动作的精准度和效率。
-
3D数据预处理:采用先进的3D数据预处理方法,进一步提升物体定位与抓取的准确性和鲁棒性。
-
视觉应用:使用3D相机进行体积视频捕捉和场景重建,实现复杂场景下的视觉引导。
-
-
多步任务规划:基于视觉反馈,实现机械臂的多步任务规划,优化任务执行的流畅性。
实验4:语音交互实验:人机对话与任务调度(优化版)
-
语音指令设计与解析:设计更丰富、更精准的语音指令,并编写高效的指令解析代码,提高人机对话的效率和准确性。
-
机械臂动作优化:测试机械臂在自然语言指令下的动作反应,根据指令进行任务规划和动作执行,优化动作执行的流畅性和协调性。
-
多任务处理与调度:
-
算法优化:深入研究和优化多任务处理和优先级调度算法,提高系统的整体运行效率。
-
性能评估:分析并改进语音识别与理解的准确性和鲁棒性,通过大量实验数据验证优化效果。
-
实验5:视觉-语言-动作融合模型,实现场景交互(深度探索版)
-
匹配与响应实现:实现视觉与语言的匹配和动作响应,提升多模态信息的协同处理能力,使机械臂能够更准确地理解用户的意图。
-
响应与反馈测试:测试机械臂对语言指令的响应与反馈,针对不同的场景和指令进行优化,确保机械臂的动作符合预期。
-
系统稳定性调试:调试在不同条件下的任务执行稳定性,解决可能出现的异常情况,提高系统的可靠性。
-
多模态交互应用开发:开发多模态交互应用,实现更丰富、更智能的交互功能,提升用户体验。
-
复杂任务规划与引导:基于视觉反馈,实现更复杂的任务规划和视觉引导,满足实际应用场景中的多样化需求。
实验6: Agent智能体(机械臂)的搭建与应用(协同版)
-
Agent架构设计:结合协作机器人(mycobot 320-M5)的特点和需求,设计Agent智能体的架构,确保其具备高效的决策和执行能力。
-
核心功能模块实现:基于智算盒(Advantech MIC-713-ON)的算力,实现Agent智能体的核心功能模块,包括任务编排、优化和机械臂的动作规划与执行。
-
性能测试与评估:对Agent智能体进行全面性能测试和评估,优化其算法和参数,提高系统的整体性能。
实验7:编程实现智能体(机械臂)的高精度抓取与安全避障(优化与安全版)
-
智能体控制接口编程:利用Python语言,通过智算盒(Advantech MIC-713-ON)对Agent智能体的控制接口进行编程,实现更精准的控制。
-
机械臂控制优化:
-
复杂动态交互:使用ROS和C++编程控制机械臂,实现复杂的动态交互,提升机械臂在复杂环境下的适应能力。
-
轨迹规划与误差补偿:实现复杂轨迹规划与误差补偿,提高抓取动作的精度和稳定性。
-
系统鲁棒性分析:对系统的鲁棒性进行分析和优化,确保在不同环境下系统能够稳定运行。
-
安全避障:在编程中加入安全避障机制,确保机械臂在运行过程中不会碰撞到周围物体或人员,提高系统的安全性。
-
实验8:DeepSeek模型的分布式推理实操(高性能版)
-
推理环境配置:基于基于NVIDIA®Jetson Orin™ Nano AI推理系统(智算盒)和多机多卡环境,配置适合DeepSeek模型的分布式推理环境。
-
分布式推理框架搭建:搭建基于NCCL和Horovod的分布式推理框架,确保在不同硬件设备上的高效协同计算。
-
推理演练与性能优化:进行推理演练,通过多机多卡进行推理的性能分析与优化,提高推理速度和效率。
-
特定任务下的推理实践:在特定任务下进行DeepSeek模型分布式推理,验证模型在实际应用中的性能和效果。
实验9:工业制造产品智能分拣系统开发(集成优化版)
-
系统需求分析与设计:学员根据所学知识,深入分析智能分拣系统的需求,设计系统架构,确保系统具备高效、稳定的分拣能力。
-
模型训练与调优:学员使用提供的数据集,在智算盒上训练分拣模型,并进行参数调优,以提高分拣准确率和效率。
-
智能分拣Agent实现:学员利用DeepSeek和ReAct框架,结合Agent智能体的能力,实现一个能够响应分拣指令的智能Agent,优化分拣过程。
-
系统集成与性能评估:学员将训练好的模型和智能Agent集成到智能分拣系统中,进行整体测试,评估系统性能,优化系统运行。
-
实验报告撰写:学员撰写实验报告,总结学习成果和经验教训,为后续的优化和改进提供参考。
实验10:AIGC应用(创意拓展版)
-
文本生成图像:利用多模态视觉语言大模型,进行文本生成图像的应用实践,探索不同风格、主题的图像生成效果,为产品设计和广告宣传等领域提供创意支持。
-
图像生成图像:尝试图像生成图像的应用实践,实现图像风格的转换、图像修复等操作,提升图像处理的能力。
-
视频生成:研究视频生成的应用实践,创作有趣、有创意的视频内容,为娱乐和教育等领域提供新的表现形式。
-
语音生成:进行语音生成的应用实践,如语音播报、语音对话等,为用户提供更加便捷、智能的语音交互体验。
-
音乐生成:探索音乐生成的应用实践,创作不同风格的音乐作品,满足用户在音乐创作和娱乐方面的需求。
实验课程二:具身智能与大模型培训教学实验二
一、实验目的
通过结合亚博智能机械臂、ROS + OpenCV、智能语音交互以及多模态大模型空间规划等技术,实现人机交互、智能决策与动作执行等功能,提升机械臂在复杂环境下的感知、理解和操作能力。
二、实验准备
硬件设备:亚博智能机械臂、3D深度相机(Orbbec Gemini 335L和Femto Bolt iToF)、麦克风、摄像头等。
软件环境:ROS(Robot Operating System)、OpenCV(开源计算机视觉库)、智能语音交互系统、MoveIt运动规划框架、多模态大模型。
三、实验内容
实验1:多模态感知与环境感知实验
语音识别:通过LLM内置的语音识别工具(如Whisper)或开源的AppBuilder SDK,利用麦克风采集语音指令,并将其转化为文字。
视觉感知:采用3D深度相机(Orbbec Gemini 335L和Femto Bolt iToF)采集环境图像和深度信息,结合OpenCV进行图像处理和分析,实现物体识别、三维定位和空间建图,为机械臂提供精确的环境感知支持。
实验2:智能语音交互与动作反应实验
语音交互界面设计:搭建智能语音交互界面,实现人机之间的自然语言对话。
指令解析与动作规划:编写指令解析代码,将自然语言指令解析为机械臂可执行的动作指令。结合MoveIt运动规划框架,根据语音指令进行任务规划和动作执行,测试机械臂的动作反应。
实验3:多模态数据融合与物体操作实验
环境搭建与硬件连接:完成各硬件设备(3D相机、麦克风等)与机械臂之间的连接和软件环境的配置。
多模态数据采集:使用3D相机、麦克风等设备采集语音、视觉等多模态数据。
数据融合与交互实验:利用多模态数据进行交互实验,结合智能语音交互和视觉感知,实现机器人对语音指令的识别与理解。
物体识别与抓取:基于大模型算法,实现物体识别,并利用智能语音交互和视觉信息,控制机械臂进行物体抓取。
实验4:空间规划与操作优化实验
3D数据预处理:研究3D数据的预处理方法,提升物体定位与抓取的准确性和鲁棒性。
体积视频捕捉与场景重建:使用相机进行体积视频捕捉和场景重建,优化机器人对环境的感知。
多步任务规划与视觉引导:基于视觉反馈进行多步任务规划和执行,提高机械臂的操作复杂性和稳定性。
实验5:视觉 - 语言 - 动作融合模型实验
多模态融合模型实现:实现视觉、语言与动作的深度融合模型,实现视觉与语言的匹配和动作响应。
系统调试与稳定性测试:测试机械臂对语言指令的响应与反馈,调试在不同环境条件下的任务执行稳定性。
多模态交互应用开发:开发多模态交互应用,实现与机械臂的智能交互。
复杂任务规划与视觉引导:利用视觉信息进行复杂任务规划,实现高精度操作。
实验6:智能体Agent的搭建与应用实验
Agent架构设计:根据实验需求,设计智能体Agent的整体架构,包括感知模块、决策模块、执行模块等。
核心功能模块实现:实现Agent的核心功能,如多模态数据处理、任务规划与执行等。
性能测试和评估:对Agent的性能进行测试和评估,分析其在不同任务场景下的表现,优化Agent的设计和实现。
实验7:编程实现智能体(机械臂)的高精度抓取与安全避障实验
智能体控制接口编程:编写智能体与机械臂之间的控制接口程序,实现两者之间的高效通信和协同工作。
ROS与OpenCV编程控制机械臂:利用ROS和OpenCV,编写程序控制机械臂实现复杂的动态交互,提高机械臂的操作灵活性和准确性。
复杂轨迹规划与误差补偿:使用MoveIt运动规划框架,实现机械臂的复杂轨迹规划,并根据实际操作情况进行误差补偿,提高机械臂的操作精度。
安全避障策略实现:研究并实现安全避障策略,确保机械臂在操作过程中避免碰撞障碍物,保障系统安全运行。
系统鲁棒性分析与优化:分析机械臂系统和控制程序的鲁棒性,针对可能出现的异常情况进行优化和改进,提高系统的可靠性和稳定性。
实验8:DeepSeek模型的分布式推理实操(结合机械臂操作)
推理环境配置:针对DeepSeek模型,搭建分布式推理所需的环境,包括操作系统、硬件设施等。
分布式推理框架搭建:基于NCCL和Horovod等工具,搭建分布式推理框架,实现多机多卡的推理计算。
推理演练:利用分布式推理框架,对模型进行推理演练,熟悉推理流程和操作方法。
分布式推理流程解析与实操:深入解析分布式推理流程,通过实际操作实现基于多机多卡的模型推理。
性能分析与优化:在特定任务下,对DeepSeek模型进行分布式推理的性能分析,针对性能瓶颈进行优化,提高推理效率和准确性。
实验9:工业制造产品智能分拣系统开发实验
系统需求分析与设计:结合工业制造场景,分析智能分拣系统的需求,设计系统架构,包括硬件组成、软件模块和数据流程等。
模型训练与调优:利用提供的数据集,在分布式推理环境下训练智能分拣模型,并进行参数调优,提高分拣准确率。
智能分拣Agent实现:利用DeepSeek和ReAct框架,实现一个能够响应分拣指令的智能Agent,与智能体Agent协同工作。
系统集成与测试:将训练好的模型、智能Agent和智能体Agent集成到工业制造产品智能分拣系统中,进行全面的功能测试和性能测试。
性能评估与报告撰写:根据测试结果,评估智能分拣系统的性能,分析系统在分拣准确率、效率和稳定性等方面的表现,撰写实验报告,总结学习成果和经验教训。
实验10:AIGC应用实验(结合智能机械臂)
AIGC应用场景探索:研究AIGC在文本生成图像、图像生成图像、视频生成、语音生成、音乐生成等领域的应用场景,探索如何将其与智能机械臂相结合。
创意任务生成与执行:利用AIGC技术生成创意任务指令,通过智能语音交互和视觉识别,引导机械臂完成相应的操作,如绘制图案、制作手工艺品等。
用户交互与体验优化:设计用户友好的交互界面,优化用户与智能机械臂之间的交互体验,提高用户参与度和满意度。
系统效果评估:对AIGC应用系统的效果进行评估,分析其在创意任务生成和执行方面的表现,针对存在的问题进行改进和优化。
师资培训
关于TsingtaoAI
TsingtaoAI拥有一支高水平的产学研一体的AI产品开发团队,核心团队主要来自清华大学、北京大学、中科院、北京邮电大学、复旦大学、中国农业大学、美团、京东、百度、中国技术创业协会和三一重工等产研组织。 TsingtaoAI核心团队专长于算力、行业LLM/AIGC应用的产品研发,面向企业的大语言模型应用落地等业务,如面向智能客服、教育、人力资源、电商和轨道交通等行业领域的LLM和AIGC应用开发。公司拥有近10项LLM/AIGC相关的知识产权。
TsingtaoAI自研基于LLM大模型代码能力的AIGC应用开发实训平台、具身智能高校实训解决方案、面向CS专业的AI训练实训平台和基于大语言模型的AIGC案例学习平台,聚焦虚拟现实、智能驾驶、金融科技、医药健康、高端装备、新能源、新材料、节能环保、文化创意、农业科技和食品科技等关键行业,通过链接全球数以千计的关键领域的AI科学家和工程师,为央国企、上市公司、外资企业、政府部门和高校提供AI企业内训和高校实训服务。