Dolphins 简介——一种新颖的多模态语言模型
背景问题
现在的自动驾驶系统在处理复杂的多变的现实驾驶场景时,往往缺乏人类驾驶员的全面理解,及时学习和适应能力以及错误纠正能力,为了实现能够像人类一样理解和响应复杂现实世界场景的完全自主车辆(AV)一直是一个重要目标。Dolphins 是一种新颖的视觉语言模型,它被设计为具有人类般的能力作为驾驶助手。
研究方法
在开源预训练的视觉语言模型OpenFlamingo的基础上,首先采用落地思维链(GCoT)过程增强了Dolphins的推理能力,然后通过构建特定于驾驶的指令数据和进行指令调整,将Dolphins调整到驾驶领域。通过利用BDD-X数据集,我们设计并整合了四种不同的AV任务到Dolphins中,以促进对复杂驾驶场景的全面理解。
应用
- 感知(场景理解):上传一个视频或者一系列图片。 通过问答,Dolphins 能够理解场景,并准确描述出来。
- 预测与规划:Dolphins 预测车辆接下来的变化,自行规划接下来的行为。
- 快速学习和适应:Dolphins 能通过情境学习进行未来预测。能够回答“如果”式问题。
- 反射和错误恢复:通过学习规则,反思原有预测,重新给出修改后的预测。
- 详细对话:可以和 Dolphins 对话,了解 Dolphins 正在关注什么,例如一些场景细节。也可以得到安全驾驶的知识。
特征
Dolphins 的独特特征可概括为两个方面:
(1) 能够提供对复杂和长尾开放世界驾驶场景的综合理解,并解决一系列AV任务;
(2) 出现了人类般的能力,包括通过上下文学习进行无梯度即时适应以及通过反思进行错误恢复。
局限性和未来工作
在复杂的驾驶场景中,Dolphins在整体理解和类人推理方面具有非凡的能力,标志着自主驾驶技术领域的重大进步。通过利用多模态输入和采用创新的基于链思维(GC0T)过程,Dolphins己经显示了其作为对话驾驶助手的熟练程度,能够处理广泛的AV任务,具有增强的可解释性和快速适应能力。
然而,我们走向全面优化Dolphins在现实世界中的应用的旅程遇到了明显的问题,特别是在计算开销和可行性方面。我们对Dolphins在DLM数据集上的表现的评估,一个真实世界的驾驶场景的现实基准,揭示了在一台 NVIDIA A100上平均推理时间为 1.34 秒。表明在边缘车辆上实现高帧率方面存在潜在的限制。此外,与在车辆上运行这种复杂的模型相关的功耗是一个重要的部署障碍。这些发现强调了进一步提高模型效率的必要性。展望未来,由新兴研究提出的定制和提炼模型版本的发展,似乎是一个很有前途的方向,这些简化的模型预计在边缘设备上部署更加可行,平衡了计算需求和功率效率。我们认为,持续探索和该领域的创新对于实现配备先进人工智能功能(如Dolphi ns提供的功能)的AV的全部潜力至关重要。
总结
Dolphins 作为一种基于视觉语言模型的对话式驾驶助手,成功缩小了现有自动驾驶和人类驾驶之间的差距。他在复杂驾驶场景的全面理解,人类般的能力和广泛的任务,适用性方面表现出色,为实现更接近人类驾驶的自动驾驶系统,提供了有力支持。
题外话:很少有机会作为前端,可以去研究模型原理之类。这不机会来了吗。发现由浅入深的学习,能够让一个小白较快的了解一个模型原理,不至于一头雾水。
我的学习路径是,先翻翻官方 github,找些通俗易懂的视频,对模型有个整体了解,以及应用场景的了解。看别人的文章,对由浅入深的介绍原理。再丢到 AI 里全文总结,或者进行问答的方式。最后再看论文,就简单很多了。当然以后进阶了,就直接看论文了。
- Dolphins:面向自动驾驶的多模态语言模型-bilibili视频介绍
- 项目页面以查看演示、示例和请求预训练模型
- 强推,Dolphins 的原理讲的浅显易懂
- Dophins-github
- 论文总结、翻译AI工具
- Dolphins 论文(由于是本地文档,就没放链接了)