基于推理的目标检测 DetGPT
基于推理的目标检测 DetGPT
flyfish
detgpt.github.io
近年来,由于大型语言模型(LLMs)的发展,计算机视觉领域取得了重大进展。这些模型使人类与机器之间能够进行更有效、更复杂的交互,为模糊人类与机器智能界限的新技术铺平了道路。在本文中,我们引入了一种新的目标检测范式,我们称之为基于推理的目标检测。与依赖特定物体名称的传统目标检测方法不同,我们的方法允许用户使用自然语言指令与系统进行交互,从而实现更高水平的交互性。我们提出的方法称为 DetGPT,它利用最先进的多模态模型和开放词汇目标检测器,在用户指令和视觉场景的背景下进行推理。这使得 DetGPT 能够根据用户表达的需求自动定位感兴趣的物体,即使该物体没有被明确提及。
例如,如果用户表示想要一杯冷饮,DetGPT 可以分析图像,识别出冰箱,并利用其对冰箱内常见物品的了解来定位饮料。这种灵活性使我们的系统适用于从机器人技术、自动化到自动驾驶等广泛的领域。总体而言,我们提出的范式和 DetGPT 展示了人类与机器之间进行更复杂、更直观交互的潜力。我们希望我们提出的范式和方法将为业界带来启发,并为更具交互性和通用性的目标检测系统打开大门。
内容如下:
对话:
- Assistant: The image depicts a scene from the video game “The Legend of Zelda: Breath of the Wild.” In this game, there is a city called Gerudo Town, where only women are allowed and men are prohibited.
- 助手:这张图片描绘了视频游戏《塞尔达传说:旷野之息》中的一个场景。在这个游戏中,有一个叫格鲁德镇的地方,那里只允许女性进入,男性禁止入内。
- User: how to enter this city for Link?
- 用户:林克要如何进入这个城市?
- Assistant: In the game “The Legend of Zelda: Breath of the Wild,” there is a city called Gerudo Town, where only women are allowed and men are prohibited. To enter this city, you need to find a way to disguise yourself as a woman. One way to do this is to wear a Gerudo outfit, which can be found in various locations throughout the game.
- 助手:在游戏《塞尔达传说:旷野之息》中,有一个叫格鲁德镇的地方,只允许女性进入,男性禁止入内。要进入这个城市,你需要想办法把自己伪装成女性。一种方法是穿上格鲁德套装,这种套装可以在游戏中的各个地方找到。
- Detected Objects: Gerudo outfit.
- 检测到的物体:格鲁德套装。
例子
一部分是关于人们在草地上放风筝的描述和相关问题与答案;另一部分是关于办公桌及其上的物品的描述和相关问题与答案。
第一部分(放风筝场景):
标题:
- 一些人在草地上放风筝。
- 一个男孩在公园里玩风筝。
- 一群人在公园里放着一只色彩斑斓的风筝。
- 一位女士和一个小女孩在绿色的田野上拿着风筝。
- 一群人站在田野上放着一只彩色的风筝。
物体:
- 椅子、风筝、背包、人
描述:
图像展示了一群人在草地上放风筝。有些人站着,有些人坐在椅子上。一位女士和一个小女孩正抓着风筝,让它飞起来。背景中有树木和其他绿色植物。
查询与回答:
- 我想放风筝。我需要什么物体?答案:图像中有一个风筝,你可以用它来放风筝。因此答案是:[风筝]
- 找出图像中的所有人。答案:图像中有多个可见的人,站着或坐着放风筝。因此答案是:[人]
- 我想坐着放风筝。我能使用什么物体?答案:图像中有草地上的椅子,你可以用来坐着放风筝。因此答案是:[椅子]
- 找出所有颜色鲜艳的物体。答案:图像中有多个可见的物体,包括天空中飞翔的彩色风筝。因此答案是:[风筝]
- 找出所有用于携带东西的物体。答案:图像中有一个背包,可以用来携带东西。因此答案是:[背包]
第二部分(办公桌场景):
标题:
- 两台电脑放在桌子上方。
- 两台电脑放在一个大的木质电脑桌上。
- 一张有键盘、笔记本电脑和显示器的桌子。
- 一台电脑显示器旁边有一台键盘、笔记本电脑和鼠标。
- 一台带有外部键盘、鼠标、电话和照片的笔记本电脑。
物体:
- 椅子、人、电视、手机、杯子、笔记本电脑、鼠标、键盘
描述:
图像显示了一张桌子上放着各种电脑配件。桌子上有两台电脑,看起来都连接了外部键盘。除了电脑外,桌子上还有一台笔记本电脑、电脑显示器和鼠标。桌子上还有一部手机和一张照片。这张桌子似乎是木制的,场景中没有其他可见的物体或人。
查询与回答:
- 我如何打电话?答案:图像中有键盘、人、椅子、笔记本电脑、鼠标、杯子、手机和电视。要打电话,使用桌上的手机。因此答案是:[手机]
- 找出图像中的所有电子设备。答案:图像中有键盘、笔记本电脑、鼠标、电脑显示器、手机和电视。这些都是电子设备。因此答案是:[键盘、笔记本电脑、鼠标、电脑显示器、手机、电视]
- 找出所有可用于打字的物体。答案:图像中有键盘、笔记本电脑和外部键盘。这些都可以用来打字。因此答案是:[键盘、笔记本电脑、外部键盘]
- 你能找到任何黑色的物体吗?答案:图像中有键盘、人、椅子、笔记本电脑、鼠标、杯子、手机和电视。外部键盘和电脑鼠标是黑色的。因此答案是:[外部键盘、鼠标]
- 找出所有矩形形状的物体。答案:图像中有键盘、鼠标、电脑显示器、手机和电视。其中,电脑显示器和笔记本电脑可以被认为是矩形的。因此答案是:[电脑显示器、笔记本电脑]