当前位置: 首页 > article >正文

Painter:使用视觉提示来引导网络推理

文章目录

      • 1. 论文
      • 2. 示意图
      • 3. 主要贡献
      • 4. 代码简化

1. 论文

在这里插入图片描述
paper:Images Speak in Images: A Generalist Painter for In-Context Visual Learning
github:https://github.com/baaivision/Painter

2. 示意图

在这里插入图片描述

3. 主要贡献

在 In-context Learning 中,作为自然语言处理的一种新范式,使模型能够仅凭少数提示和示例迅速适应各种任务。但在计算机视觉领域, In-context Learning 的难点在于任务的输出表示方式差异很大,因此不清楚如何定义通用任务提示,以便视觉模型能够理解并应用到领域外的任务。在这项工作中 Painter 将核心视觉任务的输出重新定义为图像,并将任务提示也指定为图像。基于这个想法,训练过程非常简单,即对输入和输出图像对的组合执行标准的遮蔽图像建模。这使得模型能够执行基于可见图像补丁的任务。因此,在推断过程中,可以采用来自相同任务的一对输入和输出图像作为输入条件,以指示要执行哪个任务。没有那些花里胡哨的 trick,Painter在七个代表性的视觉任务上表现出与成熟的任务特定模型相媲美的性能,这些任务涵盖了从高级视觉理解到低级图像处理的各种领域。此外,Painter在几项具有挑战性的任务上明显优于最近的通用模型。

4. 代码简化

由于原项目的代码比较繁琐,对于各种不同的数据集有比较复杂的加载方式,我对他们的代码进行简化,从而令初学者能够快速利用自己的任务或者图像进行测试,需要注意的是这里我删除了关于训练的代码。链接:Painter:使用视觉提示visual prompt来引导网络推理超精简代码。以下是简化前后的代码结构对比。
简化前的代码结构:
在这里插入图片描述
简化后的代码结构:
在这里插入图片描述


http://www.kler.cn/a/106113.html

相关文章:

  • stm32下的ADC转换(江科协 HAL版)
  • 记录配置ubuntu18.04下运行ORBSLAM3的ros接口的过程及执行单目imu模式遇到的问题(详细说明防止忘记)
  • gitlab 服务器集群配置及 存储扩展配置
  • 【c++笔试强训】(第十一篇)
  • stdin文件流指针
  • 【动手学深度学习Pytorch】1. 线性回归代码
  • 图的应用4.0-----关键路径(AOE网)
  • 国际腾讯云直播推流配置教程!
  • Elasticsearch(十五)搜索---搜索匹配功能⑥--基于地理位置查询
  • C语言数据结构---时间复杂度、空间复杂度
  • 搭建自己的搜索引擎——oh-my-search使用
  • Linux内存管理(五十九):内存检测工具 kfence(2)
  • c语言进制的转换10进制转换16进制
  • npm i 报错或者卡顿 range manifest for 解决
  • 如何在spark中使用scikit-learn和tensorflow等第三方python包
  • ASO优化之关于Google Play中的搜索引擎优化
  • SQL server数据库单用户模式如何退出
  • c++ 并发与多线程(12)线程安全的单例模式-2
  • Spring | Spring Cache 缓存框架
  • 将CSDN或Confluence文章转为微信公众号格式
  • torch VS tensorflow 同功能的api
  • Flutter和SwiftUI比较
  • 目标跟踪ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual Tracking
  • LeetCode二分查找
  • 如何为你的地图数据设置地图样式?
  • 华为---DHCP中继代理简介及示例配置