当前位置: 首页 > article >正文

首个统一生成和判别任务的条件生成模型框架BiGR:专注于增强生成和表示能力,可执行视觉生成、辨别、编辑等任务

BiGR是一种新型的图像生成模型,它可以生成高质量的图像,同时还能有效地提取图像特征。该方法是通过将图像转换为一系列的二进制代码来工作,这些代码就像是图像的“压缩版”。在训练时会遮住一些代码,然后让模型学习如何根据剩下的代码来填补这些空缺。

BiGR不仅能够生成图像,还能在很多视觉任务中表现良好,比如修复损坏的图像或对图像进行编辑,而这些都无需对模型进行特别的调整。这使得BiGR在图像生成领域非常灵活和高效。

相关链接

论文地址:http://arxiv.org/abs/2410.14672v1

项目主页:https://haoosz.github.io/BiGR

代码链接:https://github.com/haoosz/BiGR

论文介绍

BiGR是一种新颖的条件图像生成模型,使用紧凑的二进制潜在代码进行生成训练,专注于增强生成和表示能力。BiGR可以执行视觉生成、辨别、编辑等。

  • 统一性:BiGR是第一个在同一模型中统一生成任务和判别任务的条件图像生成模型。通过对紧凑的二进制潜在代码进行建模,与现有模型相比, BiGR在两个任务中都表现出色。

  • 效率:BiGR以较低的时间成本生成图像,这归因于迭代揭露过程中所需的少量采样步骤,同时仍保持较高的生成质量。

  • 灵活性:BiGR可以灵活地用于各种视觉应用,例如以零样本方式进行修复、去除修复、编辑、插值和丰富,而无需针对特定任务进行结构更改或参数微调。

  • 可扩展性:BiGR在生成任务和判别任务中都表现出可扩展性,这通过对生成质量和线性探测性能的全面评估得到了证明。

方法

BiGR建立在 Llama 主干之上,结合了掩码标记预测和二进制转码器。BiGR 使用加权二进制交叉熵 (wBCE) 损失进行训练,以重建掩码标记。对于图像生成,我们设计了熵序采样。对于视觉表示,我们只需在中间层应用平均池化。

定量比较

图像生成

零样本广义应用

BiGR支持多种零样本应用,而无需特定于任务的结构更改或参数微调。

实验结果表明,BiGR在生成质量上优于现有模型,尤其是在使用二进制目标和掩蔽建模时。此外还比较了BiGR与最新的自回归生成基线LlamaGen的表现,发现BiGR在生成和判别任务上都展现出更强的能力。


http://www.kler.cn/news/359513.html

相关文章:

  • Android Studio Ladybug指定ndk版本
  • python excel如何转成json,并且如何解决excel转成json时中文汉字乱码的问题
  • Mac 安装 Telnet 工具
  • Maven - Assembly实战
  • ubuntu 虚拟机将linux文件夹映射为windows网络位置
  • Openlayers高级交互(2/20):清除所有图层的有效方法
  • 01 springboot-整合日志(logback-config.xml)
  • 【H2O2|全栈】JS入门知识(五)
  • 前端报错:‘vue-cli-service‘ 不是内部或外部命令,也不是可运行的程序(node_modules下载不下来)
  • 中小型医院网站开发:Spring Boot入门
  • Mac 查看编译器默认使用C++标准
  • C语言【调试】(个人笔记版)
  • 【UE5】将2D切片图渲染为体积纹理,最终实现使用RT实时绘制体积纹理【第五篇-着色器投影-投射阴影部分】
  • 选择排序,插入排序,快速排序的java简单实现
  • 200台设备如何做到运行半年0故障?工厂设备管理这些环节是关键!
  • Yolov10训练的餐盘菜品目标检测软件(包含源码及数据集)
  • B3612 【深进1.例1】求区间和
  • JVM篇(学习预热 - JVM正式展开 - (实战课程学习总结))(持续更新迭代)
  • Go 设置并发控制数量 【go并发模型】
  • nfs 中 lockd 与 statd 的作用