Objaverse:大规模3D模型开放数据集
研究人员推出了 Objaverse,这是一个“包含文本描述的3D 对象的海量开放数据集”。 它包含大约 800 000 个 3D 模型以及文本描述。
Objaverse数据集可以从huggingface下载,并且是通过 Sketchfab(Epic Games 旗下的在线平台)上共享的 3D 模型创建的。 该团队仅使用根据知识共享许可共享的 3D 模型。 换句话说,如果你使用 CC 许可证在 Sketchfab 上共享 3D 模型,它们可能会包含在 Objaverse 中,即使你使用了 NoAI 标签,情况也可能如此,该标签本意是阻止 AI 的任何使用。
NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎
1、为什么要创建这个数据集?
Matt Deitke 等人在论文Objaverse: A Universe of Annotated 3D Objects中,解释了他们为什么创建这个数据集。 他们强调,在文本或图片方面,海量数据集已经可用,这也是人工智能在最近几年/几个月取得如此巨大进步的原因。 换句话说,如果没有数据集来训练,ChatGPT、StableDiffusion 等工具将无法创建文本或图片,无论这些数据集是否开放、是否可用于商业用途。
到目前为止,只有中等规模的 3D 数据集可用,并且对象类别的多样性有限。 当然,这限制了它们的使用。
有了大规模数据集,就可以创建新的人工智能工具。 例如,你可以训练 AI 根据文本描述创建 3D 模型,或者创建 LOD/重新拓扑资产,识别 3D 对象应该是什么,或者为 3D 角色创建动画。 这样的数据集也可以用于计算机视觉领域,不仅可以作为训练数据,还可以作为基准。
Objaverse 与现有 3D 对象数据集之间的比较
2、Objaverse:来自 Sketchfab 的对象
在此阶段,你可能意识到 Objaverse 等数据集在人工智能方面具有巨大潜力。 它既可以用作训练数据,也可以用作基准。 研究人员解释说,为了创建 Objaverse,他们从 Sketchfab 获取了 3D 模型、描述和标签。 Objaverse 包含由超过 10 万艺术家设计的超过 80 万个资产。 包括 3D 扫描、从头开始创建的 3D 模型,甚至动画资产。
应该强调的是,该数据集仅源自使用知识共享许可共享的资产(其中大多数都遵循 CC-By 许可)。
3、Objaverse 可以用来做什么?
Objaverse 刚刚发布,但已经被多个研究项目使用。 例如,Text2Tex 是使用 Objaverse 训练的文本到纹理工具:
Text2Tex 根据给定的文本提示生成 3D 网格的高质量纹理,这种方法将修复结合到预先训练的深度感知图像扩散模型中,以从多个视点逐步合成高分辨率部分纹理。 为了避免伪影,Text2Tex提出了一种自动视图序列生成方案来确定更新部分纹理的下一个最佳视图。 大量实验表明,Text2Tex方法明显优于现有的文本驱动方法和基于 GAN 的方法。
Objaverse 论文的主要作者 Matt Deitke 给出了其他示例,例如 Zero-1-to-3,这是一个可以从单个图像创建 3D 模型的系统:
4、Objaverse 引发问题的第一反应
CC许可证本身允许抓取资源,但这种做法引发了一些问题。
许多艺术家和创作者长期以来一直在 Sketchfab 上上传 3D 模型,因此他们的一些资产在AI兴起之前就被共享了。 此外,Objaverse 似乎没有考虑到“NoAI”标签,该标签现在可以在 Sketchfab 上使用,公开声明你不希望您的资产被用来训练 AI。 当然,在这种情况下,Objaverse 背后的团队不会是侵犯许可的人,而且这种滥用在 Sketchfab 上共享的资产已经可能发生。
我们还应该强调的是,许多使用 Creative Commons 许可证共享的 3D 资源......实际上并未获得 CC 许可证。 例如,快速搜索,你会发现从任天堂游戏中提取的资产,并且上传它的用户只对其进行了轻微调整。 该资产与原始受版权保护的资产太接近,无法在 CC 许可下共享。
当他们了解到 Objaverse 时,一些艺术家选择删除他们的 Sketchfab 帐户,而其他艺术家则建议(可能是开玩笑)处理这个问题的一种方法是将“具有非流形几何体的资产上传到 Sketchfab 并用常见的标签” 标签”,以创建不良数据。 换句话说,从 Sketchfab 抓取的数据集将无法用于训练AI。 当然,这可能会被 Sketchfab 和该平台的其他用户视为垃圾资产。
5、如何检查我的 3D 模型是否包含在此数据集中?
Objaverse 的创建者已经搭建了一个探索工具,可在此处使用。 查找你的 Sketchfab 句柄或输入其中一个 3D 模型的名称应该可以帮助检查你的3D模型是否包含在Objaverse数据集内。
6、Sketchfab 对此有何看法?
Sketchfab 首席执行官兼 Sketchfab 联合创始人 Alban Denoyel(提醒一下,Sketchfab 归 Epic Games 所有,很快将并入 Fab)在 Twitter 上做出了回应。
他的回答突出了四个要点:
- 他强调说,“这些模型是在他们不知情的情况下由 objaverse 大规模聚合的”,并且“在发生这样的事情时,它们的优势绝对为零”。
- 他还解释说,该数据集是在 Sketchfab 实现 NoAI 标签之前创建的,这也许可以解释为什么没有考虑到它。
- 他还强调该数据集依赖于“用户可下载的 CC 内容集”。 换句话说,即使他们没有预料到,他们在技术上也确实允许这种方式使用他们的资产。
- 最后但并非最不重要的一点是,他解释说 Sketchfab/Epic Games“正在研究他们有什么可以采取的措施”。
Sketchfab 官方账户也发布了几条关于这个话题的推文,解释说他们“理解艺术家的担忧并正在调查”。
目前尚不清楚 Sketchfab 对此事能做些什么。 一个值得探索的有趣主题与文本描述有关。 Sketchfab 使用条款规定许可证适用于“3D 资产”,但描述是否是资产的一部分? 如果没有,那么仍然可以抓取 Sketchfab 上在 CC 许可下共享的 3D 模型,并将它们作为数据集共享,但没有描述。 这会让这个数据集对于训练AI来说变得不那么有趣。
我们询问 Sketchfab 他们是否可以帮助我们阐明这个问题,我们将相应地更新文章。 我们还询问了 Objaverse 的创建者他们的计划是什么(特别是,他们是否会排除 Sketchfab 上现在带有 NoAI 标签的 3D 模型,以及他们将如何处理 Sketchfab 上在 CC 许可下共享的 3D 模型,但这显然是 受版权保护)。
7、不确定的时代
这种情况突显了一些数字艺术平台使用的“NoAI”标签并不是应对人工智能崛起的完美解决方案,因为当它们实施时,数据可能已经被专区。 Objaverse 还提醒我们,在 CC 许可下上传资产可能会导致艺术家无法预见的情况。
最后但并非最不重要的一点是,该公告强调了这样一个事实:如果数据未经彻底检查,则声称工具经过非版权数据的训练是不够的。 事实上,Objaverse 确实包含受版权保护的材料以及艺术家的创作,这些艺术家确实在 CC 许可下分享了他们的作品,但不希望他们的作品被用来训练人工智能。 这引发了道德和法律问题。 希望 Objaverse 背后的团队能够考虑到这些问题。
同时,如果你有 Sketchfab 帐户,可以使用“设置/帐户”页面在所有上传的内容上添加“NoAI”标签(如果你愿意)。 这将为你过去和未来的所有上传内容分配“NoAI”元标签,并禁止生成式AI使用它们。 当然,这不会对可能已经下载的数据产生任何影响。
原文链接:Objaverse大型3D数据集 - BimAnt