Stability AI 3D:开创3D视觉技术新篇章,提升多视角连贯性与生成质量
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
今天,他们在3D技术界掀起了一场风暴,发布了稳定视频3D(简称SV3D https://huggingface.co/stabilityai/sv3d)——一个基于稳定视频扩散技术的创新模型,大大提升了3D视觉质量和视角的连贯性。
这次发布的SV3D分为两个版本:SV3D_u和SV3D_p。SV3D_u能够从单一图片输入出发,无需任何摄像机调整,就能生成环绕视频。而SV3D_p则在此基础上进一步发展,不仅支持单张图片和环绕视图作为输入,还能创建沿特定摄像机路径的3D视频。
无论是商业使用还是个人学习探索,SV3D都已准备就绪,商业用途需要Stability AI的会员资格,而个人学习者可以在Hugging Face下载模型权重,并参阅他们的研究论文。
他们的SV3D模型接受单一物体图片作为输入,创造出该物体的全新多视角视图。利用这些新视角,SV3D能够生成3D网格。
当他们之前发布稳定视频扩散模型时,就已经强调了该视频模型在多个应用领域的灵活性。现在,基于这个坚实的基础,他们激动地推出了稳定视频3D,这个新模型在3D技术领域取得了巨大的进步。相比之前发布的Stable Zero123以及其他开源选择,如Zero123-XL,稳定视频3D提供了更加出色的质量和多视角一致性。
此次发布的两个版本分别是:
- SV3D_u:这个版本能够基于单张图片输入生成环绕视频,无需摄像机设置。
- SV3D_p:这个版本在SV3D_u的基础上扩展了功能,支持单张图片和环绕视图作为输入,允许沿特定摄像机路径创建3D视频。
视频扩散的优势在于,通过将稳定视频扩散模型与摄像机路径条件化相结合,他们的稳定视频3D能够生成物体的多视角视频。与在Stable Zero123中使用的图像扩散模型相比,视频扩散模型在一般化和生成输出的视角连贯性方面提供了显著优势。此外,他们提出了改进的3D优化方法,利用稳定视频3D的能力生成任意绕物体的轨道。通过实现这些技术,并结合解耦的照明优化以及新的掩码得分蒸馏采样损失函数,稳定视频3D能够可靠地从单张图片输入中生成高质量的3D网格。
稳定视频3D在3D生成方面带来了重大进步,尤其是在新视角合成(NVS)方面。与先前的方法相比,他们的模型能够从任何给定角度提供连贯的视图,并具有出色的一般化能力。这不仅增强了姿态控制能力,还确保了跨多个视图的对象外观一致性,进一步提升了3D生成的真实感和精确度。
通过多视角一致性的优化,他们的稳定视频3D提高了3D神经辐射场(NeRF)和网格表示的质量,从而改善了直接从新视角生成的3D网格的质量。他们设计了一个掩码得分蒸馏采样损失,以进一步提高在预测视角中不可见区域的3D质量。此外,为了解决烘焙入照明的问题,稳定视频3D采用了解耦的照明模型,与3D形状和纹理共同优化。