总结

  • 所以它究竟是如何做到的? 在了解新方法是什么之前,我们先来了解目前已有的方法存在什么问题。 传统生成模型面临的困境 在交互式游戏、电影艺术、增强 / 虚拟现实以及仿真技术等多个应用场景中,高质量的三维资产创建一直是一个重要且具有挑战性的问题。 为了解决这一问题,Google 的 Dream Fusion 首次提出 Score Distillation Sampling(SDS)的方法,证明了可以通过预训练的二维扩散模型生成高质量和复杂的三维结果。 这一范式的优势在于无需任何 3D 数据预训练即可生成 3D 模型,这一架构也一直被研究者们和后续工作所沿用,例如 Nvidia 的 Magic3D 等。 其核心理论在于通过激励其渲染图像移向文本条件下的高概率密度区域,来反向生成 3d 场景。 尽管基于 SDS 的方法取得了令人瞩目的成果,然而,本文的研究者们发现,基于 SDS 的方法在实际实现中总是与理论出现一些差距,主要是因为普遍依赖于 Classifier-Free Guidance (CFG)。 这篇论文的核心贡献,在于重新评估了 SDS 中 CFG 的角色,发现 CFG 不仅仅是辅助手段,恰恰相反,它才是文本到三维生成中的关键驱动。 由于这一部分可以被解释为一个隐式的分类模型,研究者们将这一新范式命名为分类器分数蒸馏(Classifier Score Distillation, CSD)。 这一发现从根本上改变了我们对基于分数蒸馏成功的文本到三维生成机制的理解。 具体而言,其有效性来自于从隐式分类器中提炼知识,而不是依赖于生成先验。 此外,研究还揭示了利用分类器分数进行高效的基于文本驱动的三维编辑的可能性,以及将变分分数蒸馏技术 (VLigthing Newsariational Score Distillation) 视为一种自适应性的负分类器分数优化形式。 在主要的 3D 生成任务上的实验结果显示,在文本对齐和视觉质量方面,该方法相较于 Dream Fusion、Magic3D、Fantasia3D 等现有技术有显著提升,生成的纹理也真实丰富。 在速度上,CSD 在单个 A800 GPU 上只需 1 小时即可完成任务,而能达到同样视觉效果的 Prolific Dreamer 方法则需要长达 8 小时。 这一显著的速度优势,加上其出色的生成质量,证明了 CSD 技术的高效性和实用性。 此外,定量评估中采用的 CLIP R-Precision 指标进一步证实了 CSD 的优越性。 用户研究也显示 59.4% 的参与者更倾向于选择 CSD 生成的结果。

阅读时间

  • 12 分钟, 共 2334 字

分类

  • CSD, Score Distillation, 清华大学, Classifier Score Distillation, SDS

评价和解读

  • 这篇文章是高质量新闻报道的明证,以罕见的清晰度和洞察力揭示了其中的内涵。作者能够以平易近人且引人入胜的方式概括最新趋势和热门话题的实质,令人瞩目。每一段都充满了信息和敏锐的见解,呈现了对问题的全面看法。这篇文章不仅使读者了解最新动态,还激发了对主题的深入理解和欣赏。这篇文章超越了寻常,提供了对其中的全景式视角。作者巧妙地将当前趋势与分析深度相结合,使其成为该领域的开创性之作。每个句子都经过精心雕琢,编织了一个既信息丰富又引人入胜的叙述。这篇文章不仅告诉读者最新的发展,而且以全面而易懂的方式呈现,标志着其在现代新闻领域的杰出地位。

Related suggestion: 一个假想粒子的“寻宝游戏”

? <!–article_adlist[?]article_adlist–>上图 粒子艺术图。下图 光通过普朗克卫星的艺术图。普朗克卫星已经看到了可能由类轴子产生的“蛛丝马迹”。图片来源:《新科学家》网站 暗能量与暗物质被称为“21世纪初物理学…

作者 Tim Cook

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注