生成AIを使用してリアルな3D形状を作成する新しい方法(A new way to create realistic 3D shapes using generative AI)

ad

2024-12-03 MIT

生成AIを使用してリアルな3D形状を作成する新しい方法(A new way to create realistic 3D shapes using generative AI)

マサチューセッツ工科大学(MIT)の研究者たちは、既存の手法に簡単な修正を加えることで、生成AIを用いてより現実的で高品質な3Dモデルを作成する新たな方法を開発しました。従来の「スコア蒸留」技術は、2D画像生成モデルを利用して3D形状を生成しますが、その結果はしばしばぼやけたり、漫画的になったりしていました。研究チームは、2D画像生成アルゴリズムと3D形状生成アルゴリズムの違いを分析し、品質低下の根本原因を特定。これにより、追加のトレーニングや複雑な後処理を必要とせずに、より鮮明でリアルな3D形状を生成することが可能となりました。この技術は、アーティスト、デザイナー、エンジニアがより優れた3Dモデルを効率的に作成するのに役立つと期待されています。

<関連資料>

再パラメータ化された DDIM によるスコア蒸留
Score Distillation via Reparametrized DDIM

Artem Lukoianov, Haitz Sáez de Ocáriz Borde, Kristjan Greenewald, Vitor Campagnolo Guizilini, Timur Bagautdinov, Vincent Sitzmann, Justin Solomon
NeurIPS 2024. 28 pages, 30 figures. Revision: additional comparisons and ablations studies
Subjects: Computer Vision and Pattern Recognition (cs.CV); Graphics (cs.GR); Machine Learning (cs.LG)
Cite as:arXiv:2405.15891 [cs.CV] (or arXiv:2405.15891v3 [cs.CV] for this version)
https://doi.org/10.48550/arXiv.2405.15891

While 2D diffusion models generate realistic, high-detail images, 3D shape generation methods like Score Distillation Sampling (SDS) built on these 2D diffusion models produce cartoon-like, over-smoothed shapes. To help explain this discrepancy, we show that the image guidance used in Score Distillation can be understood as the velocity field of a 2D denoising generative process, up to the choice of a noise term. In particular, after a change of variables, SDS resembles a high-variance version of Denoising Diffusion Implicit Models (DDIM) with a differently-sampled noise term: SDS introduces noise i.i.d. randomly at each step, while DDIM infers it from the previous noise predictions. This excessive variance can lead to over-smoothing and unrealistic outputs. We show that a better noise approximation can be recovered by inverting DDIM in each SDS update step. This modification makes SDS’s generative process for 2D images almost identical to DDIM. In 3D, it removes over-smoothing, preserves higher-frequency detail, and brings the generation quality closer to that of 2D samplers. Experimentally, our method achieves better or similar 3D generation quality compared to other state-of-the-art Score Distillation methods, all without training additional neural networks or multi-view supervision, and providing useful insights into relationship between 2D and 3D asset generation with diffusion models.

1600情報工学一般
ad
ad
Follow
ad
タイトルとURLをコピーしました