AI基盤の3D認識モデルを共同開発(Georgia Gkioxari Co-Leads Major 3D Perception Model Built on AI)

2025-11-25 カリフォルニア工科大学(Caltech)

Caltech の Georgia Gkioxari 教授が Meta AI の研究者らと共同で、AI を用いた大規模 3D 認識モデル「Cube」を開発した。Cube は数百万規模の2D画像と動画を学習し、物体の3D形状・姿勢・空間的関係を高精度で推定できる汎用モデルで、従来必要だった3Dアノテーションをほぼ不要とする点が革新的である。研究チームは、新たに構築した大規模3Dデータセットと、2D→3D変換を強化する学習手法を組み合わせ、ロボティクス、AR/VR、シミュレーションなど幅広い領域で活用可能なスケーラブル基盤を実現した。Cubeはオープンソースで公開され、3Dコンピュータビジョン研究の加速が期待される。Gkioxari 教授は、本研究が「実世界を3Dで理解する汎用AI」への重要なステップであると強調している。

AI基盤の3D認識モデルを共同開発(Georgia Gkioxari Co-Leads Major 3D Perception Model Built on AI)
SAM 3D allows users to pull objects into 3D—even those that are partially obscured, such as this globe—from a single image. The two 3D images of the globe show the untextured mesh version (left) and the textured mesh version (right), as generated by SAM 3D.Credit: SAM 3D Team/Meta

<関連情報>

SAM 3D: 画像内のあらゆるものを3D化 SAM 3D: 3Dfy Anything in Images

SAM 3D Team, Xingyu Chen, Fu-Jen Chu, Pierre Gleize, Kevin J Liang, Alexander Sax, Hao Tang, Weiyao Wang, Michelle Guo, Thibaut Hardin, Xiang Li, Aohan Lin, Jiawei Liu, Ziqi Ma, Anushka Sagar, Bowen Song, Xiaodong Wang, Jianing Yang, Bowen Zhang, Piotr Dollár, Georgia Gkioxari, Matt Feiszli, Jitendra Malik
arXiv  Submitted on 20 Nov 2025
DOI:https://doi.org/10.48550/arXiv.2511.16624

Abstract

We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image. SAM 3D excels in natural images, where occlusion and scene clutter are common and visual recognition cues from context play a larger role. We achieve this with a human- and model-in-the-loop pipeline for annotating object shape, texture, and pose, providing visually grounded 3D reconstruction data at unprecedented scale. We learn from this data in a modern, multi-stage training framework that combines synthetic pretraining with real-world alignment, breaking the 3D “data barrier”. We obtain significant gains over recent work, with at least a 5:1 win rate in human preference tests on real-world objects and scenes. We will release our code and model weights, an online demo, and a new challenging benchmark for in-the-wild 3D object reconstruction.

1600情報工学一般
ad
ad
Follow
ad
タイトルとURLをコピーしました