AI を使って 3D ホログラムをリアルタイムに創出


(Using artificial intelligence to generate 3D holograms in real-time)

2021/3/10 アメリカ合衆国・


・ MIT が、AI を利用してほぼ瞬時に 3D ホログラムを作り出す、テンソルホログラフィー(tensor holography)技術を開発。
・ 同技術は効率的なディープラーニングをベースとするため、ラップトップでの高速処理が可能。VR や3D プリンティングのような分野への波及が期待できる。長らく研究されてきたコンピューターによるホログラム生成のプロセスでは、スーパーコンピューターで物理シミュレーションを作成する必要があり、時間がかかる上にフォトリアリスティックなホログラムの獲得が困難であった。
・ 写真では光の強度の分布のみを記録するが、ホログラムではそれに加えて光波の位相をエンコードし、対象物のより真に迫った視差と深度を表現する。例えばモネの『睡蓮』の写真では、絵画の配色が強調されるが、ホログラムでは個々の筆遣いの独特な 3D テクスチャーを表現し、絵画の臨場感を演出する。
・ 1900 年代半ばに開発された初期のホログラムは、レーザービームの半分で被写体を照射し、残り半分を光波の位相の参考として利用して光学的に記録する。この参考光がホログラム独特の奥行き感を作り出す。ホログラム画像は静的で動きを捉えられない。また、ハードコピーのみが可能なため再現・共有が難しい。
・ 今回、トレーニングが可能な一連のテンソルに人間の視覚情報処理を模倣させる、畳み込みニューラルネットワーク(CNN)を設計。3D ホログラムには、ニューラルネットワークのトレーニングに必要な大量の高品質データセットが存在しないため、4,000 組のコンピューター生成画像とそれに対応する 3D ホログラムのデータセットを構築し、フォトリアリスティックなトレーニングデータを作製した。
・ テンソルネットワークは、各組の画像から学習することで独自の演算のパラメータを調整し、ホログラム作製能力を連続的に強化する。最適化が完了した CNN では、物理ベースの演算に比べ桁違いの速さで処理を実行できた。
・ 同テンソルホログラフィー技術では、標準的なコンピューター生成画像より得られ、マルチカメラセットや LiDAR センサー(両者とも新型スマートフォンでは標準装備)より計算できる深度情報を有する画像を使用して、1MB を下回るメモリで僅か数ミリ秒でホログラムを生成する。
・ 同技術は、VR の臨場感をさらに向上させながら、長時間の VR 使用による眼精疲労や他の副作用の回避を可能にする。光波位相の変調が可能なディスプレイや、ボリューメトリック 3D プリンティングの高速化・高精度化、また顕微鏡、医療データの可視化や特殊な光学特性の表面設計等のアプリケーションが可能。
・ 本研究は、Sony が一部支援した。



Nature 掲載論文(アブストラクトのみ:全文は有料)
Towards real-time photorealistic 3D holography with deep neural networks


The ability to present three-dimensional (3D) scenes with continuous depth sensation has a profound impact on virtual and augmented reality, human–computer interaction, education and training. Computer-generated holography (CGH) enables high-spatio-angular-resolution 3D projection via numerical simulation of diffraction and interference1. Yet, existing physically based methods fail to produce holograms with both per-pixel focal control and accurate occlusion2,3. The computationally taxing Fresnel diffraction simulation further places an explicit trade-off between image quality and runtime, making dynamic holography impractical4. Here we demonstrate a deep-learning-based CGH pipeline capable of synthesizing a photorealistic colour 3D hologram from a single RGB-depth image in real time. Our convolutional neural network (CNN) is extremely memory efficient (below 620 kilobytes) and runs at 60 hertz for a resolution of 1,920 × 1,080 pixels on a single consumer-grade graphics processing unit. Leveraging low-power on-device artificial intelligence acceleration chips, our CNN also runs interactively on mobile (iPhone 11 Pro at 1.1 hertz) and edge (Google Edge TPU at 2.0 hertz) devices, promising real-time performance in future-generation virtual and augmented-reality mobile headsets. We enable this pipeline by introducing a large-scale CGH dataset (MIT-CGH-4K) with 4,000 pairs of RGB-depth images and corresponding 3D holograms. Our CNN is trained with differentiable wave-based loss functions5 and physically approximates Fresnel diffraction. With an anti-aliasing phase-only encoding method, we experimentally demonstrate speckle-free, natural-looking, high-resolution 3D holograms. Our learning-based approach and the Fresnel hologram dataset will help to unlock the full potential of holography and enable applications in metasurface design6,7, optical and acoustic tweezer-based microscopic manipulation8,9,10, holographic microscopy11 and single-exposure volumetric 3D printing12,13.