対話⾳声からジェスチャーを⽣成するAIを開発 −話し相⼿の反応を⽣成可能にした新しい対話⽣成技術−

2026-06-09 東京科学大学

東京科学大学とカーネギーメロン大学の研究チームは、対話音声から自然なジェスチャーを生成する深層学習モデル「DyaDiT(Dyadic Diffusion Transformer)」を開発した。従来のジェスチャー生成技術は単一話者の音声のみを入力としていたため、対話相手との相互作用や社会的関係性を十分に反映できなかった。DyaDiTは、二者の音声情報に加え、話者同士の関係性(友人、家族など)や性格特性、さらにはユーザ自身のジェスチャーや反応も入力として利用することで、聞き手としてのうなずきやリアクションを含む自然な身体動作をリアルタイムに生成する。拡散モデルとTransformerを組み合わせた構造により、会話の割り込みや発話の重なりがある状況でも対話の流れに応じた動作生成が可能であり、評価実験では従来手法より高いリアリズムと多様性を示した。今後は表情や全身動作への拡張、大規模言語モデルとの統合が予定されており、デジタルヒューマン、対話型AIエージェント、教育支援、メタバース、遠隔コミュニケーションなどへの応用が期待される。

対話⾳声からジェスチャーを⽣成するAIを開発 −話し相⼿の反応を⽣成可能にした新しい対話⽣成技術−
図1. DyaDiTの概要。

<関連情報>

DyaDiT:社会的に好ましい二者間ジェスチャー生成のためのマルチモーダル拡散トランスフォーマー DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

Yichen Peng, Jyun-Ting Song, Siyeol Jung, Ruofan Liu, Haiyang Liu, Xuangeng Chu, Ruicong Liu, Erwin Wu, Hideki Koike, Kris Kitani
The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026 (CVPR 2026)

Abstract

Generating realistic conversational gestures are essential for achieving natural, socially engaging interactions with digital humans. However, existing methods typically map a single audio stream to a single speaker’s motion, without considering social context or modeling the mutual dynamics between two people engaging in conversation. We present DyaDiT, a multi-modal diffusion transformer that generates contextually appropriate human motion from dyadic audio signals. Trained on Seamless Interaction Dataset, DyaDiT takes dyadic audio with optional social-context tokens to produce context-appropriate motion. It fuses information from both speakers to capture interaction dynamics, uses a motion dictionary to encode motion priors, and can optionally utilize the conversational partner’s gestures to produce more responsive motion. We evaluate DyaDiT on standard motion generation metrics and conduct quantitative user studies, demonstrating that it not only surpasses existing methods on objective metrics but is also strongly preferred by users, highlighting its robustness and socially favorable motion generation. Code and models will be released upon acceptance.

1602ソフトウェア工学
ad
ad
Follow
ad
タイトルとURLをコピーしました