オンラインで日本型の会話「共話」を実現する音声通話システムを開発

ad

2022-09-29 株式会社NTTドコモ

株式会社NTTドコモ(以下、ドコモ)は、5GネットワークとMEC(Multi-access Edge Computing)※1サービスを活用した低遅延・高音質の音声伝送と、口の動きから発話を先読みして自動ミュート制御を行う技術により、オンラインにおいても話し手と聞き手が一体になって会話を展開する日本型の会話「共話※2 」を実現する音声通話システム(以下、本システム)を開発しました。

「共話」とは、あいづちや笑いなどのリアクションと発話の積極的なオーバーラップが織りなす共感的な会話であり、日本人が好む会話の型と言われています。対面ではごく自然に行われていますが、オンライン環境では発言のたびに行うマイクのミュート操作や音声の遅れなどのため、お互いが息を合わせたような「共話」の実現は困難でした。

これらの課題に対応するために本システムでは、リアクションを含む発話時にのみ自動でマイクのミュートを解除する仕組みを開発し、取り入れています。人は発話するおよそ0.01~0.1秒前には発話の準備のために口を動かすという性質に注目し、カメラで検出した口の動きに基づいて発話を先読みしてマイクのミュート制御を行うことで、バッファリングに伴う音声の遅れや話頭切れがなく、あたかも常時マイクのミュートを解除しているような体験を実現しました。

図1.音声通話システム概要
図1.音声通話システム概要

図2.発話の先読みによる自動ミュート制御
図2.発話の先読みによる自動ミュート制御

低遅延・高音質音声伝送に自動ミュート制御機能を備えた本システムが「共話」を実現することを20代~50代の男女33名による主観評価試験で検証しました。3名のグループで本システムを使った会話を行い、「共話」がどの程度実現しているか(共話実現性)を「話しやすさ」「リアクションの取りやすさ」「会話の間の自然さ」「声の聞き取りやすさ」の4項目で対面時と比較して評価しました。すべての評価項目における平均値が「対面と同程度~対面よりもわずかに劣る」の水準との結果から、本システムで対面に近い「共話」が実現されていることを確認しました。

コロナ禍で急増したオンラインコミュニケーションでは、仲の良い友達同士が会って話す時のような気軽で安心感のある直感的・共感的な会話が難しいという声や、リモートワークにおいてオフィスでの雑談のような共感的な雰囲気の会話が足りないという声が多く聞かれます。そこで、本システムを活用した職場におけるオンラインの気軽な雑談に焦点を当てたコミュニケーション促進サービスも検討を開始しました。今後は、試作アプリを用いた検証を通じて、サービスの商用化をめざしてまいります。

  1. MEC(Multi-access Edge Computing)とは、移動通信網において、お客さまにより近い位置にサーバやストレージを配備する仕組み。
  2. 「共話」に関する参考文献
    [1] 水谷信子: あいづち論,日本語学,Vol. 7, No. 13, pp. 4-11 (1988).
    [2] 水谷信子: あいづちと応答,No. 37-44, 筑摩書房 (1983).
別紙1 「共話」を実現する音声通話システムの概要
  1. 概要
    • オンライン環境においても、話し手と聞き手が一体になって会話を展開する日本型の会話「共話」を体験できる。
    • 低遅延・高音質音声伝送により、あいづちや笑いなどのリアクションを伝えるための自然な間と、オーバーラップする発話の聞き取りやすさが実現できる。
    • 口の動きから発話を先読みして自動ミュート制御を行う技術の導入により、マイク操作のわずらわしさを解消し、話したいときだけ即座に自動でマイクのミュートを解除できるため、お互いにリアクションを伝え合うテンポの良い会話ができる。

    図3.対話と共話

    図3.対話と共話

  2. システム構成
    • 音声通話のためのWebRTC※1サーバとUI※2関連機能を提供するためのアプリケーションサーバをdocomo MEC上に配置し、低遅延かつセキュアな通信を実現
    • 音声通話アプリをクライアント端末(iOS端末)に配置、自動ミュート制御処理は音声通話アプリ内で完結し、これによる音声の遅延を生じない仕組み
    • 5Gネットワークを通じてクライアント端末とサーバ間の通信を行う、MECの採用により物理的な通信距離を短くすることで、低遅延音声伝送を実現

    図4.システム構成図

    図4.システム構成図

  3. 導入想定シーン(利用シーン)
    雑談やブレストなど、共感的な雰囲気の下で参加者が安心して自由に発言することで、それぞれの意見や持っている情報が引き出され、話が盛り上がったり、良いアイディアが出たりするオンラインコミュニケーションでの利用を想定。
  1. WebRTCとは「Web Real-Time Communication」の略称で、APIを経由して、Webブラウザやモバイルアプリ間で音声や映像・その他ファイルのリアルタイム通信を行う仕組みであり、ソースコードが公開されているオープンな規格。
  2. UIとは、ユーザーインターフェイス(User Interface)の略称で、一般的にユーザー(利用者)と製品やサービスとのインターフェース(接点)を意味する。
別紙2 各技術・共話実現性の評価結果

■口の動きから発話を先読みして自動ミュート制御を行う技術

  1. 発話無欠損検出率(発話を話頭から取りこぼしなく検出できる割合)
    1. 評価データ:オンラインコミュニケーションにおける共話場面の収録(映像+音声)データ
    2. 結果:
      1. 発話全体の99.1%(3107発話中3079発話)を無欠損で検出
      2. 検出できない音声は「うん」「ふふっ」「んー」などの口の動きを伴わないもの
  2. 有効性および受容性に関する主観評価結果(図5)
    1. 評価者:20代~50代の男女33名
    2. 評価方法:本システムを用いて、雑音のある環境下で、本技術「なし」の場合と「あり」の場合で雑談を実施結果:
      1. 利用者の約7割が「この技術があればノイズが気にならない」と評価
      2. 性能/効果や受容性に関する項目についても利用者の過半数から好評を獲得

図5.自動ミュート制御技術に関する主観評価結果(評価者33名)

図5.自動ミュート制御技術に関する主観評価結果(評価者33名)

■5GネットワークとMECサービスを活用した低遅延・高音質音声伝送

  1. 評価方法:本システムと測定装置を用いて伝送音声の客観品質(POLQA※1)と遅延を測定
    1. 本システム以外にも一般的なオンラインweb会議システム(アプリ)A~Dを評価
    2. システムA~D(一般的なweb会議)は5Gの「spモード」接続環境で評価
  2. 評価結果:本システムはPOLQA3.7, 遅延230ms程度と、高音質・低遅延を実現

図6.遅延及びPOLQA測定系

図6.遅延及びPOLQA測定系

図7.客観評価結果

図7.客観評価結果

■主観評価による共話実現性の検証

  1. 評価者:20代~50代の男女33名
  2. 評価方法:3人で本システムを使って会話をし、「話しやすさ」「リアクションの取りやすさ」「会話の間の自然さ」「声の聞き取りやすさ」の4項目を評価
    1. 会話としてブレスト、ゲーム2種(ワードウルフ、NGワードゲーム)およびその振り返りを実施し、共話的会話を誘発
    2. 対面での会話体験を評価の基準とするため、先に対面(ただしお互いの姿は見えない状態)での会話を実施
    3. 一般的なweb会議システムとしてシステムB(図7参照)も併せて評価、評者は評価対象システムが何かは分からない状態で評価(順番も評価者ごとにランダム)
  3. 評価結果(図8):
    1. 全4項目で平均評価値が「4:対面と同程度~3:対面よりもわずかに劣る」の水準であることから、本システムによって対面に近い共話が実現されていることを確認
    2. 4項目とも平均評価値で比較用システムB(一般的なweb会議)を上回る。特に「会話の間の自然さ」「声の聞き取りやすさ」の2項目では統計検定基づく「有意差あり」を確認

図8.共話実現性に関する主観評価結果(評価者33名)

図8.共話実現性に関する主観評価結果(評価者33名)

  • 別紙2の各検証結果は、全てドコモ調べ(2022年9月時点)
  1. POLQA(Perceptual Objective Listening Quality Assessment)とは、客観音声品質評価法の国際標準。人の知覚や認知をモデル化し、評価者が実際に音声を聴いて評価する主観評価値を推定できる。
別紙3 コミュニケーション促進アプリ 検討概要
  1. めざす姿
    【雑談を補給する、雑談を贈り合う、新しい雑談文化】

    • コロナ禍によってリモートワークの機会が増え、職場内のコミュニケーションがオンラインにシフトするにつれ、かつてオフィスで偶発的に行われていた雑談の機会が激減したとの声が社内調査において多く聞かれた。実際、オンラインでは偶発的な出会いがなく、目的が明確で効率性・経済性の高いコミュニケーションが重視されると感じているため、業務時間中に雑談をすることに後ろめたさを感じる人は多い。
    • その結果、知らず知らずのうちにメンタルを削られてしまうケースがあり、一見無目的な雑談にこそ、孤独感を解消し、職場内の仕事の効率を高める効果があると、雑談の重要性が再認識されつつある。
    • 本システムが実現する「共話」はこのような雑談で求められる共感的な雰囲気を作るために効果的である。偶発的な雑談の機会を促進する仕組みと合わせて提供することで、かつての雑談を取り戻し、オンラインの雑談に対する考え方を「しなくていい、なんかしづらいもの」から「効率的に楽しく仕事をして成果を出すために必須の要素、補給するもの。補給は自分だけでなく相手にもしてもらう、相互に贈りあうもの。」へと変える。そして雑談が推奨される組織、雑談が評価される組織文化の醸成をめざす。

    イメージ:【雑談を補給する、雑談を贈り合う、新しい雑談文化】

  2. コンセプト
    社内の人と偶発的に出会って雑談するアプリ。
    同期・先輩・後輩とより仲良くなることでWell-Beingに働ける環境を醸成する。イメージ:コンセプト
  3. 主な機能(検討中を含む)
    1. 自身のプロフィール設定機能
    2. 職場内のユーザ検索/プロフィール閲覧機能
    3. フォローした人がログインした際の通知機能
    4. 3名まで同時通話可能なルーム設定機能
      ■通話参加者全員が主体的に話せる人数として3名を設定、4名以上だとあまり話せない人が出てきてしまう。
      ■2名で実施中の会話に3人目が参加することも可能
    5. 5分単位の制限時間設定機能
      ■雑談を終えるきっかけがないと、長時間拘束されてしまう懸念から雑談のハードルが上がるため、あえて5分の制限時間を設定
      ■必要に応じて5分単位で延長も可能
    6. 通話中に口の動きから発話を先読みして自動ミュート制御を行う機能
  4. 提供予定時期・提供条件
    検証結果を踏まえて今後検討
ad

1603情報システム・データ工学
ad
ad
Follow
ad
タイトルとURLをコピーしました