日本語音声基盤モデル「いざなみ」「くしなだ」を公開~少量の日本語音声データで高性能な音声AIを構築可能に~ X Facebook LINE コピー 2025-03-10 ad 2025-03-10 産業技術総合研究所 産業技術総合研究所は、日本語音声AIの性能向上を目的に、6万時間の日本語音声データを活用した音声基盤モデル「いざなみ」と「くしなだ」を開発・公開した。従来不足していた感情豊かな会話音声や多世代の音声データを補い、少量の教師データでも高性能な音声AIの構築を可能にする。「いざなみ」はユーザーのデータで容易に改良でき、「くしなだ」は音声感情認識と音声認識で高い精度を実現。感情認識の正解率は「いざなみ」が80.12%、「くしなだ」が84.77%に達し、従来の70.65%を大きく上回る。特に高齢者の音声や感情豊かな会話への適用が期待され、今後は方言認識の向上も目指す。モデルはHugging Faceで公開されている。 <関連情報> https://www.aist.go.jp/aist_j/press_release/pr2025/pr20250310/pr20250310.html https://huggingface.co/imprt
産業技術総合研究所は、日本語音声AIの性能向上を目的に、6万時間の日本語音声データを活用した音声基盤モデル「いざなみ」と「くしなだ」を開発・公開した。従来不足していた感情豊かな会話音声や多世代の音声データを補い、少量の教師データでも高性能な音声AIの構築を可能にする。「いざなみ」はユーザーのデータで容易に改良でき、「くしなだ」は音声感情認識と音声認識で高い精度を実現。感情認識の正解率は「いざなみ」が80.12%、「くしなだ」が84.77%に達し、従来の70.65%を大きく上回る。特に高齢者の音声や感情豊かな会話への適用が期待され、今後は方言認識の向上も目指す。モデルはHugging Faceで公開されている。