日本語音声基盤モデル「いざなみ」「くしなだ」を公開~少量の日本語音声データで高性能な音声AIを構築可能に~

ad

2025-03-10 産業技術総合研究所

産業技術総合研究所は、日本語音声AIの性能向上を目的に、6万時間の日本語音声データを活用した音声基盤モデル「いざなみ」と「くしなだ」を開発・公開した。従来不足していた感情豊かな会話音声や多世代の音声データを補い、少量の教師データでも高性能な音声AIの構築を可能にする。「いざなみ」はユーザーのデータで容易に改良でき、「くしなだ」は音声感情認識と音声認識で高い精度を実現。感情認識の正解率は「いざなみ」が80.12%、「くしなだ」が84.77%に達し、従来の70.65%を大きく上回る。特に高齢者の音声や感情豊かな会話への適用が期待され、今後は方言認識の向上も目指す。モデルはHugging Faceで公開されている。

<関連情報>

日本語音声基盤モデル「いざなみ」「くしなだ」を公開~少量の日本語音声データで高性能な音声AIを構築可能に~

1600情報工学一般
ad
ad
Follow
ad
タイトルとURLをコピーしました