日本語音声基盤モデル「いざなみ」「くしなだ」を公開～少量の日本語音声データで高性能な音声AIを構築可能に～

2025-03-10

2025-03-10 産業技術総合研究所

産業技術総合研究所は、日本語音声AIの性能向上を目的に、6万時間の日本語音声データを活用した音声基盤モデル「いざなみ」と「くしなだ」を開発・公開した。従来不足していた感情豊かな会話音声や多世代の音声データを補い、少量の教師データでも高性能な音声AIの構築を可能にする。「いざなみ」はユーザーのデータで容易に改良でき、「くしなだ」は音声感情認識と音声認識で高い精度を実現。感情認識の正解率は「いざなみ」が80.12％、「くしなだ」が84.77％に達し、従来の70.65％を大きく上回る。特に高齢者の音声や感情豊かな会話への適用が期待され、今後は方言認識の向上も目指す。モデルはHugging Faceで公開されている。

＜関連情報＞

月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31