WebクロールとWebアーカイブに基づく大規模音声・音響データセットの一般公開

2026-04-28 国立情報学研究所

国立情報学研究所の大規模言語モデル研究開発センター（LLMC）は、Webクロールとアーカイブを基に構築した大規模音声・音響データセット「CC Audio」と「Archive.org Audio Dataset」を公開した。Common CrawlやInternet Archive由来の音声URLとメタデータを統合し、日本語だけで約48,000時間規模の音声資源にアクセス可能となる。ポッドキャスト、音楽、環境音など多様な音響を含み、音声認識・生成AIの高度化に貢献する。従来の大規模データ不足という課題に対応し、研究コミュニティの基盤強化を目的とする。データはAI学習など情報解析用途に限定されるが、次世代音声AIやマルチモーダル研究の発展を加速する重要な資源となる。

＜関連情報＞

https://www.nii.ac.jp/news/release/2026/0428.html

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30