WebクロールとWebアーカイブに基づく大規模音声・音響データセットの一般公開

2026-04-28 国立情報学研究所

国立情報学研究所の大規模言語モデル研究開発センター(LLMC)は、Webクロールとアーカイブを基に構築した大規模音声・音響データセット「CC Audio」と「Archive.org Audio Dataset」を公開した。Common CrawlやInternet Archive由来の音声URLとメタデータを統合し、日本語だけで約48,000時間規模の音声資源にアクセス可能となる。ポッドキャスト、音楽、環境音など多様な音響を含み、音声認識・生成AIの高度化に貢献する。従来の大規模データ不足という課題に対応し、研究コミュニティの基盤強化を目的とする。データはAI学習など情報解析用途に限定されるが、次世代音声AIやマルチモーダル研究の発展を加速する重要な資源となる。

WebクロールとWebアーカイブに基づく大規模音声・音響データセットの一般公開

<関連情報>

1603情報システム・データ工学
ad
ad
Follow
ad
タイトルとURLをコピーしました