約12兆トークンの良質なコーパスで学習した新たな国産LLM「LLM-jp-4 8Bモデル」「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開～一部ベンチマークでGPT-4oやQwen3-8Bを上回る性能を達成～

2026-04-03

2026-04-03 国立情報学研究所

国立情報学研究所（National Institute of Informatics）は、日本語に強い国産大規模言語モデル「LLM-jp-4」をオープンソースとして公開した。約12兆トークンの公開可能コーパスを用いて学習され、8BモデルとMoE構造の32B-A3Bモデルが開発された。日本語・英語ベンチマーク（MT-Bench）において、GPT-4oやQwen3-8Bを上回る性能を一部で達成。政府文書や合成データを含む高品質データ選定に加え、透明性・再現性を重視した設計が特徴である。今後はさらに大規模モデル開発と信頼性向上研究を進め、日本語LLM基盤の強化を目指す。

代表的なLLMのllm-jp-evalによる項目別評価

＜関連情報＞