高精度な日中・中日機械翻訳システムの提供を開始

科学技術論文において実用

2018/05/08 科学技術振興機構(JST)

ポイント
  • 近年、中国から発信される科学技術論文などが急増しているため、中国語で書かれた科学技術文献を高精度に機械翻訳できるシステムが求められていた。
  • 400万件以上の中国語・日本語の対訳コーパスと、ニューラルネットワークによる深層学習により、高精度の日中・中日機械翻訳を実現し、そのシステムの提供を開始する。
  • 中国科学技術文献データベースの作成をはじめ、科学技術論文や特許の翻訳への活用が期待される。

JST(理事長 濵口 道成) 情報企画部の中澤 敏明 研究員らと、京都大学 大学院情報学研究科の黒橋 禎夫 教授らは、ニューラルネットワーク注1)を用いた日中・中日科学技術論文機械翻訳システムを開発しました。

近年、機械翻訳の精度向上への期待が高まるなか、JSTと京都大学は中国科学技術信息研究所(ISTIC)と連携し、科学技術論文などを基にした400万件以上の中国語・日本語の対訳コーパス注2)を整備しました。これらを、今回開発したニューラル機械翻訳エンジンで学習させるとともに、対訳辞書の整備によって誤訳、訳抜けを低減し、翻訳精度の向上を図りました。その結果、開発で定めた評価基準において「ほとんどの重要情報が含まれる」が97%、また「情報に過不足がなく容易に理解可能」が約6割の翻訳精度を達成しました。

このニューラル機械翻訳エンジンは、2016年12月に開催されたアジア言語を対象とした国際的な機械翻訳のワークショップ「WAT2016」(Workshop on Asian Translation 2016)での評価において、科学技術情報の機械翻訳タスクで1位の精度を達成しています。

開発した日中・中日機械翻訳システムを、2018年5月8日より以下のURLにて公開します。

ホームページURL:https://webmt.jst.go.jp/

<開発の背景>

近年、中国から発表される科学技術論文数が米国に次ぐ世界2位となり、中国語で書かれた科学技術文献などを日本語で検索、閲覧したいといった需要が高まってきています。人手による翻訳に比べ迅速かつ安価に処理が可能な機械翻訳の普及が期待される一方、科学技術情報の翻訳ではさまざまな専門用語や最新技術を表す新語が存在するため、技術内容を正しく伝達する必要があり、機械翻訳の高精度化が望まれていました。

JST 情報企画部では、2013年より、京都大学 大学院情報学研究科や中国科学技術信息研究所(ISTIC)と連携して「日中・中日機械翻訳実用化プロジェクト」に取り組み、深層学習のさまざまな応用にも着目し、科学技術論文を対象とした高精度のニューラル機械翻訳システムの実用化を推進してきました。

<研究開発の内容>

JSTは、これまで長年にわたる文献情報提供事業において、大量の中日対訳抄録を蓄積してきました。「日中・中日機械翻訳実用化プロジェクト」では、この大量の対訳抄録データを用いて一文ごとでの対応を高精度に推定する手法を開発し、対訳文を自動抽出することにより、大規模かつ高品質な対訳コーパスを構築しました。

また、近年盛んに研究が行われている「注意機構(Attention Mechanism)に基づくニューラル機械翻訳」を基にしたエンジンも同プロジェクトで独自に開発しました。この翻訳手法は、入力する文の長さに関係なく効率良く処理する手法で、特に長文の翻訳精度の向上が期待されます(図1)。さらに、大規模で高品質な対訳コーパスと、最先端のニューラル機械翻訳エンジンを組み合わせることで、世界最高性能の日中・中日科学技術論文翻訳システムを構築しました。その結果、本翻訳システムはプロジェクトで行った中国語から日本語の翻訳の評価では、翻訳率注3)97%を達成しました(図2)。

開発した翻訳エンジンはアジア言語を対象とした機械翻訳の国際的な評価ワークショップであるWAT2016(Workshop on Asian Translation 2016)においてトップの成績を納め、昨年行われたWAT2017でもトップレベルの翻訳精度を達成しました。

<今後の展開>

JSTでは、国内外の科学技術文献情報を整備し、JDreamⅢ注4)、J-GLOBAL注5)などのサービスを通じて情報提供を行っています。これらに含まれる中国文献データベース(JSTChina)注6)では、開発したニューラル機械翻訳システムを用いて、大量の文献情報(標題、抄録など)を迅速かつ高精度で日本語に翻訳して情報提供をしています。

今回提供する日中・中日機械翻訳システムでは、対訳コーパスや対訳辞書の整備を通して最先端の技術情報に対しても精度の高い翻訳を提供できると期待されます。

<参考図>

図1 注意機構に基づくニューラル機械翻訳の概念図

図1 注意機構に基づくニューラル機械翻訳の概念図

図2 翻訳精度評価の基準と中日機械翻訳の評価結果

図2 翻訳精度評価の基準と中日機械翻訳の評価結果
<用語解説>
注1)ニューラルネットワーク
人間の脳細胞における情報伝達の仕組みを模して考案された計算モデル。コンピューターが複雑な物事を理解する「深層学習」に用いられる。機械翻訳に限らず、近年、高度な画像認識や囲碁、将棋など非常に多くの分野で活用されている。
注2)対訳コーパス
機械翻訳の訓練に用いられる教師データ。同じ内容について複数の言語で書かれた文(=対訳文)を大量に集めたもの。
注3)翻訳率
ほとんどの重要情報(75%以上)が含まれる翻訳文の割合を示す。
注4)JDreamⅢ
国内外の学術文献や論文情報が検索できる日本最大級の文献・論文データベース。
http://jdream3.com/
注5)J-GLOBAL
JSTが運営する研究者情報、文献情報、特許情報、研究課題情報、機関情報、科学技術用語情報、化学物質情報、資料情報などの総合的学術情報データベース。
http://jglobal.jst.go.jp/
注6)中国文献データベース(JSTChina)
中国国内で発行される資料のうち、JSTで選択した文献情報データベース。
<お問い合わせ先>
<JST事業に関すること、機械翻訳システムの提供に関すること>

堀内 美穂(ホリウチ ミホ)、岩城 修(イワキ オサム)、中澤 敏明(ナカザワ トシアキ)
科学技術振興機構 情報企画部 システム高度化グループ

<報道担当>

科学技術振興機構 広報課