レーザ光のカオス的遍歴の自発性を用いた高効率な強化学習を実現～脳を模倣した意思決定できるAIハードウェア～

2022-12-08

2022-12-08 東京大学

既存のコンピュータを支える半導体の集積技術に限界が近づいている中、その状況を打破する情報処理方式を提供するために、光を活用した機械学習に注目が集まっています。
その一つの取り組みとして、強化学習の問題例として知られる、当たり確率が未知の複数台のスロットマシン（選択肢）からの報酬の最大化を目的とした教科学習の問題例の一つである「多腕バンディット問題」を、光ダイナミクスを活用して解くという研究が行われてきました。しかしながら既存研究では、選択肢の数が多い場合に性能が大幅に劣化するという課題がありました。

今回、情報理工学系研究科システム情報学専攻の成瀬誠教授が参加する、埼玉大学の内田淳史教授、金沢大学の砂田哲教授を中心とした共同研究グループは、マルチモード半導体レーザにおける縦モード間のカオス的遍歴を用いて、機械学習方式の一つである強化学習における問題例の解決方法を提案し、実験での実証に成功しました。

この研究では、複数の縦モードを有するマルチモード半導体レーザにおけるカオス的遍歴現象を利用して、多腕バンディット問題を解く方式を新たに提案しました。脳の自発的機能において重要な役割を担う現象として知られているカオス的遍歴を強化学習に取り入れることで、既存研究で課題となっていた選択肢が多い場合にも対応でき、従来用いられるソフトウェアのアルゴリズムよりも高効率に意思決定が実現できることを示しました。

また、研究グループは本手法の有効性に関して半導体レーザを用いた実験で検証し、レーザにおけるカオス的遍歴を用いて強化学習が実現できることを世界で初めて実証しました。
研究グループが提案した方式は実験的に実装できるため、今後専用デバイスを開発することで、効率的で高速な強化学習用ハードウェアを実現できる可能性を秘めています。またこの研究の結果は、レーザだけでなく、脳のダイナミクスとして知られているカオス的遍歴を強化学習に利用できることを示唆しており、自立的に意思決定する AI 技術の実現が期待されます。
この研究成果は、2022年12月8日午前4時（日本時間）にアメリカ科学振興協会（AAAS）の発行する『Science Advances』オンライン版に掲載されました。

図1：提案方式の概念図。
戻り光を有するマルチモード半導体レーザにより、複数の縦モード間のカオス的遍歴が発生する。
また、強度が一定のシングルモードレーザ光を注入することにより、一つの縦モードを強く発振させることで、カオス的遍歴を制御する。

詳しい資料は≫