サイバー攻撃検知AIにおいて世界で初めて効果を実証
2020-10-29 株式会社富士通研究所
株式会社富士通研究所(注1)(以下、富士通研究所)は、複数の要素から成る系列データに対するAI活用において、偽造攻撃データを用いてAIモデルをだまし、意図的に判定を誤らせる攻撃への耐性を強化する技術を開発しました。
近年、様々な領域におけるAI活用が進む中、AIの誤判定を意図的に引き起こす攻撃のリスクが懸念されています。従来の攻撃対策技術は、画像・音声などのメディアデータ向けに適した技術が多く、通信ログやサービス利用履歴などの系列データへの適用には、模擬偽装攻撃データを用意する難しさや精度低下といった課題があり不十分でした。
これらの課題を解決するため、このたび系列データに適用可能なAIモデルの耐性強化技術を開発しました。本技術は、偽装攻撃を模擬したデータを大量に自動生成し、元の学習データセットと結合させることで判定精度を維持したまま偽装攻撃への耐性を向上させることが可能です。
本技術を当社が開発したサイバー攻撃への対処要否を判断するAIモデル(注2)へ適用した結果、独自の偽装攻撃テストデータにおいて約88%誤判定を防げることを確認しました。
本技術が対象としている系列データ分析AIは様々な分野で利用されており、本技術を活用することでメディアデータ向けに留まらない広範なAI活用システムの安全性向上に貢献します。
本技術の詳細は、10月26日(月曜日)から10月29日(木曜日)まで開催される「コンピュータセキュリティシンポジウム2020 (CSS 2020)」にて発表します。
開発の背景
近年、医療機関、社会インフラ、農業など様々な領域において膨大かつ多様なデータの解析でAIの活用が進んでいますが、一方で、道路標識に小さなシールを貼り、別の標識と誤認識させるなど、少しだけ変化させた攻撃データを使ってAIモデルを意図的にだましてAIの正しい判断を妨げようとするようなAIに特有なセキュリティ脅威の存在もAI活用の不安材料となっています。それを回避するため、学習データにあらかじめ作成した模擬偽装攻撃データを加えることで、万が一、攻撃された場合でもAIモデルがだまされないように学習させる敵対的訓練技術があります。
しかし、これまでの敵対的訓練技術の研究では、主に画像や音声などメディアデータ向けの対応が多くを占めており、通信ログやサービス利用履歴など、複数の要素から成る系列を単位として扱う系列データへの対応は不十分でした。サイバー攻撃の検知やクレジットカードの不正利用検知などをはじめとして、系列データに対するAIの応用分野は広く、系列データにも適用可能な偽装攻撃への耐性強化技術の開発が求められています。
課題
系列データにおける偽装攻撃の例として、例えば通信ログデータを分析するサイバー攻撃検知の場合、攻撃者は最初に攻撃した端末からほかの端末にログインし、書き込んだマルウェアを実行して感染を拡大させるなどの一連の攻撃操作を行い、AIモデルはこのような操作の通信ログから攻撃を検知します。しかし攻撃者は、サーバログの収集やパッチの適用など正規の管理業務操作などの合間に攻撃を混ぜることで偽装し、AIモデルに誤判定を引き起こさせます。
このような系列データに敵対的訓練技術を適用するには、学習用データとして、偽装攻撃を模擬したデータを大量に自動で生成する必要があります。画像などメディアデータの場合は、人間には判別できないピクセル単位で加工することで、元データの性質を損なうことなく容易に模擬偽装攻撃データを生成することができますが、系列データの場合は、どの要素が元データの性質に影響しているか明らかでないため、単純にデータの一部を加工すると元データの性質が失われてしまうことがあります。例えば、サイバー攻撃検知の際に扱う通信ログデータは、通信元・通信先・使用アカウント・実行コマンド・コマンド引数などの要素から成るログ行が複数並んだ系列データとなりますが、要素同士の依存関係や要素を変更できる範囲が明らかでないため、データの一部を単純に加工してしまうと無意味なデータとなってしまい模擬偽装攻撃データの生成が困難でした(図1)。また、模擬偽装攻撃データを生成できたとしても、それをAIで学習させる際には、元となる本来の攻撃データに対する判定精度が低下しないよう注意する必要があります。
図1 単純な模擬偽装攻撃データ作成
開発した技術
今回、系列データを分析するAIモデルに適用可能な敵対的訓練の模擬偽装攻撃データを自動で生成し、攻撃検知の精度低下も抑えた敵対的訓練を可能とする技術を開発しました。開発した技術の特長は以下のとおりです。
- 模擬偽装攻撃データ自動生成技術模擬偽装攻撃データを作成する際、まずベースとなる本来の攻撃データと偽装に使うデータを用意します。サイバー攻撃の場合、攻撃者は攻撃操作を正規操作に偽装させたいので、ベースとなるデータは攻撃操作の通信ログデータ、偽装に使うデータは正規操作の通信ログデータとなります。次に、偽装に使う正規操作の通信ログデータを対策前のAIモデルで分析し、その結果を参考に、正規操作と判定されやすい偽装効果の高いデータを抽出します。この抽出されたデータをベースとなる攻撃操作の通信ログデータに結合し、模擬偽装攻撃データとして生成します。ベースとなる攻撃操作の通信ログデータ自体は変更することなくそのまま残るため、元の性質を失うことなく、自動的に大量の模擬偽装攻撃データ生成が可能となります(図2)。
図2 サイバー攻撃を例にした模擬偽装攻撃データ自動生成技術のイメージ - アンサンブル敵対的訓練技術本来の学習データセットと開発技術1で生成した模擬偽装攻撃データセットを用い、元の学習データに強いAIモデルと偽装攻撃データに強いAIモデルの2種類のAIモデルを構築し(図3①)、その2種のAIモデルの判定結果を偽装攻撃データらしさのヒントとなる特徴を利用してアンサンブル学習(注3)によって統合(図3②)します。サイバー攻撃検知の場合、ヒントとなる特徴として通信ログデータのログ行数や重複するログ行数などを使うことから、入力データの特徴に応じてどちらのAIモデルの判断を強く反映するべきかを自動的かつ適切にアンサンブル学習することが可能となり、偽装攻撃への耐性を上げつつ本来のデータに対する精度低下を抑えます。
図3 アンサンブル敵対的訓練技術のイメージ
拡大イメージ
効果
今回開発した技術を用いることで、系列データに対するAIモデルの偽装攻撃への耐性強化が可能となります。その効果を実証するため、開発技術を当社のサイバー攻撃への対処要否を判断するAIモデルに適用しました。
その結果、本来のテストデータに対する判定精度をほとんど低下させることなく、偽装攻撃テストデータに対する判定精度を約88%まで向上できることを確認しました。また、判定に失敗した偽装攻撃テストデータを分析したところ、特定操作の組み合わせを偽装攻撃と判断するなど単純なルールで対応可能と判明したため、実質的にすべての偽装攻撃を防ぐことが可能となりました。
図4 開発技術の効果検証
今後
今後、サイバー攻撃対策に留まらず様々な領域に向けて本技術の適用拡大を進め、AIを活用したシステムの安全性向上を実現していきます。そして、富士通株式会社(注4)のAI技術 「FUJITSU Human Centric AI Zinrai」 を支えるセキュリティ強化技術として2021年度の実用化を目指します。
商標について
記載されている製品名などの固有名詞は、各社の商標または登録商標です。
以上
注釈
- 注1 株式会社富士通研究所:
- 本社 神奈川県川崎市、代表取締役社長 原 裕貴。
- 注2 サイバー攻撃への対処を要否判断するAIモデル:
- 業務ネットワークを流れる通信を監視し不審な操作を検知した際に、その通信ログデータが攻撃操作であるか正規操作であるかをAIで判定
「サイバー攻撃への対処要否を判断するAI技術を開発」 - 注3 アンサンブル学習:
- 複数のAIモデルの結果を組み合わせることで精度を向上させる手法
- 注4 富士通株式会社:
- 本社 東京都港区、代表取締役社長 時田 隆仁。
本件に関するお問い合わせ
株式会社富士通研究所
セキュリティ研究所