暗号解析攻撃に対する初のAI防御技術(Researchers Unveil First-Ever Defense Against Cryptanalytic Attacks on AI)

2025-11-17 ノースカロライナ州立大学(NC State)

この研究では、AIモデル(特にニューラルネットワーク)の パラメータ抽出攻撃(cryptanalytic parameter extraction attacks) に対し、初の実用的防衛手法を提示しました。攻撃とは、攻撃者が入力を送信し出力を観察することで、数学的手法を使ってモデルのパラメータ(重みなど)を特定し、モデルを再構築・模倣可能にするものです。研究チームは、攻撃がニューラルネットワークの「各層のニューロンが他と異なっている」ことを利用する点に着目し、防御として「同一層内のニューロン重みをできるだけ似せる(差異を減らす)正則化項付き再訓練」を導入しました。これにより、攻撃者が「異なるニューロン間の差異」を手がかりにパラメータ抽出を進める道を塞ぐ“類似の壁”を設けることができました。実証では、通常なら数十分〜数時間で抽出可能なモデルでも、この防衛を導入したモデルでは数日間にわたる攻撃でも抽出に失敗し、性能低下はわずか1%未満という結果が得られています。今後、商用AIシステムの知的財産保護およびセキュリティ・プライバシー強化に寄与する重要な進展です。

暗号解析攻撃に対する初のAI防御技術(Researchers Unveil First-Ever Defense Against Cryptanalytic Attacks on AI)

<関連情報>

防御のための訓練:暗号解読ニューラルネットワークパラメータ抽出攻撃に対する最初の防御 Train to Defend: First Defense Against Cryptanalytic Neural Network Parameter Extraction Attacks

Ashley Kurian, Aydin Aysu
arXiv  Submitted on 20 Sep 2025
DOI:https://doi.org/10.48550/arXiv.2509.16546

Abstract

Neural networks are valuable intellectual property due to the significant computational cost, expert labor, and proprietary data involved in their development. Consequently, protecting their parameters is critical not only for maintaining a competitive advantage but also for enhancing the model’s security and privacy. Prior works have demonstrated the growing capability of cryptanalytic attacks to scale to deeper models. In this paper, we present the first defense mechanism against cryptanalytic parameter extraction attacks. Our key insight is to eliminate the neuron uniqueness necessary for these attacks to succeed. We achieve this by a novel, extraction-aware training method. Specifically, we augment the standard loss function with an additional regularization term that minimizes the distance between neuron weights within a layer. Therefore, the proposed defense has zero area-delay overhead during inference. We evaluate the effectiveness of our approach in mitigating extraction attacks while analyzing the model accuracy across different architectures and datasets. When re-trained with the same model architecture, the results show that our defense incurs a marginal accuracy change of less than 1% with the modified loss function. Moreover, we present a theoretical framework to quantify the success probability of the attack. When tested comprehensively with prior attack settings, our defense demonstrated empirical success for sustained periods of extraction, whereas unprotected networks are extracted between 14 minutes to 4 hours.

1604情報ネットワーク
ad
ad
Follow
ad
タイトルとURLをコピーしました