UCRがAIの不正操作に対抗する新技術を開発(UCR researchers fortify AI against rogue rewiring)

2025-09-04 カリフォルニア大学リバーサイド校(UCR)

カリフォルニア大学リバーサイド校の研究チームは、軽量化されたAIモデルが安全機能を失い有害出力を生むリスクに対処する新手法を開発した。従来のモデル圧縮では内部層が削られることで安全性が損なわれ、ヘイトスピーチや兵器製造情報の生成につながる恐れがあった。従来は外部フィルターで補っていたが、本研究は内部構造を再学習させ、安全性をモデル自体に内在化させる点が特徴。実験では視覚と言語を処理するLLaVA 1.5を使用し、画像に悪意ある質問を埋め込む攻撃を検証。通常の縮小版は防御を突破されたが、新手法を適用したモデルは危険な要求を拒否し続けた。このアプローチは「善意のハッキング」とも呼ばれ、軽量化しても安全性を保持できることを示し、今後の安全なオープンAI開発に重要な一歩となる。

UCRがAIの不正操作に対抗する新技術を開発(UCR researchers fortify AI against rogue rewiring)
Open-source AI models have the potential for misuse without safeguards. (sankai/Getty)

<関連情報>

層別アラインメント:視覚言語モデルにおける画像エンコーダ層間の安全性アラインメント検証 Layer-wise Alignment: Examining Safety Alignment Across Image Encoder Layers in Vision Language Models

Saketh Bachu, Erfan Shayegani, Rohit Lal, Trishna Chakraborty, Arindam Dutta, Chengyu Song, Yue Dong, Nael Abu-Ghazaleh, Amit K. Roy-Chowdhury
arXiv  last revised 19 Jun 2025 (this version, v2)
DOI:https://doi.org/10.48550/arXiv.2411.04291

Abstract

Vision-language models (VLMs) have improved significantly in their capabilities, but their complex architecture makes their safety alignment challenging. In this paper, we reveal an uneven distribution of harmful information across the intermediate layers of the image encoder and show that skipping a certain set of layers and exiting early can increase the chance of the VLM generating harmful responses. We call it as “Image enCoder Early-exiT” based vulnerability (ICET). Our experiments across three VLMs: LLaVA-1.5, LLaVA-NeXT, and Llama 3.2, show that performing early exits from the image encoder significantly increases the likelihood of generating harmful outputs. To tackle this, we propose a simple yet effective modification of the Clipped-Proximal Policy Optimization (Clip-PPO) algorithm for performing layer-wise multi-modal RLHF for VLMs. We term this as Layer-Wise PPO (L-PPO). We evaluate our L-PPO algorithm across three multimodal datasets and show that it consistently reduces the harmfulness caused by early exits.

1603情報システム・データ工学
ad
ad
Follow
ad
タイトルとURLをコピーしました