少量データでも信頼性の高いAIモデル開発ー既存のマルチモーダル基盤モデルを活用した「分からない」と判断できるAIの実用性を評価ー

2026-06-19 株式会社リコー

株式会社リコーは、少量の学習データでも高い信頼性を持つAIモデルを構築する技術に関する研究論文が、ニューラルネットワーク分野の主要国際会議であるIJCNN 2026に採択されたと発表した。本研究は、予測の不確かさを評価できるベイズ機械学習と、画像とテキストの対応関係を学習したマルチモーダル基盤モデルCLIP(Contrastive Language-Image Pretraining)を組み合わせた手法を提案するものである。従来のAIは学習データが少ない場合や未知の入力に対しても誤って自信を持った判断を下すことが課題だったが、本手法では画像とテキストの類似性を複数の観点から評価し、不確実性を定量化することで、学習データに含まれない対象に対して「分からない」と判断できる。さらに、追加学習をほとんど必要としない最適化手法を採用し、導入負荷を抑えながら実運用への適用を容易にした。未知データへの対応力や安定した性能が評価されており、製造業の外観検査や設備・インフラ点検など、誤判定の回避が重要な分野での活用が期待される。

<関連情報>

GPアダプター:少数ショット分布外検出のためのガウス過程CLIPアダプター GP-Adapter: Gaussian Process CLIP-Adapter for Few-Shot Out-of-Distribution Detection

Taisei Saito, Koretaka Ogata, Takafumi Hiroi
arXiv  Submitted on 5 Jun 2026
DOI:https://doi.org/10.48550/arXiv.2606.07102

少量データでも信頼性の高いAIモデル開発ー既存のマルチモーダル基盤モデルを活用した「分からない」と判断できるAIの実用性を評価ー

Abstract

We propose GP-Adapter, a training-free framework that augments CLIP (Contrastive Language-Image Pre-training) with Gaussian Process (GP) uncertainty modeling for few-shot classification and out-of-distribution (OOD) detection. While CLIP achieves strong zero-shot recognition, it yields deterministic similarity scores and offers limited uncertainty information, which is critical under distribution shift and data scarcity. GP-Adapter constructs modality-specific, class-wise one-class GPs on top of frozen CLIP embeddings using an RBF kernel for image features and a linear kernel for text prompts and fuses their predictive statistics to produce a variance-aware confidence score for OOD detection. The method requires no fine-tuning of the CLIP backbone and relies only on a small K-shot cache and lightweight hyperparameter selection, with memory cost scaling as O(CK2) for C classes and K shots. Experiments on ImageNet and multiple OOD benchmarks show that GP-Adapter provides competitive few-shot performance and consistently improves OOD detection when combined with prompt-learning baselines, highlighting the complementarity between GP-based uncertainty modeling and prompt learning. Overall, our results suggest that integrating probabilistic inference with large pre-trained vision-language models can improve reliability in low-data and distribution-shifted settings. Code is available at this https URL

1603情報システム・データ工学
ad
ad
Follow
ad
タイトルとURLをコピーしました