有害オンラインコンテンツ検出のためのAIシステムを開発 (Concordia Researchers Develop AI-Based System to Better Detect Toxic Online Content)

2026-06-16 コンコルディア大学

カナダのコンコルディア大学を中心とする研究チームは、有害なオンライン投稿を従来より高速かつ高精度に検出できるAIシステム「PPO-CIS(Proximal Policy Optimization-based Cascaded Inference System)」を開発した。SNSでは膨大な量のユーザー生成コンテンツが投稿されるため、有害コンテンツの監視には高い計算負荷と人的コストが伴う。PPO-CISは強化学習を活用し、正確な判定には報酬、誤判定にはペナルティを与えることで、検出精度と処理速度を自律的に最適化する。システムは多段階構造を採用し、まず高速分類器が大量の投稿をスクリーニングし、疑わしい投稿のみをより高精度な分類器へ送る。最終的に判断が難しい投稿は人間のモデレーターが確認する。研究チームは独自の「AugmenToxic」データセットと標準的な「ToxiGen」データセットで評価を実施し、既存手法より2.1%高い精度を達成した。また処理能力は毎秒384件で、従来モデルの約43件を大きく上回った。研究者らは、本技術が有害コンテンツの迅速な削除が求められる地域やプラットフォームで特に有効であり、オンライン空間の安全性向上に貢献するとしている。

<関連情報>

PPO-CIS:ソーシャルメディアにおけるリアルタイムの有害性検出のための深層強化学習フレームワーク PPO-CIS : A deep reinforcement learning framework for real-time toxicity detection in social media

Arezo Bodaghi, Benjamin C.M. Fung, Ketra A. Schmitt
Knowledge-Based Systems  Available online: 6 March 2026
DOI:https://doi.org/10.1016/j.knosys.2026.115704

有害オンラインコンテンツ検出のためのAIシステムを開発 (Concordia Researchers Develop AI-Based System to Better Detect Toxic Online Content)

Highlights

  • Introduces PPO-CIS, a novel deep reinforcement learning (DRL) framework for adaptive toxicity detection in classifier cascades.
  • Utilizes proximal policy optimization (PPO) to dynamically select classifiers based on sample complexity and system cost constraints.
  • Proposes a custom reward function balancing classification accuracy, latency, and computational efficiency.
  • Demonstrates improved performance over static cascades and individual models across two benchmark datasets: Kaggle and ToxiGen.
  • Achieves significant gains in throughput and accuracy, making the system suitable for real-time content moderation at scale.
  • Provides a scalable and cost-effective moderation solution for social media platforms facing high data volume and regulatory pressure.

Abstract

Online platforms face growing challenges in moderating harmful user-generated content due to the large volume and rapid pace of interactions. In existing moderation systems, automated tools assist human moderators, yet they often struggle to balance processing efficiency and reliable classification. When moderation fails to detect harmful content quickly and accurately, platforms risk user harm and noncompliance with content safety regulations. This paper proposes an adaptive moderation method named the Proximal Policy Optimization-based Cascaded Inference System (PPO-CIS). The method integrates multiple toxicity classifiers into a cascaded decision architecture guided by deep reinforcement learning. At each step, PPO-CIS selects the next classifier according to the content difficulty and the expected gain in accuracy relative to computational cost. The system enables rapid filtering of benign content and only activates high-capacity models for uncertain cases. PPO-CIS is the first toxicity detection framework to employ Proximal Policy Optimization for real-time optimization of classifier cascades. Experiments on the AugmenToxic and ToxiGen datasets show that PPO-CIS improves detection accuracy by 2.10 percent while increasing processing speed from 42.74 to 384 samples per second compared with static cascade designs. The findings show that adaptive model selection can better shield users from exposure to harmful content while lowering moderation costs. PPO-CIS provides a practical solution for deploying scalable and timely content moderation in fast-moving online environments.

1604情報ネットワーク
ad
ad
Follow
ad
タイトルとURLをコピーしました