AI訓練用のデータ枯渇問題を合成データで克服(When the Wireless Data Runs Dry)

2025-09-15 ピッツバーグ大学

ピッツバーグ大学スワンソン工学部の魏暁教授(電気・計算機工学)が、無線データの合成に関する研究で MobiSys 2025国際会議の最優秀論文賞を受賞した。AIモデルの訓練には大量かつ高品質なデータが必要だが、現実データの不足から合成データが利用されている。しかし、その品質評価は軽視されてきた。研究チームは「親和性(affinity)」と「多様性(diversity)」を定量化する指標を開発し、特に無線信号における品質評価を実現。タスクごとに適合するデータ選別が可能となった。新たなフレームワーク「SynCheck」は、親和性の低いサンプルを排除しながらモデルを反復学習させ、非選別利用では性能が13.4%低下するのに対し、4.3%の性能向上を達成した。この成果は、行動認識やVRなどに使われる無線信号解析の信頼性を高め、今後のAI応用に不可欠な「質の高い合成データ」の確保へ向けた重要な一歩となる。

<関連情報>

データは自ら語る:品質主導型ワイヤレス合成データの活用 Data Can Speak for Itself: Quality-guided Utilization of Wireless Synthetic Data

Chen Gong, Bo Liang, Wei Gao, Chenren Xu
arXiv  Submitted on 29 Jun 2025
DOI:https://doi.org/10.48550/arXiv.2506.23174

AI訓練用のデータ枯渇問題を合成データで克服(When the Wireless Data Runs Dry)

Abstract

Generative models have gained significant attention for their ability to produce realistic synthetic data that supplements the quantity of real-world datasets. While recent studies show performance improvements in wireless sensing tasks by incorporating all synthetic data into training sets, the quality of synthetic data remains unpredictable and the resulting performance gains are not guaranteed. To address this gap, we propose tractable and generalizable metrics to quantify quality attributes of synthetic data – affinity and diversity. Our assessment reveals prevalent affinity limitation in current wireless synthetic data, leading to mislabeled data and degraded task performance. We attribute the quality limitation to generative models’ lack of awareness of untrained conditions and domain-specific processing. To mitigate these issues, we introduce SynCheck, a quality-guided synthetic data utilization scheme that refines synthetic data quality during task model training. Our evaluation demonstrates that SynCheck consistently outperforms quality-oblivious utilization of synthetic data, and achieves 4.3% performance improvement even when the previous utilization degrades performance by 13.4%.

1603情報システム・データ工学
ad
ad
Follow
ad
タイトルとURLをコピーしました