必要最小限のデータセットを特定する新手法を開発(Bigger datasets aren’t always better)

2025-11-18 マサチューセッツ工科大学(MIT)

MITの研究チームは、「より大きなデータセットが常に機械学習性能を向上させる」という一般的な前提を覆し、データセットの質と学習時の“注意の向け方”のほうが重要であることを示した。研究では、モデルが学習のごく初期段階で、データ内の“意味のあるサンプル”と“ほとんど価値のないサンプル”を自然に識別することを発見。そこで、初期学習中の勾配情報を用いて重要度を推定し、データセットを効率的に間引く新手法を開発した。これにより、大規模データセットの規模を大幅に削減しながら、同等以上の性能を維持できることが判明。特に、ノイズの多いデータやラベル品質が不均一な実運用データセットで顕著な効果を示した。本研究は、大規模AI開発の計算コスト削減や環境負荷低減につながり、今後のLLMや画像モデルの学習プロセス改善に寄与すると期待される。

必要最小限のデータセットを特定する新手法を開発(Bigger datasets aren’t always better)“We’ve shown that with careful selection, you can guarantee optimal solutions with a small dataset, and we provide a method to identify exactly which data you need,” says Asu Ozdaglar.Credit: MIT News; iStock

<関連情報>

最適な意思決定を可能にするデータとは?線形最適化の正確な特性評価 What Data Enables Optimal Decisions? An Exact Characterization for Linear Optimization

Omar Bennouna, Amine Bennouna, Saurabh Amin, Asuman Ozdaglar
arXiv  Submitted on 27 May 2025
DOI:https://doi.org/10.48550/arXiv.2505.21692

Abstract

We study the fundamental question of how informative a dataset is for solving a given decision-making task. In our setting, the dataset provides partial information about unknown parameters that influence task outcomes. Focusing on linear programs, we characterize when a dataset is sufficient to recover an optimal decision, given an uncertainty set on the cost vector. Our main contribution is a sharp geometric characterization that identifies the directions of the cost vector that matter for optimality, relative to the task constraints and uncertainty set. We further develop a practical algorithm that, for a given task, constructs a minimal or least-costly sufficient dataset. Our results reveal that small, well-chosen datasets can often fully determine optimal decisions — offering a principled foundation for task-aware data selection.

1603情報システム・データ工学
ad
ad
Follow
ad
タイトルとURLをコピーしました