AIメモリの縮小が精度を向上(Shrinking AI memory boosts accuracy)

2025-12-22 エディンバラ大学

エディンバラ大学とNVIDIAの研究チームは、大規模言語モデル(LLM)のメモリ使用量を劇的に圧縮しながら性能を維持・向上させる新手法を開発した。この研究では、モデルが推論時に生成する「推論スレッド(思考過程の一部)」を格納するKVキャッシュと呼ばれるメモリの効率化に着目し、「Dynamic Memory Sparsification(DMS)」という圧縮方法を提案した。この手法では重要度の低いトークンを選択的に削除し、重要情報は保持されたトークンに引き継がれるため、メモリを最大8分の1に削減しても精度が維持される。また、同じ推論時間でも複数の思考仮説を同時に探索できるため、数学・科学・コーディングなどの標準的なテストにおいて圧縮なしのモデルを上回る性能を示した。さらに、このメモリ圧縮はエネルギー消費削減やメモリ制約のあるデバイス(スマート家電やウェアラブル機器など)での高度なAI活用にも役立つ可能性があるという。

<関連情報>

KVキャッシュ圧縮による推論時間ハイパースケーリング Inference-Time Hyper-Scaling with KV Cache Compression

Adrian Łańcucki, Konrad Staniszewski, Piotr Nawrot, Edoardo M. Ponti
arXiv  last revised 7 Nov 2025 (this version, v2)
DOI:https://doi.org/10.48550/arXiv.2506.05345

AIメモリの縮小が精度を向上(Shrinking AI memory boosts accuracy)

Abstract

Inference-time scaling trades efficiency for increased reasoning accuracy by generating longer or more parallel sequences. However, in Transformer LLMs, generation cost is bottlenecked by the size of the key–value (KV) cache, rather than the number of generated tokens. Hence, we explore inference-time hyper-scaling: by compressing the KV cache, we can generate more tokens within the same compute budget and further improve the accuracy of scaled inference. The success of this approach, however, hinges on the ability of compression methods to preserve accuracy even at high compression ratios. To make hyper-scaling practical, we introduce Dynamic Memory Sparsification (DMS), a novel method for sparsifying KV caches that only requires 1K training steps to achieve 8× compression, while maintaining better accuracy than training-free sparse attention. Instead of prematurely discarding cached tokens, DMS delays token eviction, implicitly merging representations and preserving critical information. We demonstrate the effectiveness of inference-time hyper-scaling with DMS on multiple families of LLMs, showing that it boosts accuracy for comparable inference latency and memory load. For instance, we enhance Qwen-R1 32B by 12.0 points on AIME 24, 8.6 on GPQA, and 9.7 on LiveCodeBench on average for an equivalent number of memory reads.

1601コンピュータ工学
ad
ad
Follow
ad
タイトルとURLをコピーしました