チップとソフトウェアのブレークスルーでAIを10倍高速化(Chip and software breakthrough makes AI ten times faster)

2025-11-20 エディンバラ大学

エディンバラ大学の研究チームは、新型コンピューティングチップ「Griffin」と専用ソフトウェア「Hecate」を組み合わせることで、AIモデルの処理を従来比10倍高速化しつつエネルギー消費を大幅に削減する技術を開発した。HecateはAI演算の依存関係を解析し、複数のタスクが同時に実行できるよう再構成することで並列処理性能を最大化する。一方、Griffinチップはメモリと計算回路を近接配置するアーキテクチャを採用し、データ移動によるボトルネックを解消した。実験では、大規模言語モデル(LLM)や画像認識モデルに対し、10倍の処理速度向上と3分の1以下の消費電力を達成。研究者は、AIの電力需要増大が社会問題化する中、本技術が持続可能なAIインフラの鍵になると強調する。データセンター、ロボティクス、医療画像解析など、幅広い分野での実装が期待されている。

チップとソフトウェアのブレークスルーでAIを10倍高速化(Chip and software breakthrough makes AI ten times faster)

<関連情報>

WaferLLM: ウエハスケールでの大規模言語モデル推論 WaferLLM: Large Language Model Inference at Wafer Scale

Congjie He, Yeqi Huang, and Pei Mu,Ziming Miao, Jilong Xue, Lingxiao Ma, Fan Yang,Luo Mai
2025 USENIX Symposium on Operating Systems Design and Implementation

Abstract

Emerging AI accelerators increasingly adopt wafer-scale manufacturing technologies, integrating hundreds of thousands of AI cores in a mesh architecture with large distributed on-chip memory (tens of GB in total) and ultra-high on-chip memory bandwidth (tens of PB/s). However, current LLM inference systems, optimized for shared memory architectures like GPUs, fail to exploit these accelerators fully.

We introduce WaferLLM, the first wafer-scale LLM inference system. WaferLLM is guided by a novel PLMR model (pronounced as “Plummer”) that captures the unique hardware characteristics of wafer-scale architectures. Leveraging this model, WaferLLM pioneers wafer-scale LLM parallelism, optimizing the utilization of hundreds of thousands of on-chip cores. It also introduces MeshGEMM and MeshGEMV, the first GEMM and GEMV implementations designed to scale effectively on wafer-scale accelerators.

Evaluations show that WaferLLM achieves up to 200× higher accelerator utilization than state-of-the-art methods. Leveraging a wafer-scale accelerator (Cerebras WSE2), WaferLLM delivers GEMV operations 606× faster and 16× more energy-efficient than on an NVIDIA A100 GPU. For full LLM inference, WaferLLM achieves 10-20× speedups over A100 GPU clusters running SGLang and vLLM. These advantages are expected to grow as wafer-scale AI models, software, and hardware continue to mature. WaferLLM is open-sourced at https://github.com/MeshInfra/WaferLLM.

1601コンピュータ工学
ad
ad
Follow
ad
タイトルとURLをコピーしました