Latent Context Compilation: 長いコンテキストをコンパクトなポータブルメモリに蒸留する
Latent Context Compilation: 長いコンテキストをコンパクトなポータブルメモリに蒸留する 長いコンテキスト展開のボトルネック 現代の大規模言語モデル(LLM)は推論時に根本的な制約に直面しています。コンテキスト長と計算コストは超線形のスケーリング関係を示しています。具体的には、キー・バリュー(KV)キャッシュのメモリ要件はコンテキスト長に対して線形に増加する一方、注意計算は最悪の場合二次関数的(O(n²))にスケールします。ただし、...