BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"
BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation" Deep Learningにおけるメモリの壁:制約から機会へ ニューラルネットワークの訓練は根本的なアーキテクチャ制約に直面しています。逆伝播のための活性化を保存するには、O(L × B × N)に比例するメモリが必要です。ここでLはネットワーク深度、Bはシーケンス・バッチの基数、Nは...