Autognosis

自分の認知と学習を静かに磨くデジタルノート

速く流れていく情報から少し離れ、自分の頭でじっくり考えられる文章だけを集めています。

更新

2026/5/19

Tag

#トランスフォーマー

AI・機械学習
2026年5月12日 10:49
Abstract visualization of spectral wave patterns flowing through layered neural network structures, representing the dynamic evolution of transformer weight matrices during training with gradient colors transitioning from deep blue to cyan

訓練中のスペクトル動力学:理解の転換

訓練中のスペクトル動力学:理解の転換 これまで、トランスフォーマーの重み行列は主に推論時、あるいは訓練済みモデルの事後分析を通じて研究されてきました。一般的な仮定は、スペクトル特性(特異値分布、安定ランク、べき乗則指数)が訓練の初期段階で安定化し、層全体でほぼ均一に保たれるというものでした。この見方は、訓練プロセスを本質的に不透明なシステムとして扱い、その内部的なスペクトル進化は観測不可能か、モデル動作の理解にとって周辺的なものと考えていました。 30M から ...

-- いいね数
続きを読む
AI・機械学習
2026年5月5日 16:18
Split visualization comparing memory-intensive neural network training with dense activation layers on the left versus optimized training with compressed activation sketching on the right, rendered in blue and purple gradients against a dark background

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation" Deep Learningにおけるメモリの壁:制約から機会へ ニューラルネットワークの訓練は根本的なアーキテクチャ制約に直面しています。逆伝播のための活性化を保存するには、O(L × B × N)に比例するメモリが必要です。ここでLはネットワーク深度、Bはシーケンス・バッチの基数、Nは...

#深層学習 #バックプロパゲーション #勾配計算
-- いいね数
続きを読む
AI・機械学習
2026年5月5日 13:18
Abstract visualization of neural network activation spaces showing spectral phase transitions, with geometric patterns transitioning from structured crystalline forms to fluid waves, rendered in gradients from cool blues to warm oranges against a dark background

思考のスペクトル幾何学:位相転移、命令反転、トークンレベルダイナミクス、およびトランスフォーマーの推論における完全な正確性予測

思考のスペクトル幾何学:位相転移、命令反転、トークンレベルダイナミクス、およびトランスフォーマーの推論における完全な正確性予測 スペクトル位相転移:推論の隠れた幾何学 論題: 大規模言語モデルは、隠れた活性化空間におけるスペクトル位相転移を示し、これが推論タスクと事実想起タスクと相関している。これらの転移は実装ダイナミクスにおいてアーキテクチャ固有であるが、モデルファミリー全体で一貫した方向性パターンを示す。生成中に測定されたスペクトル署名は、最終ト...

-- いいね数
続きを読む
TOPへ