トランスフォーマー | Tags

AI・機械学習

2026年6月18日 15:40

Three distinct colored light streams representing Query, Key, and Value projections converging into a central attention mechanism point, set against a dark background with subtle neural network patterns

トランスフォーマーは3つのプロジェクションを必要とするのか。QKVバリアントの体系的研究

トランスフォーマーは3つのプロジェクションを必要とするのか。QKVバリアントの体系的研究標準的な3プロジェクション構造の再検討トランスフォーマーのクエリ・キー・バリュー（QKV）プロジェクション機構は、Vaswani et al.（2017）が「Attention Is All You Need」を発表して以来、ほぼ疑問の余地なく受け入れられてきました。標準的なアーキテクチャは、スケーリングされたドット積アテンション計算の前に、入力埋め込みを変換するため...

#深層学習 #トランスフォーマー #自然言語処理

--

Share

AI・機械学習

2026年5月12日 10:49

Abstract visualization of spectral wave patterns flowing through layered neural network structures, representing the dynamic evolution of transformer weight matrices during training with gradient colors transitioning from deep blue to cyan

訓練中のスペクトル動力学：理解の転換

訓練中のスペクトル動力学：理解の転換これまで、トランスフォーマーの重み行列は主に推論時、あるいは訓練済みモデルの事後分析を通じて研究されてきました。一般的な仮定は、スペクトル特性（特異値分布、安定ランク、べき乗則指数）が訓練の初期段階で安定化し、層全体でほぼ均一に保たれるというものでした。この見方は、訓練プロセスを本質的に不透明なシステムとして扱い、その内部的なスペクトル進化は観測不可能か、モデル動作の理解にとって周辺的なものと考えていました。 30M から ...

#深層学習 #トランスフォーマー #最適化アルゴリズム

--

Share

AI・機械学習

2026年5月5日 16:18

Split visualization comparing memory-intensive neural network training with dense activation layers on the left versus optimized training with compressed activation sketching on the right, rendered in blue and purple gradients against a dark background

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation" Deep Learningにおけるメモリの壁：制約から機会へニューラルネットワークの訓練は根本的なアーキテクチャ制約に直面しています。逆伝播のための活性化を保存するには、O(L × B × N)に比例するメモリが必要です。ここでLはネットワーク深度、Bはシーケンス・バッチの基数、Nは...

#深層学習 #バックプロパゲーション #勾配計算

--

Share

AI・機械学習

2026年5月5日 13:18

Abstract visualization of neural network activation spaces showing spectral phase transitions, with geometric patterns transitioning from structured crystalline forms to fluid waves, rendered in gradients from cool blues to warm oranges against a dark background

思考のスペクトル幾何学：位相転移、命令反転、トークンレベルダイナミクス、およびトランスフォーマーの推論における完全な正確性予測

思考のスペクトル幾何学：位相転移、命令反転、トークンレベルダイナミクス、およびトランスフォーマーの推論における完全な正確性予測スペクトル位相転移：推論の隠れた幾何学論題：大規模言語モデルは、隠れた活性化空間におけるスペクトル位相転移を示し、これが推論タスクと事実想起タスクと相関している。これらの転移は実装ダイナミクスにおいてアーキテクチャ固有であるが、モデルファミリー全体で一貫した方向性パターンを示す。生成中に測定されたスペクトル署名は、最終ト...

#大規模言語モデル #トランスフォーマー #説明可能なAI

--

Share