Autognosis

自分の認知と学習を静かに磨くデジタルノート

速く流れていく情報から少し離れ、自分の頭でじっくり考えられる文章だけを集めています。

更新

2026/5/19

Tag

#最適化アルゴリズム

AI・機械学習
2026年5月12日 10:49
Abstract visualization of spectral wave patterns flowing through layered neural network structures, representing the dynamic evolution of transformer weight matrices during training with gradient colors transitioning from deep blue to cyan

訓練中のスペクトル動力学:理解の転換

訓練中のスペクトル動力学:理解の転換 これまで、トランスフォーマーの重み行列は主に推論時、あるいは訓練済みモデルの事後分析を通じて研究されてきました。一般的な仮定は、スペクトル特性(特異値分布、安定ランク、べき乗則指数)が訓練の初期段階で安定化し、層全体でほぼ均一に保たれるというものでした。この見方は、訓練プロセスを本質的に不透明なシステムとして扱い、その内部的なスペクトル進化は観測不可能か、モデル動作の理解にとって周辺的なものと考えていました。 30M から ...

-- いいね数
続きを読む
AI・機械学習
2026年4月30日 14:59
Abstract visualization of neural network layers showing selective neuron activation patterns, with some nodes brightly illuminated in golden yellow against a blue background, representing sparse measurement in Forward-Forward learning architecture

スパースグッドネス:選択的測定がフォワード・フォワード学習をいかに変革するか

スパースグッドネス:選択的測定がフォワード・フォワード学習をいかに変革するか グッドネス関数のボトルネック フォワード・フォワード(FF)学習は、層ごとのローカル学習ルールを実装することで、逆伝播に対する生物学的に妥当な代替案を提案しています。各層はグッドネス関数(正例データと負例データを区別するスカラーメトリクス)を採用し、グローバルなエラー信号なしでの訓練を可能にしています(Hinton, 2022)。この設計上の選択は、標準的なディープラーニングから...

-- いいね数
続きを読む
AI・機械学習
2026年4月16日 16:22
Abstract visualization of data flowing through an evolving neural network, with highlighted data points representing dynamic sample selection during online machine learning training

大規模言語モデルのための二段階オプティマイザ認識型オンラインデータ選択

大規模言語モデルのための二段階オプティマイザ認識型オンラインデータ選択 オフライングラディエント選択とオンラインの現実 グラディエントベースのデータ選択手法は、LLM ファインチューニング時のサンプル有用性を推定するための原理的な基盤を確立しています。理論的根拠は堅牢です。各訓練例のグラディエントと検証性能目標との整合性を計算し、整合性の高いサンプルを優先するというアプローチです。このアプローチは、完全なデータセットが事前に利用可能であり、選択フェーズと訓練...

-- いいね数
続きを読む
AI・機械学習
2026年4月13日 14:29
Split visualization comparing traditional epidemiological modeling with static network graphs on one side and dynamic reinforcement learning with adaptive neural patterns on the other, representing different approaches to epidemic response optimization

感染症対策にリインフォースメントラーニングを導入すべき時期とは

感染症対策にリインフォースメントラーニングを導入すべき時期とは 感染症対応チームは、定期的に運用上の判断を迫られています。確立された疫学モデルに固定パラメータを用いて介入戦略を最適化するか、観察された結果に基づいて適応するリインフォースメントラーニング(RL)システムを採用するか、という選択です。この判断は、具体的な文脈要因に左右されます。 中核的主張と前提条件: リインフォースメントラーニングが理論的に有利となるのは、三つの条件が同時に満たされる場合...

#強化学習 #機械学習 #意思決定支援システム
-- いいね数
続きを読む
AI・機械学習
2026年3月30日 22:13
Abstract visualization of neural network computation showing a curved 3D data manifold with geometric grid lines, contrasting fragmented angular pieces representing traditional activation functions with smooth continuous surfaces representing unified geometric operations, rendered in blues, cyans, and purples against a dark background

DeLuLuはもう不要:物理学にインスパイアされたカーネルネットワークによる幾何学的に根拠づけられたニューラル計算

DeLuLuはもう不要:物理学にインスパイアされたカーネルネットワークによる幾何学的に根拠づけられたニューラル計算 深層学習における活性化関数の危機 現代の深いニューラルネットワークは計算を標準化されたパイプラインに分解しています。線形変換、非線形活性化、正規化層です。このアーキテクチャパターンは原理的な導出ではなく経験的観察から生まれました。広く採用されている活性化関数(ReLU(整流線形ユニット)、GELU(ガウス誤差線形ユニット)およびそれらの変種)...

-- いいね数
続きを読む
AI・機械学習
2026年3月2日 13:41
Abstract visualization of tensor network optimization showing connected city nodes in a traveling salesman problem with a chain of three-dimensional tensors representing matrix product states, rendered in blue and purple gradients with flowing probability distributions

テンソルネットワークを組み合わせ最適化の生成モデルとして活用する

テンソルネットワークを組み合わせ最適化の生成モデルとして活用する テンソルネットワーク生成器強化最適化(TN-GEO)フレームワークは、巡回セールスマン問題(TSP)を離散的な組み合わせ探索タスクから確率的生成問題へと再構成します。局所探索や分枝限定法を通じて候補解を反復的に改善するのではなく、TN-GEOは行列積状態(MPS)—量子多体物理学に由来するテンソルネットワーク構造—を訓練し、高品質な実行可能ツアーに集中した確率分布を学習します。 基本的な原理は、...

-- いいね数
続きを読む
AI・機械学習
2026年2月28日 09:49
Visualization of time series decomposition showing a single waveform separating into three distinct components: a smooth trend line, a regular seasonal pattern, and irregular residual noise, rendered in blue and teal gradients against a light analytical background

季節トレンド分解の再検討:時系列予測の強化に向けて

季節トレンド分解の再検討:時系列予測の強化に向けて 現代的予測における分解の必然性 従来の時系列予測では、ニューラルネットワークが生の系列からトレンド、季節性、周期的パターン、ノイズを同時に学習する必要があります。この同時最適化は二つの明確な課題をもたらします。第一に最適化の困難性です。モデルは異なる時間特性を持つ複数の成分にわたって競合する目的関数のバランスを取らなければなりません。第二に解釈可能性の低下です。学習された表現が複数の信号源を混在させるため、...

-- いいね数
続きを読む
AI・機械学習
2026年2月15日 01:02
A three-dimensional visualization of a scaling law curve in glowing blue, surrounded by translucent geometric boundaries that fade at the edges, representing the conditional nature and limitations of AI scaling laws

AIで最も誤解されているグラフ

AIで最も誤解されているグラフ スケーリング則グラフの理解 主張:AI分野で最も誤解されているグラフはスケーリング則曲線である。モデルサイズ、訓練データ量、タスク損失の間の経験的関係を示すこのグラフは、普遍的な予測モデルとして解釈されることが多いが、実際には特定の限定された実験条件下でのみ有効な条件付きトレンドを表している。 定義的前提:Kaplan et al. (2020)とHoffmann et al. (2022)で形式化されたス...

-- いいね数
続きを読む
AI・機械学習
2026年2月3日 18:29
Abstract visualization of neural network attention mechanisms showing interconnected nodes with varying intensity light streams, representing non-uniform attention weight distribution with bright focal points and fading background connections

♪より良いアテンション・プライアが必要だ

♪より良いアテンション・プライアが必要だ ♪ 注意は最適輸送手段であるなぜ事前分布が重要なのか? Claim:標準的なソフトマックスアテンションメカニズムはトークン位置に対する暗黙の一様事前分布を埋め込んでいる。この事前分布は数学的に任意であり、特定のタスクやデータ分布に対して最適でないことが多い。 理由と証拠: ソフトマックス注意は正則化された最適輸送問題を解く(Gechinovskiy et al., 2022; Petersen et...

-- いいね数
続きを読む
AI・機械学習
2026年2月2日 16:02
Abstract visualization contrasting two machine learning approaches: complex tangled neural pathways representing policy gradient methods on one side, and smooth organized gradient flows representing backpropagation on the other, converging toward a central AI model representation in blue and purple tones

GRADE: LLMアライメントにおける方策勾配の逆伝播による置き換え

GRADE: LLMアライメントにおける方策勾配の逆伝播による置き換え LLMアライメントにおける直接逆伝播の根拠 人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルを人間の好みに合わせるための標準的なアプローチとなっている。経験的に、RLHFで訓練されたモデルは、指示追従の改善と有害な出力の測定可能な削減を示している(Christiano et al., 2017; Ouyang et al., 2022)。しかし、支配的な実装である近接方...

-- いいね数
続きを読む
AI・機械学習
2026年1月28日 01:02
Split visualization comparing complex tangled network of blue connections representing quadratic computational complexity against streamlined parallel green lines representing efficient linear processing, with flowing data particles on dark technical background

RewriteNets: 生成的系列モデリングのためのエンドツーエンド訓練可能な文字列書き換え

RewriteNets: 生成的系列モデリングのためのエンドツーエンド訓練可能な文字列書き換え 現代の系列モデルにおける複雑性問題 Transformerベースのアーキテクチャは生成的系列モデリングの支配的なパラダイムとなっているが、十分に文書化された計算上の制限を示している:系列長における二次複雑性(O(n²))である。この複雑性は、注意機構がすべてのトークン位置間のペアワイズ類似度スコアを計算する必要があることから生じる。長さnの系列に対して、各注意ヘッ...

-- いいね数
続きを読む
AI・機械学習
2026年1月25日 01:02
A technical visualization showing a neural network transitioning from a dense, memory-heavy structure on the left to a streamlined, efficient structure on the right, with flowing data particles between them, representing memory optimization in AI model training

AdaFRUGAL: 動的制御による適応的メモリ効率訓練

AdaFRUGAL: 動的制御による適応的メモリ効率訓練 大規模言語モデル訓練におけるメモリ制約 大規模言語モデルの訓練には、GPUメモリに大きなオーバーヘッドが発生し、オプティマイザの状態が総割り当ての50〜70%を消費する(Shazeer et al., 2018; Rajbhandari et al., 2020)。float32精度でAdamオプティマイザを使用して訓練される70億パラメータモデルの場合、モデルの重みは約14GBを占め、オプティマイザ...

-- いいね数
続きを読む
AI・機械学習
2026年1月23日 04:02
Abstract visualization of transfer learning showing a neural network with glowing blue nodes transferring knowledge through flowing data streams to multiple smaller networks against a dark gradient background

マルチソース転移学習におけるソース重みと転移量の統合最適化:漸近的フレームワーク

マルチソース転移学習におけるソース重みと転移量の統合最適化:漸近的フレームワーク データ不足環境における転移学習 転移学習は機械学習における根本的な課題に対処する:ターゲットタスクのラベル付きデータが限られている場合に、許容可能なモデル性能を達成することである。実務者は、希少なターゲットデータでモデルをゼロから訓練するのではなく、関連するソースタスクから学習した表現とパラメータを活用して、サンプル複雑度を削減し、汎化性能を向上させる(Yosinski et ...

-- いいね数
続きを読む
AI・機械学習
2026年1月20日 19:02
Abstract visualization showing smooth mathematical flow transformations with curved lines morphing from simple linear patterns through complex multimodal waves, representing the concept of normalizing flows and invertible functions in machine learning

滑らかで解釈可能な正規化フローのための解析的全単射

滑らかで解釈可能な正規化フローのための解析的全単射 正規化フローにおける可逆性の課題 正規化フローは、可逆変換の合成 $T = fn \circ f{n-1} \circ \cdots \circ f1$ を通じて扱いやすい密度推定を可能にします。ここで、対数尤度は次のように分解されます: $$\log p(x) = \log p0(z) - \sum{i=1}^{n} \log \left| \det \frac{\partial fi}{\...

-- いいね数
続きを読む
AI・機械学習
2026年1月20日 01:03
Abstract visualization showing the transformation from smooth softmax attention curves into sharp geometric tropical algebra structures, representing the mathematical convergence of transformer neural networks under high-confidence conditions

思考の幾何学:トロピカル多項式回路としてのTransformerの開示

思考の幾何学:トロピカル多項式回路としてのTransformerの開示 トロピカル幾何学が自己注意機構をMax-Plus代数として明らかにする 主張: Transformerの自己注意機構は、高信頼条件下においてmax-plus代数(トロピカル半環)として動作し、これはsoftmax関数における逆温度パラメータβを通じて形式化できる。 前提条件と定義: - Softmax注意機構は次のように定義される:α(i,j) = exp(β·s(i,...

-- いいね数
続きを読む
TOPへ