最適化アルゴリズム | Tags

AI・機械学習

2026年3月2日 13:41

Abstract visualization of tensor network optimization showing connected city nodes in a traveling salesman problem with a chain of three-dimensional tensors representing matrix product states, rendered in blue and purple gradients with flowing probability distributions

テンソルネットワークを組み合わせ最適化の生成モデルとして活用する

テンソルネットワークを組み合わせ最適化の生成モデルとして活用するテンソルネットワーク生成器強化最適化（TN-GEO）フレームワークは、巡回セールスマン問題（TSP）を離散的な組み合わせ探索タスクから確率的生成問題へと再構成します。局所探索や分枝限定法を通じて候補解を反復的に改善するのではなく、TN-GEOは行列積状態（MPS）—量子多体物理学に由来するテンソルネットワーク構造—を訓練し、高品質な実行可能ツアーに集中した確率分布を学習します。基本的な原理は、...

#機械学習 #深層学習 #強化学習

--

Share

AI・機械学習

2026年2月28日 09:49

Visualization of time series decomposition showing a single waveform separating into three distinct components: a smooth trend line, a regular seasonal pattern, and irregular residual noise, rendered in blue and teal gradients against a light analytical background

季節トレンド分解の再検討：時系列予測の強化に向けて

季節トレンド分解の再検討：時系列予測の強化に向けて現代的予測における分解の必然性従来の時系列予測では、ニューラルネットワークが生の系列からトレンド、季節性、周期的パターン、ノイズを同時に学習する必要があります。この同時最適化は二つの明確な課題をもたらします。第一に最適化の困難性です。モデルは異なる時間特性を持つ複数の成分にわたって競合する目的関数のバランスを取らなければなりません。第二に解釈可能性の低下です。学習された表現が複数の信号源を混在させるため、...

#時系列予測 #深層学習 #ニューラルネットワーク

--

Share

AI・機械学習

2026年2月15日 01:02

A three-dimensional visualization of a scaling law curve in glowing blue, surrounded by translucent geometric boundaries that fade at the edges, representing the conditional nature and limitations of AI scaling laws

AIで最も誤解されているグラフ

AIで最も誤解されているグラフスケーリング則グラフの理解主張：AI分野で最も誤解されているグラフはスケーリング則曲線である。モデルサイズ、訓練データ量、タスク損失の間の経験的関係を示すこのグラフは、普遍的な予測モデルとして解釈されることが多いが、実際には特定の限定された実験条件下でのみ有効な条件付きトレンドを表している。定義的前提：Kaplan et al. (2020)とHoffmann et al. (2022)で形式化されたス...

#スケーリング則 #大規模言語モデル #モデル訓練

--

Share

AI・機械学習

2026年2月3日 18:29

Abstract visualization of neural network attention mechanisms showing interconnected nodes with varying intensity light streams, representing non-uniform attention weight distribution with bright focal points and fading background connections

♪より良いアテンション・プライアが必要だ

♪より良いアテンション・プライアが必要だ ♪ 注意は最適輸送手段であるなぜ事前分布が重要なのか？ Claim:標準的なソフトマックスアテンションメカニズムはトークン位置に対する暗黙の一様事前分布を埋め込んでいる。この事前分布は数学的に任意であり、特定のタスクやデータ分布に対して最適でないことが多い。理由と証拠: ソフトマックス注意は正則化された最適輸送問題を解く(Gechinovskiy et al., 2022; Petersen et...

#深層学習 #自然言語処理 #大規模言語モデル

--

Share

AI・機械学習

2026年2月2日 16:02

Abstract visualization contrasting two machine learning approaches: complex tangled neural pathways representing policy gradient methods on one side, and smooth organized gradient flows representing backpropagation on the other, converging toward a central AI model representation in blue and purple tones

GRADE: LLMアライメントにおける方策勾配の逆伝播による置き換え

GRADE: LLMアライメントにおける方策勾配の逆伝播による置き換え LLMアライメントにおける直接逆伝播の根拠人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルを人間の好みに合わせるための標準的なアプローチとなっている。経験的に、RLHFで訓練されたモデルは、指示追従の改善と有害な出力の測定可能な削減を示している(Christiano et al., 2017; Ouyang et al., 2022)。しかし、支配的な実装である近接方...

#大規模言語モデル #強化学習 #AI倫理

--

Share

AI・機械学習

2026年1月28日 01:02

Split visualization comparing complex tangled network of blue connections representing quadratic computational complexity against streamlined parallel green lines representing efficient linear processing, with flowing data particles on dark technical background

RewriteNets: 生成的系列モデリングのためのエンドツーエンド訓練可能な文字列書き換え

RewriteNets: 生成的系列モデリングのためのエンドツーエンド訓練可能な文字列書き換え現代の系列モデルにおける複雑性問題 Transformerベースのアーキテクチャは生成的系列モデリングの支配的なパラダイムとなっているが、十分に文書化された計算上の制限を示している:系列長における二次複雑性(O(n²))である。この複雑性は、注意機構がすべてのトークン位置間のペアワイズ類似度スコアを計算する必要があることから生じる。長さnの系列に対して、各注意ヘッ...

#深層学習 #自然言語処理 #大規模言語モデル

--

Share

AI・機械学習

2026年1月25日 01:02

A technical visualization showing a neural network transitioning from a dense, memory-heavy structure on the left to a streamlined, efficient structure on the right, with flowing data particles between them, representing memory optimization in AI model training

AdaFRUGAL: 動的制御による適応的メモリ効率訓練

AdaFRUGAL: 動的制御による適応的メモリ効率訓練大規模言語モデル訓練におけるメモリ制約大規模言語モデルの訓練には、GPUメモリに大きなオーバーヘッドが発生し、オプティマイザの状態が総割り当ての50〜70%を消費する(Shazeer et al., 2018; Rajbhandari et al., 2020)。float32精度でAdamオプティマイザを使用して訓練される70億パラメータモデルの場合、モデルの重みは約14GBを占め、オプティマイザ...

#大規模言語モデル #MLインフラ #最適化アルゴリズム

--

Share

AI・機械学習

2026年1月23日 04:02

Abstract visualization of transfer learning showing a neural network with glowing blue nodes transferring knowledge through flowing data streams to multiple smaller networks against a dark gradient background

マルチソース転移学習におけるソース重みと転移量の統合最適化:漸近的フレームワーク

マルチソース転移学習におけるソース重みと転移量の統合最適化:漸近的フレームワークデータ不足環境における転移学習転移学習は機械学習における根本的な課題に対処する:ターゲットタスクのラベル付きデータが限られている場合に、許容可能なモデル性能を達成することである。実務者は、希少なターゲットデータでモデルをゼロから訓練するのではなく、関連するソースタスクから学習した表現とパラメータを活用して、サンプル複雑度を削減し、汎化性能を向上させる(Yosinski et ...

#転移学習 #機械学習 #最適化アルゴリズム

--

Share

AI・機械学習

2026年1月20日 19:02

Abstract visualization showing smooth mathematical flow transformations with curved lines morphing from simple linear patterns through complex multimodal waves, representing the concept of normalizing flows and invertible functions in machine learning

滑らかで解釈可能な正規化フローのための解析的全単射

滑らかで解釈可能な正規化フローのための解析的全単射正規化フローにおける可逆性の課題正規化フローは、可逆変換の合成 $T = fn \circ f{n-1} \circ \cdots \circ f1$ を通じて扱いやすい密度推定を可能にします。ここで、対数尤度は次のように分解されます: $$\log p(x) = \log p0(z) - \sum{i=1}^{n} \log \left| \det \frac{\partial fi}{\...

#深層学習 #生成モデル #確率モデル

--

Share

AI・機械学習

2026年1月20日 01:03

Abstract visualization showing the transformation from smooth softmax attention curves into sharp geometric tropical algebra structures, representing the mathematical convergence of transformer neural networks under high-confidence conditions

思考の幾何学：トロピカル多項式回路としてのTransformerの開示

思考の幾何学：トロピカル多項式回路としてのTransformerの開示トロピカル幾何学が自己注意機構をMax-Plus代数として明らかにする主張： Transformerの自己注意機構は、高信頼条件下においてmax-plus代数（トロピカル半環）として動作し、これはsoftmax関数における逆温度パラメータβを通じて形式化できる。前提条件と定義： - Softmax注意機構は次のように定義される：α(i,j) = exp(β·s(i,...

#深層学習 #説明可能なAI #自然言語処理

--

Share