Autognosis

自分の認知と学習を静かに磨くデジタルノート

速く流れていく情報から少し離れ、自分の頭でじっくり考えられる文章だけを集めています。

更新

2026/5/19

Tag

#強化学習

AI・機械学習
2026年5月8日 09:05
Abstract technical illustration showing the transformation from multiple scattered neural pathways representing redundant AI computation on the left, to a single optimized golden pathway with memory nodes on the right, symbolizing workflow efficiency and learned patterns in large language model agents

WorkflowGen: 軌跡経験に駆動されるアダプティブワークフロー生成メカニズム

WorkflowGen: 軌跡経験に駆動されるアダプティブワークフロー生成メカニズム 記憶なき推論のコスト 大規模言語モデル(LLM)エージェントは根本的なアーキテクチャ上の非効率性を示しています。先行する実行履歴に関わらず、各タスクに対して初期状態からの推論を実行するのです。このステートレス設計は、以前に構造的に同一のタスクが完了していても、すべてのクエリに対して計画、実行、エラー回復に完全なトークン消費を必要とします。 計算オーバーヘッドは二つの次元...

-- いいね数
続きを読む
AI・機械学習
2026年4月13日 14:29
Split visualization comparing traditional epidemiological modeling with static network graphs on one side and dynamic reinforcement learning with adaptive neural patterns on the other, representing different approaches to epidemic response optimization

感染症対策にリインフォースメントラーニングを導入すべき時期とは

感染症対策にリインフォースメントラーニングを導入すべき時期とは 感染症対応チームは、定期的に運用上の判断を迫られています。確立された疫学モデルに固定パラメータを用いて介入戦略を最適化するか、観察された結果に基づいて適応するリインフォースメントラーニング(RL)システムを採用するか、という選択です。この判断は、具体的な文脈要因に左右されます。 中核的主張と前提条件: リインフォースメントラーニングが理論的に有利となるのは、三つの条件が同時に満たされる場合...

#強化学習 #機械学習 #意思決定支援システム
-- いいね数
続きを読む
AI・機械学習
2026年4月8日 08:48
Abstract visualization of reinforcement learning showing a central AI agent balanced between opposing forces of reward maximization (blue streams) and safety constraints (red barriers), with oscillating patterns representing optimization instability

ハード制約を超えて:安全なオフライン強化学習のための予算条件付き到達可能性

ハード制約を超えて:安全なオフライン強化学習のための予算条件付き到達可能性 安全な強化学習における敵対的トラップ 従来の安全な強化学習は、安全性をハード制約として定式化します。数学的には、すべての軌跡を通じて不等式制約 g(s,a) ≤ 0 を満たす必要がある状態行動対として表現されます。この二値的な枠組みは、根本的な最適化の対立を生み出します。目的関数は、期待累積報酬を最大化しながら同時に制約違反確率をゼロに保つ必要があるのです。結果として生じるミニマッ...

#強化学習 #オフライン強化学習 #安全性・制約付き最適化
-- いいね数
続きを読む
AI・機械学習
2026年3月10日 21:19
Split-screen visualization comparing fragmented AI visual perception on the left with robust, reinforced neural network processing on the right, connected by a gradient transition, illustrating the improvement of multimodal AI systems through adversarial training

欺くことは教えることか。敵対的強化学習を通じた知覚的堅牢性の構築

欺くことは教えることか。敵対的強化学習を通じた知覚的堅牢性の構築 知覚的脆弱性の危機 マルチモーダル大規模言語モデル(MLLM)は確立されたベンチマークで強い性能を示す一方で、視覚的複雑性が増した条件下では体系的な失敗パターンを示しています。文書化された脆弱性には、雑然とした場面での物体の誤認識、根拠のない視覚的詳細の生成(ハルシネーション)、知覚的推論を必要とするタスクにおける推論性能の低下が含まれます。これらの失敗パターンは自動運転や医療画像解析といっ...

-- いいね数
続きを読む
AI・機械学習
2026年3月2日 13:41
Abstract visualization of tensor network optimization showing connected city nodes in a traveling salesman problem with a chain of three-dimensional tensors representing matrix product states, rendered in blue and purple gradients with flowing probability distributions

テンソルネットワークを組み合わせ最適化の生成モデルとして活用する

テンソルネットワークを組み合わせ最適化の生成モデルとして活用する テンソルネットワーク生成器強化最適化(TN-GEO)フレームワークは、巡回セールスマン問題(TSP)を離散的な組み合わせ探索タスクから確率的生成問題へと再構成します。局所探索や分枝限定法を通じて候補解を反復的に改善するのではなく、TN-GEOは行列積状態(MPS)—量子多体物理学に由来するテンソルネットワーク構造—を訓練し、高品質な実行可能ツアーに集中した確率分布を学習します。 基本的な原理は、...

-- いいね数
続きを読む
AI・機械学習
2026年2月6日 10:02
A circular diagram illustrating an iterative agent loop with three connected stages: code generation, execution, and error analysis, rendered in blue and cyan tones with flowing geometric elements representing the continuous feedback cycle

Codexエージェントループの展開

Codexエージェントループの展開 Codexエージェントループの理解 定義: Codexエージェントループは、言語モデルがコードまたはアクションを生成し、実行結果を観察し、エラーを分類し、改善された出力を再生成するという構造化された反復サイクルであり、タスク完了またはリソース枯渇まで繰り返されます。 理論的基礎: 従来のコード生成は単一パス推論として機能します:意図→モデル→出力。エージェントループは、マルチステップの推論を可能にするフィ...

-- いいね数
続きを読む
AI・機械学習
2026年2月4日 07:02
Abstract visualization of an AI reinforcement learning system showing a glowing neural network node at multiple diverging pathways in gradient colors, with semi-transparent replay effects suggesting hindsight learning and multi-objective decision making

再現性ヘッダー

再現性ヘッダー 論文: Hindsight Preference Replay Improves Preference-Conditioned Multi-Objective Reinforcement Learning 対象読者: 知識労働者 セクション: 前文 最終更新日: [現在の日付] --- 多目的強化学習とユーザー選好の整合 多目的強化学習(MORL)は、逐次的意思決定における基本的な課題に取り組む。...

#強化学習 #多目的最適化 #アクタークリティック法
-- いいね数
続きを読む
AI・機械学習
2026年2月2日 16:02
Abstract visualization contrasting two machine learning approaches: complex tangled neural pathways representing policy gradient methods on one side, and smooth organized gradient flows representing backpropagation on the other, converging toward a central AI model representation in blue and purple tones

GRADE: LLMアライメントにおける方策勾配の逆伝播による置き換え

GRADE: LLMアライメントにおける方策勾配の逆伝播による置き換え LLMアライメントにおける直接逆伝播の根拠 人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルを人間の好みに合わせるための標準的なアプローチとなっている。経験的に、RLHFで訓練されたモデルは、指示追従の改善と有害な出力の測定可能な削減を示している(Christiano et al., 2017; Ouyang et al., 2022)。しかし、支配的な実装である近接方...

-- いいね数
続きを読む
AI・機械学習
2026年1月24日 19:02
Scientific visualization depicting an artificial intelligence neural network connecting with a three-dimensional protein structure, with molecular compounds floating between them, representing the intersection of large language models and structure-based drug design

課題:LLMと分子設計の出会い

課題:LLMと分子設計の出会い 大規模言語モデル(LLM)は、多様な領域におけるパターン認識と推論タスクにおいて強力な性能を実証してきた(Vaswani et al., 2017; Brown et al., 2020)。しかし、構造ベース創薬(SBDD)への応用は、実用性を制約する2つの十分に文書化された制限に直面している。 第一に、LLMはタンパク質構造解釈に必要な堅牢な三次元空間推論能力を欠いている。これらのモデルは逐次的なトークン予測と意味的関係性におい...

-- いいね数
続きを読む
TOPへ