Autognosis

自分の認知と学習を静かに磨くデジタルノート

速く流れていく情報から少し離れ、自分の頭でじっくり考えられる文章だけを集めています。

更新

2026/5/19

Tag

#論文サマリー

AI・機械学習
2026年5月19日 21:03
Abstract visualization of an AI agent analyzing documents with visible connection pathways, representing explainable topic modeling and transparent reasoning processes in artificial intelligence

Agentopic: 説明可能なトピックモデリングのための生成AI エージェントワークフロー

Agentopic: 説明可能なトピックモデリングのための生成AI エージェントワークフロー トピックモデリングにおける透明性の危機 トピックモデリングは長年にわたり、根本的な解釈可能性の問題に直面してきました。手法は結果を生成しながらも、その推論プロセスを明確に示していないのです。この領域の基礎的アプローチであるLatent Dirichlet Allocation(LDA)は、ベイズ推定を通じてトピック分布を生成する確率推論によって動作しますが、その内部...

-- いいね数
続きを読む
AI・機械学習
2026年5月12日 10:49
Abstract visualization of spectral wave patterns flowing through layered neural network structures, representing the dynamic evolution of transformer weight matrices during training with gradient colors transitioning from deep blue to cyan

訓練中のスペクトル動力学:理解の転換

訓練中のスペクトル動力学:理解の転換 これまで、トランスフォーマーの重み行列は主に推論時、あるいは訓練済みモデルの事後分析を通じて研究されてきました。一般的な仮定は、スペクトル特性(特異値分布、安定ランク、べき乗則指数)が訓練の初期段階で安定化し、層全体でほぼ均一に保たれるというものでした。この見方は、訓練プロセスを本質的に不透明なシステムとして扱い、その内部的なスペクトル進化は観測不可能か、モデル動作の理解にとって周辺的なものと考えていました。 30M から ...

-- いいね数
続きを読む
AI・機械学習
2026年5月8日 09:05
Abstract technical illustration showing the transformation from multiple scattered neural pathways representing redundant AI computation on the left, to a single optimized golden pathway with memory nodes on the right, symbolizing workflow efficiency and learned patterns in large language model agents

WorkflowGen: 軌跡経験に駆動されるアダプティブワークフロー生成メカニズム

WorkflowGen: 軌跡経験に駆動されるアダプティブワークフロー生成メカニズム 記憶なき推論のコスト 大規模言語モデル(LLM)エージェントは根本的なアーキテクチャ上の非効率性を示しています。先行する実行履歴に関わらず、各タスクに対して初期状態からの推論を実行するのです。このステートレス設計は、以前に構造的に同一のタスクが完了していても、すべてのクエリに対して計画、実行、エラー回復に完全なトークン消費を必要とします。 計算オーバーヘッドは二つの次元...

-- いいね数
続きを読む
AI・機械学習
2026年5月6日 10:45
Split visualization comparing inefficient branching proof search tree with hundreds of attempts on the left versus streamlined optimized proof path on the right, set against a mathematical background with modern tech styling

形式的定理証明器がなぜ莫大な計算資源を要求するのか

形式的定理証明器がなぜ莫大な計算資源を要求するのか 大規模言語モデル(LLM)は形式的定理証明タスク(Lean、Coq、Isabelleなど)において測定可能な能力を示していますが、本番環境での展開は深刻なスケーラビリティの制約に直面しています。最先端のシステムは、(1)広範なテスト時ロールアウト(定理あたり500~5,000以上の証明試行が記録されています:Thakur et al., 2024; OpenAI Codex評価)、または(2)拡張されたコンテキ...

-- いいね数
続きを読む
AI・機械学習
2026年5月5日 16:18
Split visualization comparing memory-intensive neural network training with dense activation layers on the left versus optimized training with compressed activation sketching on the right, rendered in blue and purple gradients against a dark background

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation" Deep Learningにおけるメモリの壁:制約から機会へ ニューラルネットワークの訓練は根本的なアーキテクチャ制約に直面しています。逆伝播のための活性化を保存するには、O(L × B × N)に比例するメモリが必要です。ここでLはネットワーク深度、Bはシーケンス・バッチの基数、Nは...

#深層学習 #バックプロパゲーション #勾配計算
-- いいね数
続きを読む
AI・機械学習
2026年5月5日 13:18
Abstract visualization of neural network activation spaces showing spectral phase transitions, with geometric patterns transitioning from structured crystalline forms to fluid waves, rendered in gradients from cool blues to warm oranges against a dark background

思考のスペクトル幾何学:位相転移、命令反転、トークンレベルダイナミクス、およびトランスフォーマーの推論における完全な正確性予測

思考のスペクトル幾何学:位相転移、命令反転、トークンレベルダイナミクス、およびトランスフォーマーの推論における完全な正確性予測 スペクトル位相転移:推論の隠れた幾何学 論題: 大規模言語モデルは、隠れた活性化空間におけるスペクトル位相転移を示し、これが推論タスクと事実想起タスクと相関している。これらの転移は実装ダイナミクスにおいてアーキテクチャ固有であるが、モデルファミリー全体で一貫した方向性パターンを示す。生成中に測定されたスペクトル署名は、最終ト...

-- いいね数
続きを読む
AI・機械学習
2026年4月30日 14:59
Abstract visualization of neural network layers showing selective neuron activation patterns, with some nodes brightly illuminated in golden yellow against a blue background, representing sparse measurement in Forward-Forward learning architecture

スパースグッドネス:選択的測定がフォワード・フォワード学習をいかに変革するか

スパースグッドネス:選択的測定がフォワード・フォワード学習をいかに変革するか グッドネス関数のボトルネック フォワード・フォワード(FF)学習は、層ごとのローカル学習ルールを実装することで、逆伝播に対する生物学的に妥当な代替案を提案しています。各層はグッドネス関数(正例データと負例データを区別するスカラーメトリクス)を採用し、グローバルなエラー信号なしでの訓練を可能にしています(Hinton, 2022)。この設計上の選択は、標準的なディープラーニングから...

-- いいね数
続きを読む
AI・機械学習
2026年4月28日 09:55
Abstract visualization of three mathematical concepts—transformer attention, diffusion maps, and magnetic Laplacians—converging into a single unified geometric structure represented by a glowing manifold with flowing gradients and interconnected patterns

ディフュージョンとアテンションの接続

ディフュージョンとアテンションの接続 トランスフォーマーとディフュージョンの背後にある統一的な幾何学 トランスフォーマー、ディフュージョンマップ、磁気ラプラシアンは、従来、異なる数学的対象として、独立した理論的基礎を持つものとして扱われてきました。しかし最近の理論的研究——特に最適輸送と幾何学的深層学習の領域で——これらが共通の基礎構造から生じることを示唆しています。その構造とは、ソフトマックス前のクエリ・キースコアから構成されたマルコフ幾何学です。この接...

-- いいね数
続きを読む
AI・機械学習
2026年4月23日 17:04
Split composition showing traditional Bangladeshi agricultural market with fresh produce and farmers on the left transitioning to modern digital price forecasting charts and data visualizations on the right, representing the evolution from manual to machine learning-based commodity price prediction

バングラデシュ市場価格データセットを用いた農業商品価格予測における古典的機械学習モデルと深層学習モデルのベンチマーク

バングラデシュ市場価格データセットを用いた農業商品価格予測における古典的機械学習モデルと深層学習モデルのベンチマーク 問題:断片化されたデータと手動予測 発展途上経済における農業商品価格は、歴史的に手動観察と季節的ヒューリスティクスを通じて予測されてきました。バングラデシュの小規模農家と食糧安全保障計画者は、信頼できる定量的モデルなしで運用されており、不完全な市場報告書と遅延した政府公報に依存していました。この運用上の制約により、意思決定者は価格ショックに...

-- いいね数
続きを読む
AI・機械学習
2026年4月21日 15:47
Three-dimensional visualization of a fractured crystalline rock system showing a network of bright blue fractures cutting through dark gray rock matrix, with computational mesh overlay suggesting numerical modeling

破砕媒質シミュレーションにおける不均質性問題

破砕媒質シミュレーションにおける不均質性問題 破砕媒質シミュレーションにおける不均質性問題 破砕結晶質岩における地下水流動は、根本的な緊張関係を示します。亀裂は無視できない極端な空間不均質性を生み出しますが、それを完全に捉えるには法外な計算コストが必要です。三次元離散亀裂マトリックス(DFM)システムでは、透水係数がスケール全体で桁違いに変化します。亀裂は通常、周囲の岩石よりも10~100倍透水性が高く、不規則でまばらな幾何学を持ちます。微細スケールシミュ...

#深層学習 #コンピュータビジョン #代理モデル・サロゲートモデル
-- いいね数
続きを読む
AI・機械学習
2026年4月16日 16:22
Abstract visualization of data flowing through an evolving neural network, with highlighted data points representing dynamic sample selection during online machine learning training

大規模言語モデルのための二段階オプティマイザ認識型オンラインデータ選択

大規模言語モデルのための二段階オプティマイザ認識型オンラインデータ選択 オフライングラディエント選択とオンラインの現実 グラディエントベースのデータ選択手法は、LLM ファインチューニング時のサンプル有用性を推定するための原理的な基盤を確立しています。理論的根拠は堅牢です。各訓練例のグラディエントと検証性能目標との整合性を計算し、整合性の高いサンプルを優先するというアプローチです。このアプローチは、完全なデータセットが事前に利用可能であり、選択フェーズと訓練...

-- いいね数
続きを読む
AI・機械学習
2026年4月8日 08:48
Abstract visualization of reinforcement learning showing a central AI agent balanced between opposing forces of reward maximization (blue streams) and safety constraints (red barriers), with oscillating patterns representing optimization instability

ハード制約を超えて:安全なオフライン強化学習のための予算条件付き到達可能性

ハード制約を超えて:安全なオフライン強化学習のための予算条件付き到達可能性 安全な強化学習における敵対的トラップ 従来の安全な強化学習は、安全性をハード制約として定式化します。数学的には、すべての軌跡を通じて不等式制約 g(s,a) ≤ 0 を満たす必要がある状態行動対として表現されます。この二値的な枠組みは、根本的な最適化の対立を生み出します。目的関数は、期待累積報酬を最大化しながら同時に制約違反確率をゼロに保つ必要があるのです。結果として生じるミニマッ...

#強化学習 #オフライン強化学習 #安全性・制約付き最適化
-- いいね数
続きを読む
AI・機械学習
2026年4月3日 15:07
Abstract 3D visualization of rotating geometric structures and spiral patterns in blue and purple, representing rotational positional embeddings in high-dimensional space

フレイドRoPEと長入力:幾何学的視点

フレイドRoPEと長入力:幾何学的視点 回転の幾何学:RoPEが位置をエンコードする仕組み 回転位置埋め込み(RoPE)は、高次元空間のトークン表現に回転行列を適用することで動作します。回転角は位置インデックスに比例します(Su et al., 2021)。形式的には、位置mにあるトークンについて、次元ペア(2i, 2i+1)は角度θi·mだけ回転します。ここでθi = 10,000^(-2i/d)であり、dはモデルの次元です。この構成により、トークン...

#大規模言語モデル #トランスフォーマーアーキテクチャ #位置エンコーディング
-- いいね数
続きを読む
AI・機械学習
2026年4月2日 07:11
Abstract visualization of electronic health record data being transformed into discrete tokens, showing medical symbols and timeline events flowing through a processing gateway and emerging as structured geometric units, representing the tokenization process in healthcare AI models

構造化EHRファウンデーションモデルにおけるトークン化のトレードオフ

構造化EHRファウンデーションモデルにおけるトークン化のトレードオフ 基礎:EHRモデルにおけるトークン化が重要である理由 構造化電子健康記録のためのファウンデーションモデルは、タイムスタンプ付きの臨床イベントの縦断的シーケンスを操作して、一般化可能な患者表現を学習します。これらのシーケンスがモデルアーキテクチャに到達する前に、離散的なトークンに変換される必要があります。このプロセスは、モデルが表現し学習できる情報を根本的に制約します。 トークン化設計は、...

-- いいね数
続きを読む
AI・機械学習
2026年3月31日 14:50
Split illustration contrasting idealized AI research metrics on the left with complex real-world clinical deployment challenges on the right, separated by a translucent barrier, representing the gap between laboratory performance and operational healthcare systems

前置き

前置き 事前学習の成果と運用現場のギャップ トランスフォーマーベースのモデルは、大規模な自己教師あり事前学習を通じて、縦断的な電子健康記録(EHR)の予測精度において改善を示しています。GT-BEHRTおよび関連アーキテクチャは、患者軌跡から大規模に分散表現を学習することで、再入院、死亡率、有害事象を含む臨床転帰の予測において測定可能な成果を達成しています。しかし、この実験室環境での性能は、根本的なメカニズムを隠蔽しています。すなわち、研究環境での性能と運用...

-- いいね数
続きを読む
AI・機械学習
2026年3月31日 09:49
Split illustration comparing biological learning and AI processing: a human brain with dynamic, glowing neural connections on the left contrasts with a rigid, geometric AI network structure on the right, highlighting the fundamental difference between adaptive learning and fixed pattern matching

前置き

前置き AI システムにおける「学習」とは、実際のところ何を意味するのか 「学習」という用語は、認知科学と機械学習エンジニアリングの間で異なる意味を持っており、この区別は運用段階の AI デプロイメントにおいてしばしば曖昧にされています。認知科学における学習とは、生物が内部的な心的モデルを更新し、新しい情報を既存の知識構造に統合し、獲得したパターンを新しい文脈へと一般化するプロセスを指します(Schacter et al., 2007)。このプロセスには神...

-- いいね数
続きを読む
AI・機械学習
2026年3月30日 22:13
Abstract visualization of neural network computation showing a curved 3D data manifold with geometric grid lines, contrasting fragmented angular pieces representing traditional activation functions with smooth continuous surfaces representing unified geometric operations, rendered in blues, cyans, and purples against a dark background

DeLuLuはもう不要:物理学にインスパイアされたカーネルネットワークによる幾何学的に根拠づけられたニューラル計算

DeLuLuはもう不要:物理学にインスパイアされたカーネルネットワークによる幾何学的に根拠づけられたニューラル計算 深層学習における活性化関数の危機 現代の深いニューラルネットワークは計算を標準化されたパイプラインに分解しています。線形変換、非線形活性化、正規化層です。このアーキテクチャパターンは原理的な導出ではなく経験的観察から生まれました。広く採用されている活性化関数(ReLU(整流線形ユニット)、GELU(ガウス誤差線形ユニット)およびそれらの変種)...

-- いいね数
続きを読む
AI・機械学習
2026年3月21日 10:26
Abstract visualization of a spatio-temporal network with interconnected nodes and flowing frequency waves, representing graph-structured data forecasting and spatial-temporal correlations

未来の相関を解く:時空間予測のための結合周波数領域学習

未来の相関を解く:時空間予測のための結合周波数領域学習 ポイント単位の損失関数が時空間構造を見落とす理由 標準的な予測モデルは平均二乗誤差(MSE)または平均絶対誤差(MAE)を最適化します。これらの目的関数は、各空間位置と時間ステップで予測誤差を独立に罰します。このアプローチは暗黙の仮定に基づいています。すなわち、ポイント単位の誤差を最小化することが、交通ネットワーク、気象グリッド、センサアレイといったグラフ構造データに内在する依存関係を自動的に捉えると...

-- いいね数
続きを読む
AI・機械学習
2026年3月18日 18:52
Hierarchical visualization of chemical molecular structures arranged in ascending complexity with neural network connections, representing AI-driven curriculum learning for chemical reaction prediction

RxnNano: 階層的カリキュラム学習を用いたコンパクト言語モデルの化学反応・逆合成予測への応用

RxnNano: 階層的カリキュラム学習を用いたコンパクト言語モデルの化学反応・逆合成予測への応用 化学反応予測: スケーリングの先へ 化学反応予測は、医薬品開発パイプラインと合成計画ワークフローの加速化を支える基盤的な能力です。現在の最先端アプローチは、パラメータスケーリングとデータセット拡張に大きく依存しており、この前提は検証に値します。実証的証拠が示すのは、これらの戦略は新規反応タイプや訓練データが疎な化学領域に直面すると、脆弱なモデルを生み出すとい...

-- いいね数
続きを読む
AI・機械学習
2026年3月14日 20:28
Cross-section visualization of an AI neural network showing two layers: a clean surface layer with organized blue pathways and a deeper layer with fading red geometric patterns representing harmful representations being erased from the model's latent space

表現消去ベースの選好最適化によるLLMの有害性除去

表現消去ベースの選好最適化によるLLMの有害性除去 現在のLLM安全性における表面性の問題 既存の選好最適化技術—Direct Preference Optimization(DPO)、Negative Preference Optimization(NPO)、および関連手法を含む—は主に出力確率分布を修正することで行動レベルで機能します。しかし、機械的解釈可能性研究からの経験的証拠は、そのような訓練後も潜在空間に有害な表現構造が残存することを示唆していま...

-- いいね数
続きを読む
AI・機械学習
2026年3月10日 21:19
Split-screen visualization comparing fragmented AI visual perception on the left with robust, reinforced neural network processing on the right, connected by a gradient transition, illustrating the improvement of multimodal AI systems through adversarial training

欺くことは教えることか。敵対的強化学習を通じた知覚的堅牢性の構築

欺くことは教えることか。敵対的強化学習を通じた知覚的堅牢性の構築 知覚的脆弱性の危機 マルチモーダル大規模言語モデル(MLLM)は確立されたベンチマークで強い性能を示す一方で、視覚的複雑性が増した条件下では体系的な失敗パターンを示しています。文書化された脆弱性には、雑然とした場面での物体の誤認識、根拠のない視覚的詳細の生成(ハルシネーション)、知覚的推論を必要とするタスクにおける推論性能の低下が含まれます。これらの失敗パターンは自動運転や医療画像解析といっ...

-- いいね数
続きを読む
AI・機械学習
2026年3月6日 07:46
Abstract visualization of a large neural network with flowing data being compressed and distilled into a compact glowing geometric form, representing the concept of context compilation in large language models

Latent Context Compilation: 長いコンテキストをコンパクトなポータブルメモリに蒸留する

Latent Context Compilation: 長いコンテキストをコンパクトなポータブルメモリに蒸留する 長いコンテキスト展開のボトルネック 現代の大規模言語モデル(LLM)は推論時に根本的な制約に直面しています。コンテキスト長と計算コストは超線形のスケーリング関係を示しています。具体的には、キー・バリュー(KV)キャッシュのメモリ要件はコンテキスト長に対して線形に増加する一方、注意計算は最悪の場合二次関数的(O(n²))にスケールします。ただし、...

#大規模言語モデル #MLインフラ #パラメータ効率的ファインチューニング
-- いいね数
続きを読む
AI・機械学習
2026年3月2日 13:41
Abstract visualization of tensor network optimization showing connected city nodes in a traveling salesman problem with a chain of three-dimensional tensors representing matrix product states, rendered in blue and purple gradients with flowing probability distributions

テンソルネットワークを組み合わせ最適化の生成モデルとして活用する

テンソルネットワークを組み合わせ最適化の生成モデルとして活用する テンソルネットワーク生成器強化最適化(TN-GEO)フレームワークは、巡回セールスマン問題(TSP)を離散的な組み合わせ探索タスクから確率的生成問題へと再構成します。局所探索や分枝限定法を通じて候補解を反復的に改善するのではなく、TN-GEOは行列積状態(MPS)—量子多体物理学に由来するテンソルネットワーク構造—を訓練し、高品質な実行可能ツアーに集中した確率分布を学習します。 基本的な原理は、...

-- いいね数
続きを読む
AI・機械学習
2026年2月28日 09:49
Visualization of time series decomposition showing a single waveform separating into three distinct components: a smooth trend line, a regular seasonal pattern, and irregular residual noise, rendered in blue and teal gradients against a light analytical background

季節トレンド分解の再検討:時系列予測の強化に向けて

季節トレンド分解の再検討:時系列予測の強化に向けて 現代的予測における分解の必然性 従来の時系列予測では、ニューラルネットワークが生の系列からトレンド、季節性、周期的パターン、ノイズを同時に学習する必要があります。この同時最適化は二つの明確な課題をもたらします。第一に最適化の困難性です。モデルは異なる時間特性を持つ複数の成分にわたって競合する目的関数のバランスを取らなければなりません。第二に解釈可能性の低下です。学習された表現が複数の信号源を混在させるため、...

-- いいね数
続きを読む
Abstract visualization of binary code and hexadecimal patterns with hidden red pathways representing backdoors, overlaid with blue scanning beams symbolizing AI-assisted security analysis

約40MBのバイナリに隠されたバックドアを埋め込み、AIとGhidraに検出させてみた

約40MBのバイナリに隠されたバックドアを埋め込み、AIとGhidraに検出させてみた 実験設計:本番規模バイナリへのバックドア埋め込み 本質的に問われているのは、実運用環境を反映した規模でAI支援分析とGhidraの検出能力をどう評価するかです。約40MBのバイナリ—実世界の展開シナリオを代表する本番規模の実行ファイル—にバックドアを埋め込み、再現可能なベンチマークを確立しました。この規模の選択は意図的です。学術的評価では通常、小規模で単純化されたバイナ...

-- いいね数
続きを読む
AI・機械学習
2026年2月15日 01:02
A three-dimensional visualization of a scaling law curve in glowing blue, surrounded by translucent geometric boundaries that fade at the edges, representing the conditional nature and limitations of AI scaling laws

AIで最も誤解されているグラフ

AIで最も誤解されているグラフ スケーリング則グラフの理解 主張:AI分野で最も誤解されているグラフはスケーリング則曲線である。モデルサイズ、訓練データ量、タスク損失の間の経験的関係を示すこのグラフは、普遍的な予測モデルとして解釈されることが多いが、実際には特定の限定された実験条件下でのみ有効な条件付きトレンドを表している。 定義的前提:Kaplan et al. (2020)とHoffmann et al. (2022)で形式化されたス...

-- いいね数
続きを読む
A futuristic data center visualization showing server racks with overlaid holographic decision paths and glowing nodes representing the balance between computational performance and power consumption in high-performance computing systems

HPC における電力性能トレードオフをナビゲートするための注意機構を備えたサロゲート

HPC における電力性能トレードオフをナビゲートするための注意機構を備えたサロゲート ユーザーパフォーマンスと施設制約のバランス 高性能コンピューティング(HPC)スケジューラは、2つの競合する目標の間の根本的な緊張の下で動作します。個々のジョブのパフォーマンスを最大化しながら、施設全体の電力予算とリソース制約を尊重することです。この緊張は、計算パフォーマンスとエネルギー消費がノード割り当て決定を通じて結合されているために生じます。ユーザーが計算ジョブを送信...

-- いいね数
続きを読む
AI・機械学習
2026年2月5日 10:02
Multiple colored data streams representing text, images, audio, and video converging into a single unified neural network structure at the center, symbolizing unified multimodal model architecture

FedUMM: 統一マルチモーダルモデルを用いた連合学習の一般的フレームワーク

FedUMM: 統一マルチモーダルモデルを用いた連合学習の一般的フレームワーク 基礎アーキテクチャとしての統一マルチモーダルモデル 統一マルチモーダルモデル(UMM)は、モダリティ固有のパイプラインから統合アーキテクチャへの基礎モデル設計における構造的転換を表しています。テキスト、画像、ビデオ、オーディオに対して個別の処理経路を維持する代わりに、UMMはこれらのモダリティを単一のニューラルアーキテクチャに統合し、すべての入力タイプにわたって生成タスクと理解タ...

-- いいね数
続きを読む
AI・機械学習
2026年2月4日 07:02
Abstract visualization of an AI reinforcement learning system showing a glowing neural network node at multiple diverging pathways in gradient colors, with semi-transparent replay effects suggesting hindsight learning and multi-objective decision making

再現性ヘッダー

再現性ヘッダー 論文: Hindsight Preference Replay Improves Preference-Conditioned Multi-Objective Reinforcement Learning 対象読者: 知識労働者 セクション: 前文 最終更新日: [現在の日付] --- 多目的強化学習とユーザー選好の整合 多目的強化学習(MORL)は、逐次的意思決定における基本的な課題に取り組む。...

#強化学習 #多目的最適化 #アクタークリティック法
-- いいね数
続きを読む
AI・機械学習
2026年2月3日 18:29
Abstract visualization of neural network attention mechanisms showing interconnected nodes with varying intensity light streams, representing non-uniform attention weight distribution with bright focal points and fading background connections

♪より良いアテンション・プライアが必要だ

♪より良いアテンション・プライアが必要だ ♪ 注意は最適輸送手段であるなぜ事前分布が重要なのか? Claim:標準的なソフトマックスアテンションメカニズムはトークン位置に対する暗黙の一様事前分布を埋め込んでいる。この事前分布は数学的に任意であり、特定のタスクやデータ分布に対して最適でないことが多い。 理由と証拠: ソフトマックス注意は正則化された最適輸送問題を解く(Gechinovskiy et al., 2022; Petersen et...

-- いいね数
続きを読む
AI・機械学習
2026年2月3日 07:02
A network visualization showing interconnected nodes in a distributed system, where bright blue and green nodes are selectively connected while dimmer gray nodes remain isolated, illustrating the concept of selective cooperation in multi-agent machine learning systems

品質か量か?マルチエージェントシステムにおけるガウス過程を用いた誤差情報に基づく選択的オンライン学習:拡張版

品質か量か?マルチエージェントシステムにおけるガウス過程を用いた誤差情報に基づく選択的オンライン学習:拡張版 コンセンサスよりも協調:分散システムにおいて選択的学習が重要な理由 主張: 効果的な分散学習には、エージェントが包括的にではなく選択的に協調することが必要である。隣接するすべてのモデルを無差別に集約すると、予測精度が低下し、対応するパフォーマンス向上なしに計算リソースの消費が増加する。 根拠と前提: マルチエージェントシステムは従来...

-- いいね数
続きを読む
AI・機械学習
2026年2月2日 16:02
Abstract visualization contrasting two machine learning approaches: complex tangled neural pathways representing policy gradient methods on one side, and smooth organized gradient flows representing backpropagation on the other, converging toward a central AI model representation in blue and purple tones

GRADE: LLMアライメントにおける方策勾配の逆伝播による置き換え

GRADE: LLMアライメントにおける方策勾配の逆伝播による置き換え LLMアライメントにおける直接逆伝播の根拠 人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルを人間の好みに合わせるための標準的なアプローチとなっている。経験的に、RLHFで訓練されたモデルは、指示追従の改善と有害な出力の測定可能な削減を示している(Christiano et al., 2017; Ouyang et al., 2022)。しかし、支配的な実装である近接方...

-- いいね数
続きを読む
AI・機械学習
2026年2月2日 04:02
Three intersecting translucent spheres in amber, blue, and green colors converging at a central glowing point, representing the three dimensions of the assistant axis in large language models: helpfulness, honesty, and harmlessness

アシスタント軸:LLMのキャラクターの位置付けと安定化

アシスタント軸:LLMのキャラクターの位置付けと安定化 アシスタント軸の定義 主張: 大規模言語モデルは測定可能なスペクトル、すなわち「アシスタント軸」に沿って動作し、実世界での展開において有用性、誠実性、無害性のバランスをどのように取るかを捉えている。 定義上の前提条件: アシスタント軸は、3つの主要な行動目標間のトレードオフを捉える多次元構造として定義される:(1)有用性、タスク完了率と応答の有用性として操作化される;(2)誠実性、事実...

-- いいね数
続きを読む
AI・機械学習
2026年2月1日 19:02
Two intertwined translucent neural network structures, one glowing amber representing factual knowledge and one glowing blue representing logical reasoning, merging in the center with purple interference patterns against a dark technological background

デジタル代謝:再生的アンラーニングによる論理と事実の分離 — 純粋な神経論理コアに向けて

デジタル代謝:再生的アンラーニングによる論理と事実の分離 — 純粋な神経論理コアに向けて パラメータのエンタングルメント:根本的な問題 主張: 大規模言語モデルはパラメータのエンタングルメントを示す。これは、推論論理と事実知識が共有された神経重みの中にエンコードされ、表現の干渉を生み出し、両方の能力を低下させるものである。 定義的前提条件: パラメータのエンタングルメントは、異なる機能的目的(論理的推論と事実検索)が重複する重み行列内に共存...

-- いいね数
続きを読む
AI・機械学習
2026年1月31日 19:02
Technical illustration of a Mixture-of-Experts neural network architecture showing selective routing pathways, with illuminated active expert nodes connected by glowing data streams against a dark computational grid background

MoEの計算効率を重みとデータのスパース性の組み合わせで改善する

MoEの計算効率を重みとデータのスパース性の組み合わせで改善する 重みのスパース性:基盤 Mixture-of-Experts(MoE)アーキテクチャは、すべてのモデルパラメータを活性化するのではなく、各トークンを学習されたエキスパートのサブセットにルーティングすることで、順伝播あたりの計算コストを削減します。この重みのスパース性メカニズムが、MoEシステムにおける主要な効率向上を構成します。形式的には、モデルが合計E個のエキスパートを含み、各トークンが...

-- いいね数
続きを読む
AI・機械学習
2026年1月31日 10:02
Three distinct visual streams representing acoustic, visual, and linguistic emotional signals converging into an interconnected network, symbolizing multimodal emotion recognition in conversation

分割と洗練:会話における感情認識のためのマルチモーダル表現と説明可能性の強化

分割と洗練:会話における感情認識のためのマルチモーダル表現と説明可能性の強化 感情認識におけるマルチモーダル信号 主張: 会話文脈における感情認識には、3つの異なる情報源を統合するシステムが必要である:モダリティ固有の手がかり(個々のチャネルに固有の信号)、モダリティ間で共有される信号(冗長な情報)、および創発的相互作用(マルチモーダルの組み合わせからのみ生じる相乗的パターン)。 根拠と理論的基盤: 感情状態は複数のコミュニケーションチャネ...

-- いいね数
続きを読む
AI・機械学習
2026年1月30日 16:02
Three-dimensional visualization of clustered glowing spheres in a dark vector space, representing semantic organization in language model embeddings with distinct neighborhoods of warm and cool colored points connected by gradient fields

LLM埋め込み空間における離散的意味状態とハミルトン動力学

LLM埋め込み空間における離散的意味状態とハミルトン動力学 LLM埋め込みにおける数学的構造 大規模言語モデルは、学習された変換を通じて意味情報を高次元ベクトル空間に投影する。これらの空間の内部組織—連続的か離散的か—は、未解決の実証的問題である。最近の計算的調査は、LLM埋め込みが均一な連続分布ではなく、離散的な意味組織と一致するクラスタリングパターンを示すことを示唆している。具体的には、意味的に類似した概念を表すトークンは埋め込み空間内の局所的な近傍を占...

-- いいね数
続きを読む
AI・機械学習
2026年1月29日 19:02
Visualization of particle collision jets transforming into a geometric tensor network structure, representing the conversion of high-energy physics data into computational models for real-time classification at the Large Hadron Collider

テンソルネットワークモデル:深層学習に対するコンパクトな代替手段

テンソルネットワークモデル:深層学習に対するコンパクトな代替手段 高輝度大型ハドロン衝突型加速器(HL-LHC)におけるリアルタイム粒子分類は、明確に定義された制約の下で動作する推論システムを必要とする:マイクロ秒スケールのレイテンシ予算(トリガー段階でイベントあたり通常1~10 μs)、限られた電力エンベロープ(処理ノードあたり10~100 W)、および決定論的実行プロファイル。テンソルネットワーク(TN)モデル—特に行列積状態(MPS)とツリーテンソルネットワ...

-- いいね数
続きを読む
AI・機械学習
2026年1月28日 22:02
A technical visualization showing a time series waveform transforming from an opaque black box into transparent, interpretable sparse structures with glowing nodes and connections, representing the conversion of complex predictions into explainable patterns

ブラックボックス時系列モデルにおける説明可能性の危機

ブラックボックス時系列モデルにおける説明可能性の危機 ブラックボックスモデルと事前学習済みアーキテクチャは、現在、金融、医療、産業システム全体にわたる時系列予測、異常検知、センサーデータ分析を支配している。しかし、その広範な採用は、厳密な説明手法の開発を上回るペースで進んでいる。医療モニタリング、金融取引、重要インフラといった高リスク領域では、説明不可能な予測が規制上および運用上の摩擦を生み出している。組織は記録された緊張関係に直面している:優れた予測精度を活用し...

-- いいね数
続きを読む
AI・機械学習
2026年1月28日 01:02
Split visualization comparing complex tangled network of blue connections representing quadratic computational complexity against streamlined parallel green lines representing efficient linear processing, with flowing data particles on dark technical background

RewriteNets: 生成的系列モデリングのためのエンドツーエンド訓練可能な文字列書き換え

RewriteNets: 生成的系列モデリングのためのエンドツーエンド訓練可能な文字列書き換え 現代の系列モデルにおける複雑性問題 Transformerベースのアーキテクチャは生成的系列モデリングの支配的なパラダイムとなっているが、十分に文書化された計算上の制限を示している:系列長における二次複雑性(O(n²))である。この複雑性は、注意機構がすべてのトークン位置間のペアワイズ類似度スコアを計算する必要があることから生じる。長さnの系列に対して、各注意ヘッ...

-- いいね数
続きを読む
AI・機械学習
2026年1月24日 19:02
Scientific visualization depicting an artificial intelligence neural network connecting with a three-dimensional protein structure, with molecular compounds floating between them, representing the intersection of large language models and structure-based drug design

課題:LLMと分子設計の出会い

課題:LLMと分子設計の出会い 大規模言語モデル(LLM)は、多様な領域におけるパターン認識と推論タスクにおいて強力な性能を実証してきた(Vaswani et al., 2017; Brown et al., 2020)。しかし、構造ベース創薬(SBDD)への応用は、実用性を制約する2つの十分に文書化された制限に直面している。 第一に、LLMはタンパク質構造解釈に必要な堅牢な三次元空間推論能力を欠いている。これらのモデルは逐次的なトークン予測と意味的関係性におい...

-- いいね数
続きを読む
AI・機械学習
2026年1月23日 04:02
Abstract visualization of transfer learning showing a neural network with glowing blue nodes transferring knowledge through flowing data streams to multiple smaller networks against a dark gradient background

マルチソース転移学習におけるソース重みと転移量の統合最適化:漸近的フレームワーク

マルチソース転移学習におけるソース重みと転移量の統合最適化:漸近的フレームワーク データ不足環境における転移学習 転移学習は機械学習における根本的な課題に対処する:ターゲットタスクのラベル付きデータが限られている場合に、許容可能なモデル性能を達成することである。実務者は、希少なターゲットデータでモデルをゼロから訓練するのではなく、関連するソースタスクから学習した表現とパラメータを活用して、サンプル複雑度を削減し、汎化性能を向上させる(Yosinski et ...

-- いいね数
続きを読む
AI・機械学習
2026年1月22日 17:21
A modern digital illustration showing musical notation with chord symbols on the left blending into neural network visualization on the right, representing the integration of music theory and AI analysis in compositional reasoning

CSyMR: MIRツール統合による作曲的記号音楽推論のベンチマーク

CSyMR: MIRツール統合による作曲的記号音楽推論のベンチマーク 孤立した音楽分析と作曲的推論の間のギャップ 大規模言語モデルは、制約された音楽分析タスク(例:和音識別、音階分類、単一小節コンテキストにおける和声機能ラベリング)において測定可能な能力を示してきた。しかし、MIR(音楽情報検索)評価フレームワークを含む既存の音楽推論ベンチマークは、分析次元間の統合を必要とせず、孤立した原子的知識を主に評価している。この制限は、ベンチマーク設計と専門的な音...

-- いいね数
続きを読む
AI・機械学習
2026年1月20日 19:02
Abstract visualization showing smooth mathematical flow transformations with curved lines morphing from simple linear patterns through complex multimodal waves, representing the concept of normalizing flows and invertible functions in machine learning

滑らかで解釈可能な正規化フローのための解析的全単射

滑らかで解釈可能な正規化フローのための解析的全単射 正規化フローにおける可逆性の課題 正規化フローは、可逆変換の合成 $T = fn \circ f{n-1} \circ \cdots \circ f1$ を通じて扱いやすい密度推定を可能にします。ここで、対数尤度は次のように分解されます: $$\log p(x) = \log p0(z) - \sum{i=1}^{n} \log \left| \det \frac{\partial fi}{\...

-- いいね数
続きを読む
AI・機械学習
2026年1月20日 01:03
Abstract visualization showing the transformation from smooth softmax attention curves into sharp geometric tropical algebra structures, representing the mathematical convergence of transformer neural networks under high-confidence conditions

思考の幾何学:トロピカル多項式回路としてのTransformerの開示

思考の幾何学:トロピカル多項式回路としてのTransformerの開示 トロピカル幾何学が自己注意機構をMax-Plus代数として明らかにする 主張: Transformerの自己注意機構は、高信頼条件下においてmax-plus代数(トロピカル半環)として動作し、これはsoftmax関数における逆温度パラメータβを通じて形式化できる。 前提条件と定義: - Softmax注意機構は次のように定義される:α(i,j) = exp(β·s(i,...

-- いいね数
続きを読む
AI・機械学習
2026年1月19日 01:03
Abstract visualization contrasting discrete transformer architecture with grid-like nodes and connections on the left, transitioning to smooth continuous wave patterns representing spectral flow models on the right, set against a dark background with blue and cyan gradients

スペクトル生成フローモデル:ベクトル化された大規模言語モデルに代わる物理学に着想を得た手法

スペクトル生成フローモデル:ベクトル化された大規模言語モデルに代わる物理学に着想を得た手法 トークンからフィールドへ:物理学に基づく代替手法 スペクトル生成フローモデル(SGFM)は、逐次情報の表現と処理方法において、トランスフォーマーアーキテクチャからの構造的な転換を表しています。言語をトークン列に離散化してグローバルアテンション機構を適用するのではなく、SGFMはテキスト生成をウェーブレット基底における確率微分方程式によって支配されるフィールドの連続的な...

-- いいね数
続きを読む
AI・機械学習
2026年1月15日 22:03
A technical visualization depicting neural network compression, showing a dense network of glowing blue nodes transforming into a sparse, efficient structure with fewer green nodes, illustrating the concept of hierarchical sparse plus low-rank compression in large language models

LLMの階層的スパース+低ランク圧縮

LLMの階層的スパース+低ランク圧縮 現代のLLMにおけるメモリ危機 主張: 大規模言語モデルは現在、法外な量のメモリと計算資源を消費しており、実用的な展開と継続的な訓練のために圧縮は交渉の余地のない要件となっている。 前提条件と仮定: - モデルは事前量子化なしで完全精度(FP32)または半精度(FP16)で保存されている。 - 展開対象には、リソース制約のある環境(エッジデバイス、小規模クラスタ)またはコスト重視の推論シナリオが含まれる...

-- いいね数
続きを読む
TOPへ