前置き
前置き 事前学習の成果と運用現場のギャップ トランスフォーマーベースのモデルは、大規模な自己教師あり事前学習を通じて、縦断的な電子健康記録(EHR)の予測精度において改善を示しています。GT-BEHRTおよび関連アーキテクチャは、患者軌跡から大規模に分散表現を学習することで、再入院、死亡率、有害事象を含む臨床転帰の予測において測定可能な成果を達成しています。しかし、この実験室環境での性能は、根本的なメカニズムを隠蔽しています。すなわち、研究環境での性能と運用...
自分の認知と学習を静かに磨くデジタルノート
速く流れていく情報から少し離れ、自分の頭でじっくり考えられる文章だけを集めています。
更新
2026/5/19
Tag
前置き 事前学習の成果と運用現場のギャップ トランスフォーマーベースのモデルは、大規模な自己教師あり事前学習を通じて、縦断的な電子健康記録(EHR)の予測精度において改善を示しています。GT-BEHRTおよび関連アーキテクチャは、患者軌跡から大規模に分散表現を学習することで、再入院、死亡率、有害事象を含む臨床転帰の予測において測定可能な成果を達成しています。しかし、この実験室環境での性能は、根本的なメカニズムを隠蔽しています。すなわち、研究環境での性能と運用...
前置き AI システムにおける「学習」とは、実際のところ何を意味するのか 「学習」という用語は、認知科学と機械学習エンジニアリングの間で異なる意味を持っており、この区別は運用段階の AI デプロイメントにおいてしばしば曖昧にされています。認知科学における学習とは、生物が内部的な心的モデルを更新し、新しい情報を既存の知識構造に統合し、獲得したパターンを新しい文脈へと一般化するプロセスを指します(Schacter et al., 2007)。このプロセスには神...
RxnNano: 階層的カリキュラム学習を用いたコンパクト言語モデルの化学反応・逆合成予測への応用 化学反応予測: スケーリングの先へ 化学反応予測は、医薬品開発パイプラインと合成計画ワークフローの加速化を支える基盤的な能力です。現在の最先端アプローチは、パラメータスケーリングとデータセット拡張に大きく依存しており、この前提は検証に値します。実証的証拠が示すのは、これらの戦略は新規反応タイプや訓練データが疎な化学領域に直面すると、脆弱なモデルを生み出すとい...
季節トレンド分解の再検討:時系列予測の強化に向けて 現代的予測における分解の必然性 従来の時系列予測では、ニューラルネットワークが生の系列からトレンド、季節性、周期的パターン、ノイズを同時に学習する必要があります。この同時最適化は二つの明確な課題をもたらします。第一に最適化の困難性です。モデルは異なる時間特性を持つ複数の成分にわたって競合する目的関数のバランスを取らなければなりません。第二に解釈可能性の低下です。学習された表現が複数の信号源を混在させるため、...
コールセンターQ&Aデータセットを通じたドメイン特化型LLMの適応 LLMのファインチューニングには高品質な指示データが必要 主張: 大規模言語モデルは、汎用的な事前学習済み重みのみに依存するのではなく、運用コンテキストに基づいた質問-回答ペアという形式の高品質な指示フォーマットデータセットでファインチューニングすることで、ドメイン特化型の能力を獲得する。 理論的基盤: 事前学習済みLLMは広範な言語パターンをエンコードしているが、制約さ...
マルチソース転移学習におけるソース重みと転移量の統合最適化:漸近的フレームワーク データ不足環境における転移学習 転移学習は機械学習における根本的な課題に対処する:ターゲットタスクのラベル付きデータが限られている場合に、許容可能なモデル性能を達成することである。実務者は、希少なターゲットデータでモデルをゼロから訓練するのではなく、関連するソースタスクから学習した表現とパラメータを活用して、サンプル複雑度を削減し、汎化性能を向上させる(Yosinski et ...
臨床データにおける隠れたギャップ 健康の社会的決定要因(SDoH)は、住居の安定性、食料の安全保障、雇用状況、交通手段へのアクセス、社会的孤立として運用され、患者の罹患率および死亡率の確立された相関要因である(Healthy People 2030フレームワーク;米国保健福祉省)。その文書化された臨床的重要性にもかかわらず、SDoH変数は構造化された電子健康記録(EHR)システムにおいて体系的に過小評価されたままである。ICD-9分類を含む現在の診断コーディング基...