Autognosis

自分の認知と学習を静かに磨くデジタルノート

速く流れていく情報から少し離れ、自分の頭でじっくり考えられる文章だけを集めています。

更新

2026/6/14

Tag

#表現学習

AI・機械学習
2026年6月12日 09:37
Abstract visualization of a neural network with a highlighted modified connection, suggesting the concept of knowledge editing in AI models and the distinction between behavioral changes and internal representations

すべてを支配する一つのマスク:編集後の隠れた事実と、それを見つける方法について

すべてを支配する一つのマスク:編集後の隠れた事実と、それを見つける方法について 外科的精密性の幻想 知識編集手法、特にROME(Rank-One Model Editing)とMEMIT(Mass-Editing Memory in a Transformer)は、トランスフォーマーモデルにおける標的化された事実更新のメカニズムとして提示されています。理論的な約束は単純明快です。特定のMLP(多層パーセプトロン)の重みを修正することで、実践者は新しい事実主張...

-- いいね数
続きを読む
AI・機械学習
2026年3月14日 20:28
Cross-section visualization of an AI neural network showing two layers: a clean surface layer with organized blue pathways and a deeper layer with fading red geometric patterns representing harmful representations being erased from the model's latent space

表現消去ベースの選好最適化によるLLMの有害性除去

表現消去ベースの選好最適化によるLLMの有害性除去 現在のLLM安全性における表面性の問題 既存の選好最適化技術—Direct Preference Optimization(DPO)、Negative Preference Optimization(NPO)、および関連手法を含む—は主に出力確率分布を修正することで行動レベルで機能します。しかし、機械的解釈可能性研究からの経験的証拠は、そのような訓練後も潜在空間に有害な表現構造が残存することを示唆していま...

-- いいね数
続きを読む
TOPへ