表現学習 | Tags | Autognosis

AI・機械学習

2026年6月12日 09:37

Abstract visualization of a neural network with a highlighted modified connection, suggesting the concept of knowledge editing in AI models and the distinction between behavioral changes and internal representations

すべてを支配する一つのマスク：編集後の隠れた事実と、それを見つける方法について

すべてを支配する一つのマスク：編集後の隠れた事実と、それを見つける方法について外科的精密性の幻想知識編集手法、特にROME（Rank-One Model Editing）とMEMIT（Mass-Editing Memory in a Transformer）は、トランスフォーマーモデルにおける標的化された事実更新のメカニズムとして提示されています。理論的な約束は単純明快です。特定のMLP（多層パーセプトロン）の重みを修正することで、実践者は新しい事実主張...

#大規模言語モデル #説明可能なAI #因果推論

AI・機械学習

2026年3月14日 20:28

Cross-section visualization of an AI neural network showing two layers: a clean surface layer with organized blue pathways and a deeper layer with fading red geometric patterns representing harmful representations being erased from the model's latent space

表現消去ベースの選好最適化によるLLMの有害性除去

表現消去ベースの選好最適化によるLLMの有害性除去現在のLLM安全性における表面性の問題既存の選好最適化技術—Direct Preference Optimization（DPO）、Negative Preference Optimization（NPO）、および関連手法を含む—は主に出力確率分布を修正することで行動レベルで機能します。しかし、機械的解釈可能性研究からの経験的証拠は、そのような訓練後も潜在空間に有害な表現構造が残存することを示唆していま...

#大規模言語モデル #AIセーフティ #AI倫理

#表現学習

すべてを支配する一つのマスク：編集後の隠れた事実と、それを見つける方法について

表現消去ベースの選好最適化によるLLMの有害性除去