マルチモーダルモデル | Tags

AI・機械学習

2026年3月10日 21:19

Split-screen visualization comparing fragmented AI visual perception on the left with robust, reinforced neural network processing on the right, connected by a gradient transition, illustrating the improvement of multimodal AI systems through adversarial training

欺くことは教えることか。敵対的強化学習を通じた知覚的堅牢性の構築

欺くことは教えることか。敵対的強化学習を通じた知覚的堅牢性の構築知覚的脆弱性の危機マルチモーダル大規模言語モデル（MLLM）は確立されたベンチマークで強い性能を示す一方で、視覚的複雑性が増した条件下では体系的な失敗パターンを示しています。文書化された脆弱性には、雑然とした場面での物体の誤認識、根拠のない視覚的詳細の生成（ハルシネーション）、知覚的推論を必要とするタスクにおける推論性能の低下が含まれます。これらの失敗パターンは自動運転や医療画像解析といっ...

#大規模言語モデル #マルチモーダルモデル #強化学習

--

Share

AI・機械学習

2026年2月26日 22:47

Split-screen illustration contrasting AI visual reasoning: left side shows neural network properly connected to road scene for autonomous driving, right side shows same network relying only on text patterns with faded visual input, highlighting the text-bias problem in vision language models

自動運転向けVLMの合成生成MCQAにおけるテキストバイアスの削減

自動運転向けVLMの合成生成MCQAにおけるテキストバイアスの削減ビジョン言語モデルにおけるテキスト悪用の問題自動運転評価向けに設計されたビジョン言語モデル（VLM）は、十分に文書化された現象に根ざした根本的な検証危機に直面しています。すなわち、モデルが視覚情報を処理することなくベンチマークレベルのパフォーマンスを達成するという現象です。実証的知見は、合成生成された多肢選択問題回答（MCQA）データセットで微調整されたVLMが、視覚入力が完全に削除され...

#マルチモーダルモデル #ビジョン言語モデル #AI倫理

--

Share

AI・機械学習

2026年2月5日 10:02

Multiple colored data streams representing text, images, audio, and video converging into a single unified neural network structure at the center, symbolizing unified multimodal model architecture

FedUMM: 統一マルチモーダルモデルを用いた連合学習の一般的フレームワーク

FedUMM: 統一マルチモーダルモデルを用いた連合学習の一般的フレームワーク基礎アーキテクチャとしての統一マルチモーダルモデル統一マルチモーダルモデル（UMM）は、モダリティ固有のパイプラインから統合アーキテクチャへの基礎モデル設計における構造的転換を表しています。テキスト、画像、ビデオ、オーディオに対して個別の処理経路を維持する代わりに、UMMはこれらのモダリティを単一のニューラルアーキテクチャに統合し、すべての入力タイプにわたって生成タスクと理解タ...

#フェデレーテッドラーニング #マルチモーダルモデル #深層学習

--

Share

AI・機械学習

2026年1月31日 10:02

Three distinct visual streams representing acoustic, visual, and linguistic emotional signals converging into an interconnected network, symbolizing multimodal emotion recognition in conversation

分割と洗練：会話における感情認識のためのマルチモーダル表現と説明可能性の強化

分割と洗練：会話における感情認識のためのマルチモーダル表現と説明可能性の強化感情認識におけるマルチモーダル信号主張: 会話文脈における感情認識には、3つの異なる情報源を統合するシステムが必要である：モダリティ固有の手がかり（個々のチャネルに固有の信号）、モダリティ間で共有される信号（冗長な情報）、および創発的相互作用（マルチモーダルの組み合わせからのみ生じる相乗的パターン）。根拠と理論的基盤: 感情状態は複数のコミュニケーションチャネ...

#マルチモーダルモデル #自然言語処理 #コンピュータビジョン

--

Share

AI・機械学習

2026年1月22日 17:21

A modern digital illustration showing musical notation with chord symbols on the left blending into neural network visualization on the right, representing the integration of music theory and AI analysis in compositional reasoning

CSyMR: MIRツール統合による作曲的記号音楽推論のベンチマーク

CSyMR: MIRツール統合による作曲的記号音楽推論のベンチマーク孤立した音楽分析と作曲的推論の間のギャップ大規模言語モデルは、制約された音楽分析タスク(例:和音識別、音階分類、単一小節コンテキストにおける和声機能ラベリング)において測定可能な能力を示してきた。しかし、MIR(音楽情報検索)評価フレームワークを含む既存の音楽推論ベンチマークは、分析次元間の統合を必要とせず、孤立した原子的知識を主に評価している。この制限は、ベンチマーク設計と専門的な音...

#大規模言語モデル #ベンチマーキング #評価指標

--

Share