コンピュータビジョン | Tags

AI・機械学習

2026年3月23日 11:26

Abstract visualization of real-time video generation showing flowing luminous video frames cascading seamlessly with light trails and digital elements, representing instantaneous video processing technology

リアルタイム閾値：Heliosが実現するもの

リアルタイム閾値：Heliosが実現するもの Heliosは再生速度以上の速度で一貫性のあるビデオシーケンスを生成することでリアルタイムビデオ生成を実現し、先行する生成型ビデオモデルに内在する後処理の遅延を排除しています。これは動作レジームの根本的な転換を示しています。従来のシステムは二つの制約のいずれかで動作していました。短いクリップ（5～30秒）をサブリアルタイム速度で生成するか（計算時間が出力時間を超える）、または生成出力1分あたり数時間のオフライ...

#生成AI #深層学習 #コンピュータビジョン

--

Share

テクノロジー・イノベーション

2026年3月16日 17:11

A specialized computer processor chip at the center with geometric patterns representing convolutional neural network layers and optimized data pathways flowing around it, rendered in blue and silver tones against a dark background

Talos: ディープ畳み込みニューラルネットワーク向けハードウェアアクセラレータ

Talos: ディープ畳み込みニューラルネットワーク向けハードウェアアクセラレータアーキテクチャと設計哲学 Talosは汎用GPU設計から意図的に決別し、多様な計算ワークロードに対応することを放棄して、畳み込みニューラルネットワーク（CNN）推論に特化した設計を採用しています。この特化は基本的な観察に基づいています。すなわち、畳み込み演算がほとんどのビジョンモデルにおける計算ボトルネックであり、固定機能ハードウェアアクセラレーションに適した予測可能なデータ...

#ハードウェアアクセラレータ #深層学習 #コンピュータビジョン

--

Share

AI・機械学習

2026年3月10日 21:19

Split-screen visualization comparing fragmented AI visual perception on the left with robust, reinforced neural network processing on the right, connected by a gradient transition, illustrating the improvement of multimodal AI systems through adversarial training

欺くことは教えることか。敵対的強化学習を通じた知覚的堅牢性の構築

欺くことは教えることか。敵対的強化学習を通じた知覚的堅牢性の構築知覚的脆弱性の危機マルチモーダル大規模言語モデル（MLLM）は確立されたベンチマークで強い性能を示す一方で、視覚的複雑性が増した条件下では体系的な失敗パターンを示しています。文書化された脆弱性には、雑然とした場面での物体の誤認識、根拠のない視覚的詳細の生成（ハルシネーション）、知覚的推論を必要とするタスクにおける推論性能の低下が含まれます。これらの失敗パターンは自動運転や医療画像解析といっ...

#大規模言語モデル #マルチモーダルモデル #強化学習

--

Share

ソフトウェア・クラウド開発

2026年2月14日 04:02

Split-screen illustration showing natural language conversation bubbles transforming into structured data analytics visualizations through an AI-powered connection, representing conversational analytics technology

BigQueryの会話型分析機能：技術的基礎と組織的実装

BigQueryの会話型分析機能：技術的基礎と組織的実装自然言語とデータウェアハウスの邂逅 Google Cloudは、BigQuery内にプレビュー機能として会話型分析機能を導入した。これにより、アナリストとビジネスユーザーはSQLではなく自然言語を用いて複雑なデータセットをクエリできるようになった。この機能は大規模言語モデル（LLM）—具体的にはコード生成とセマンティック理解タスクで訓練されたモデル—を活用し、ユーザーの意図を解釈し、会話型クエリをSQ...

#大規模言語モデル #自然言語処理 #データウェアハウス

--

Share

AI・機械学習

2026年1月31日 10:02

Three distinct visual streams representing acoustic, visual, and linguistic emotional signals converging into an interconnected network, symbolizing multimodal emotion recognition in conversation

分割と洗練：会話における感情認識のためのマルチモーダル表現と説明可能性の強化

分割と洗練：会話における感情認識のためのマルチモーダル表現と説明可能性の強化感情認識におけるマルチモーダル信号主張: 会話文脈における感情認識には、3つの異なる情報源を統合するシステムが必要である：モダリティ固有の手がかり（個々のチャネルに固有の信号）、モダリティ間で共有される信号（冗長な情報）、および創発的相互作用（マルチモーダルの組み合わせからのみ生じる相乗的パターン）。根拠と理論的基盤: 感情状態は複数のコミュニケーションチャネ...

#マルチモーダルモデル #自然言語処理 #コンピュータビジョン

--

Share