Autognosis

自分の認知と学習を静かに磨くデジタルノート

速く流れていく情報から少し離れ、自分の頭でじっくり考えられる文章だけを集めています。

更新

2026/6/14

Tag

#量子化

Technical illustration of a unified memory chip architecture showing processor cores connected to shared memory through glowing data pathways on a dark background

M4の24GBメモリでローカルモデルを実行する

M4の24GBメモリでローカルモデルを実行する M4のユニファイドメモリアーキテクチャ:ローカル推論の新しい閾値 24GBのユニファイドメモリを搭載したM4チップは、ローカルモデル推論において明確なアーキテクチャ上の優位性をもたらします。従来のCPU-GPUシステムでは、分離されたメモリプールが計算ユニット間の明示的なデータ転送を必要とするのに対し、M4のユニファイドメモリアーキテクチャは、ニューラルエンジン、GPU、CPUが中間的なコピーオーバーヘッドなし...

#機械学習 #ローカル推論 #量子化
-- いいね数
続きを読む
AI・機械学習
2026年1月15日 22:03
A technical visualization depicting neural network compression, showing a dense network of glowing blue nodes transforming into a sparse, efficient structure with fewer green nodes, illustrating the concept of hierarchical sparse plus low-rank compression in large language models

LLMの階層的スパース+低ランク圧縮

LLMの階層的スパース+低ランク圧縮 現代のLLMにおけるメモリ危機 主張: 大規模言語モデルは現在、法外な量のメモリと計算資源を消費しており、実用的な展開と継続的な訓練のために圧縮は交渉の余地のない要件となっている。 前提条件と仮定: - モデルは事前量子化なしで完全精度(FP32)または半精度(FP16)で保存されている。 - 展開対象には、リソース制約のある環境(エッジデバイス、小規模クラスタ)またはコスト重視の推論シナリオが含まれる...

-- いいね数
続きを読む
TOPへ