滑らかで解釈可能な正規化フローのための解析的全単射

正規化フローにおける可逆性の課題

正規化フローは、可逆変換の合成 $T = f_n \circ f_{n-1} \circ \cdots \circ f_1$ を通じて扱いやすい密度推定を可能にします。ここで、対数尤度は次のように分解されます:

$$\log p(x) = \log p_0(z) - \sum_{i=1}^{n} \log \left| \det \frac{\partial f_i}{\partial z_{i-1}} \right|$$

(Rezende & Mohamed, 2015; Papamakarios et al., 2021)。スカラー全単射 $f: \mathbb{R} \to \mathbb{R}$ はこれらのフローの基礎を形成しますが、未解決のトリレンマに直面しています:表現力(複雑な多峰性分布をモデル化する能力)、滑らかさ(勾配ベースの訓練を安定させる連続微分)、解析的可逆性(計算可能なヤコビアンを持つ閉形式の逆関数)を同時に達成することです。

  • 現在の手法はこの制約を同時に満たすことができません:*

  • アフィン変換 ($f(x) = ax + b$, $a > 0$) は解析的に可逆で大域的に滑らかですが、表現力に欠けます。単純な位置-スケール変換を超えた多峰性や裾の重い挙動を捉えることができません。

  • 単調スプライン (Durkan et al., 2019; Huang et al., 2021) は区分的多項式制御を通じて局所的な表現力を達成しますが、ノット境界での大域的滑らかさを犠牲にし、定義域を有界区間 $[x_{\min}, x_{\max}]$ に制限し、フロー合成を通じて伝播する不連続な二階微分を生成します。

  • 残差フロー (Behrmann et al., 2019) は制約のない $g$ を用いた $f(x) = x + g(x)$ により大域的滑らかさを達成しますが、反転のために反復数値ソルバー(不動点反復またはニュートン-ラフソン法)を必要とし、計算遅延、ソルバー許容誤差の調整、逆関数を通じた逆伝播中の潜在的な不安定性をもたらします。

これは実務者にとって実用的なボトルネックを生み出します。残差フローにおける数値反転は遅延の変動(通常、サンプルあたり5-10回のソルバー反復)をもたらし、精度と速度のバランスを取るための慎重な許容誤差調整を必要とします。区分的滑らかスプラインはノット境界でアーティファクトを生成し、層の合成を通じて複合化します。アフィン層は、より安価な行列乗算で置き換えられる操作にモデル容量を浪費し、実効的なフロー深度を減少させます。

  • 本番システムではギャップが広がります:* 高次元密度推定、複雑な事後分布を持つ変分推論、生成モデリングはすべて、(1) 数値ソルバーを排除する閉形式の逆関数、(2) $\mathbb{R}$ 全体で安定した勾配を可能にする大域的 $C^\infty$ 滑らかさ、(3) 全単射あたり $O(1)$ パラメータで非アフィン構造を捉える十分な表現力を同時に提供する全単射を必要とします。

正規化フローの3つの重要な特性(表現力、滑らかさ、解析的可逆性)を三角形の3つの頂点で表現したトリレンマ図。各頂点は相互に接続され、既存の3つの手法(アフィン変換、単調スプライン、残差フロー)がそれぞれどの特性で失敗するかを点線矢印で示している。アフィン変換は表現力が低く、単調スプラインは滑らかさに問題があり、残差フローは解析的可逆性を失う。

  • 図2:正規化フローのトリレンマ - 既存手法の限界を示す3軸比較*

正規化フロー(Normalizing Flows)の段階的な変換プロセスを示す抽象的な可視化。左側の複雑な非ガウス分布を持つデータポイントの集合が、複数の可逆変換層を通じて段階的に変形され、右側のシンプルなガウス分布へと流れていく様子を表現。各変換段階は曲線メッシュまたはワーピング効果として視覚化され、データポイントが滑らかに再構成される過程を示す。

  • 図1:正規化フロー(Normalizing Flows)の概念図 - 複数の可逆変換による段階的なデータ変換プロセス*

解析的全単射の3つのファミリー

私たちはトリレンマを打破する3つの全単射ファミリーを導入します。すべて大域的に滑らかで、$\mathbb{R}$ 上で定義され、閉形式で解析的に可逆であり、構成により単調です。

Cubic Rational Bijectionの数学的構造を示すフロー図。最上部の3次有理双射から、分子多項式P(x)と分母多項式Q(x)の構造に分岐。それぞれの導関数による単調性制約(P'(x)>0、Q'(x)>0)を経て、逆関数計算フローへ進む。y=P(x)/Q(x)からxを解く過程を示し、ヤコビアン計算(J = dP/dx·Q - P·dQ/dx / Q²)を通じて双射性を確認。最終的にTrilemma解決(単調性・全単射性・計算効率の同時達成)に至る構造を表現。

  • 図5:Cubic Rational Bijectionの構造 - 多項式構成から逆関数計算およびヤコビアン検証フロー*

3つの解析的双射族を表現した抽象的な技術図。左から順に、立方有理関数(深青色の滑らかな曲線)、指数有理関数(紫色の指数曲線)、多項式双射(緑色の優雅な弧)が描かれている。3つの族すべてが中央の発光点に収束し、表現力、滑らかさ、解析的可逆性の3つの要件を同時に満たしていることを象徴している。各族の周囲には、これらの特性を表すオーラが配置されている。

  • 図4:3つの解析的双射族 - トリレンマを解決する新しいアプローチ。Cubic Rational、Exponential Rational、Polynomial Bijections の3つの族が、表現力、滑らかさ、解析的可逆性の相互制約を同時に克服する様子を視覚化。*

3次有理全単射

3次有理全単射は次の形式を取ります:

$$f(x) = x + \frac{p(x)}{q(x)}$$

ここで $p(x) = a_0 + a_1 x + a_2 x^2 + a_3 x^3$ および $q(x) = b_0 + b_1 x + b_2 x^2 + b_3 x^3$ はすべての $x \in \mathbb{R}$ に対して $q(x) > 0$ を満たす3次多項式です(係数の指数パラメータ化により強制)。

  • 可逆性:* 逆関数は $f(f^{-1}(y)) = y$ を満たし、これは次の方程式を解くことに帰着されます:

$$\frac{p(f^{-1}(y))}{q(f^{-1}(y))} = y - f^{-1}(y)$$

これは $f^{-1}(y)$ に関する3次多項式方程式であり、カルダノの公式により閉形式で解けます。数値反復は不要です。

  • 滑らかさ:* ヤコビアンは:

$$f’(x) = 1 + \frac{p’(x)q(x) - p(x)q’(x)}{q(x)^2}$$

$p, q, p’, q’$ は多項式であり、$q(x) > 0$ がすべての点で成り立つため、$f’(x)$ は $\mathbb{R}$ 上に特異点を持たない有理関数です。$f’(x) > 0$ を制約することで(指数パラメータ化により)、$f$ は大域的に単調かつ $C^\infty$ です。

  • 表現力:* 分子と分母のパラメータは変換の大きさと形状を独立に制御します。