滑らかで解釈可能な正規化フローのための解析的全単射
正規化フローにおける可逆性の課題
正規化フローは、可逆変換の合成 $T = f_n \circ f_{n-1} \circ \cdots \circ f_1$ を通じて扱いやすい密度推定を可能にします。ここで、対数尤度は次のように分解されます:
$$\log p(x) = \log p_0(z) - \sum_{i=1}^{n} \log \left| \det \frac{\partial f_i}{\partial z_{i-1}} \right|$$
(Rezende & Mohamed, 2015; Papamakarios et al., 2021)。スカラー全単射 $f: \mathbb{R} \to \mathbb{R}$ はこれらのフローの基礎を形成しますが、未解決のトリレンマに直面しています:表現力(複雑な多峰性分布をモデル化する能力)、滑らかさ(勾配ベースの訓練を安定させる連続微分)、解析的可逆性(計算可能なヤコビアンを持つ閉形式の逆関数)を同時に達成することです。
-
現在の手法はこの制約を同時に満たすことができません:*
-
アフィン変換 ($f(x) = ax + b$, $a > 0$) は解析的に可逆で大域的に滑らかですが、表現力に欠けます。単純な位置-スケール変換を超えた多峰性や裾の重い挙動を捉えることができません。
-
単調スプライン (Durkan et al., 2019; Huang et al., 2021) は区分的多項式制御を通じて局所的な表現力を達成しますが、ノット境界での大域的滑らかさを犠牲にし、定義域を有界区間 $[x_{\min}, x_{\max}]$ に制限し、フロー合成を通じて伝播する不連続な二階微分を生成します。
-
残差フロー (Behrmann et al., 2019) は制約のない $g$ を用いた $f(x) = x + g(x)$ により大域的滑らかさを達成しますが、反転のために反復数値ソルバー(不動点反復またはニュートン-ラフソン法)を必要とし、計算遅延、ソルバー許容誤差の調整、逆関数を通じた逆伝播中の潜在的な不安定性をもたらします。
これは実務者にとって実用的なボトルネックを生み出します。残差フローにおける数値反転は遅延の変動(通常、サンプルあたり5-10回のソルバー反復)をもたらし、精度と速度のバランスを取るための慎重な許容誤差調整を必要とします。区分的滑らかスプラインはノット境界でアーティファクトを生成し、層の合成を通じて複合化します。アフィン層は、より安価な行列乗算で置き換えられる操作にモデル容量を浪費し、実効的なフロー深度を減少させます。
- 本番システムではギャップが広がります:* 高次元密度推定、複雑な事後分布を持つ変分推論、生成モデリングはすべて、(1) 数値ソルバーを排除する閉形式の逆関数、(2) $\mathbb{R}$ 全体で安定した勾配を可能にする大域的 $C^\infty$ 滑らかさ、(3) 全単射あたり $O(1)$ パラメータで非アフィン構造を捉える十分な表現力を同時に提供する全単射を必要とします。

- 図2:正規化フローのトリレンマ - 既存手法の限界を示す3軸比較*

- 図1:正規化フロー(Normalizing Flows)の概念図 - 複数の可逆変換による段階的なデータ変換プロセス*
解析的全単射の3つのファミリー
私たちはトリレンマを打破する3つの全単射ファミリーを導入します。すべて大域的に滑らかで、$\mathbb{R}$ 上で定義され、閉形式で解析的に可逆であり、構成により単調です。

- 図5:Cubic Rational Bijectionの構造 - 多項式構成から逆関数計算およびヤコビアン検証フロー*

- 図4:3つの解析的双射族 - トリレンマを解決する新しいアプローチ。Cubic Rational、Exponential Rational、Polynomial Bijections の3つの族が、表現力、滑らかさ、解析的可逆性の相互制約を同時に克服する様子を視覚化。*
3次有理全単射
3次有理全単射は次の形式を取ります:
$$f(x) = x + \frac{p(x)}{q(x)}$$
ここで $p(x) = a_0 + a_1 x + a_2 x^2 + a_3 x^3$ および $q(x) = b_0 + b_1 x + b_2 x^2 + b_3 x^3$ はすべての $x \in \mathbb{R}$ に対して $q(x) > 0$ を満たす3次多項式です(係数の指数パラメータ化により強制)。
- 可逆性:* 逆関数は $f(f^{-1}(y)) = y$ を満たし、これは次の方程式を解くことに帰着されます:
$$\frac{p(f^{-1}(y))}{q(f^{-1}(y))} = y - f^{-1}(y)$$
これは $f^{-1}(y)$ に関する3次多項式方程式であり、カルダノの公式により閉形式で解けます。数値反復は不要です。
- 滑らかさ:* ヤコビアンは:
$$f’(x) = 1 + \frac{p’(x)q(x) - p(x)q’(x)}{q(x)^2}$$
$p, q, p’, q’$ は多項式であり、$q(x) > 0$ がすべての点で成り立つため、$f’(x)$ は $\mathbb{R}$ 上に特異点を持たない有理関数です。$f’(x) > 0$ を制約することで(指数パラメータ化により)、$f$ は大域的に単調かつ $C^\infty$ です。
- 表現力:* 分子と分母のパラメータは変換の大きさと形状を独立に制御します。