拡散モデル

機械学習分野における拡散モデル（かくさんモデル、英:diffusion model）は潜在変数モデルの一種で、拡散確率モデル（かくさんかくりつモデル）とも呼ばれる。これは変分ベイズ法を用いて訓練されたマルコフ連鎖である^[1]。拡散モデルの目標とするところは、データの各点が潜在空間上で拡散していく振る舞いをモデル化することで、データ集合のもつ潜在構造を学習することにある。コンピュータビジョンの分野では、これはガウス雑音によってぼやけた画像から雑音を除去するために、拡散過程を反転させる学習を通じて訓練されたニューラルネットワークに相当する^[2]^[3]。コンピュータビジョンで用いられる一般的な拡散モデルの枠組みを表現する3つの例が、拡散モデルの雑音除去、ノイズ条件付きスコアネットワーク、そして確率微分方程式である^[4]。

拡散モデルは非平衡熱力学を動機として、2015年に導入された^[5]^[6]。

拡散モデルは画像の雑音除去、修復、超解像、画像生成、データ圧縮など様々な操作に応用できる。例えば画像生成モデルはランダムノイズの画像を初期値とし、自然画像の拡散過程を逆向きに学習することによって、新たな自然画像を生成することが可能となる。2022年4月13日に公開されたOpenAIの文章画像生成モデルDALL-E 2は最近の例である。DALL-E 2は拡散モデルを、画像生成モデルの事前分布と最終的な画像生成のデコーダの両方に用いている^[7]^[8]。拡散モデルを利用したデータ圧縮には符号化が不要と言った利点があり、従来の最高性能の圧縮手法に比べても性能が高い^[8]。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]