
Googleは、低解像度画像の品質を向上させるために、新しいAIベースの拡散モデルを導入しました。 2つの新しい拡散モデル(画像超解像(SR3)とカスケード拡散モデル(CDM))は、AIを使用して忠実度の高い画像を生成できます。これらのモデルには、古い家族の肖像画の復元や医用画像システムの改善から、画像の分類やセグメンテーションなどのダウンストリームモデルのパフォーマンスの向上まで、さまざまな用途があります。たとえば、SR3モデルは、人間の評価において、低解像度の画像を、生成的敵対的ネットワーク(GAN)などの現在の深い生成モデルを超える詳細な高解像度の画像結果に変換するようにトレーニングされています。
GoogleResearchのBrainTeamの研究者は、SR3とCDMの両方の拡散モデルについて詳しく説明した投稿をGoogleのAIブログに公開しています。 SR3は、低解像度の画像を入力として受け取り、純粋なノイズから対応する高解像度の画像を構築する超解像拡散モデルであると言われています。モデルは、純粋なノイズのみが残るまで高解像度画像にノイズを追加する画像破損プロセスでトレーニングされます。次に、SR3モデルは、「純粋なノイズから始まり、徐々にノイズを除去して、入力された低解像度画像のガイダンスを通じてターゲット分布に到達する」プロセスを逆にします。
Googleは、SR3を使用して64x64ピクセルの解像度の画像を1,024x1,024ピクセルの解像度の写真に拡大縮小する方法のいくつかの印象的な例を共有しました。特に顔や自然の画像の1,024x1,024ピクセルの解像度出力の最終結果は非常に印象的です。技術の巨人は、SR3は、4倍から8倍の高解像度にスケーリングすると、顔と自然の画像の超解像タスクで強力なベンチマーク結果を達成できると述べています。