清華大学と快手は、手動注釈なしで単一の参照画像に基づいて画像品質評価方法を生成しました。

清華大学と快手は、手動注釈なしで単一の参照画像に基づいて画像品質評価方法を生成しました。

導入

生成画像の評価に関する既存の研究では、主に生成された画像の分布に基づいてモデルの「全体的な」生成効果を評価しています。ただし、優れたパフォーマンスを持つ生成モデルは、それが合成する「あらゆる」画像に高品質の効果をもたらすことを意味するわけではありません。ユーザーがアップロードした風景写真を指定されたスタイルにレンダリングするなど、参照画像ベースの生成タスクでは、生成された「単一の」画像の品質を評価できることが、ユーザー エクスペリエンスを向上させるために重要です。

この研究では、参照画像に基づいて生成された単一の画像品質評価方法である参照ガイド付き画像合成評価 (RISA) を提案しました。

RISA の貢献と革新は次のように要約できます。

  • RISA のトレーニング画像は、GAN トレーニング プロセスの中間モデルによって生成された画像から取得されます。画像の品質ラベルは、モデルの反復回数によって決まります。手動でラベルを付ける必要はなく、理論的にはトレーニングに使用できるデータに上限はありません。
  • モデルの反復回数はラベルとして十分な精度ではないため、ピクセル単位の補間と複数のバイナリ分類器を使用してトレーニングの安定性を高めます。
  • 参照画像と生成された画像間のスタイルの類似性を学習するために、教師なしの対照学習損失が導入されています。


論文リンク: https://arxiv.org/pdf/2112.04163.pdf

実装戦略

RISA の全体的なフレームワークは非常にシンプルです。参照画像と生成された画像は、パラメータ共有スタイルの抽出器に渡され、対応する特徴ベクトルを取得します。次に、2 つの特徴ベクトル間の L1 距離を計算し、複数のバイナリ分類器に入力して予測ベクトルを取得します。最後に、予測ベクトルの要素を平均して、最終的な品質スコアを取得します。

RISA のトレーニング データは、GAN トレーニング プロセスにおける一連の中間モデルによって生成された画像から取得されます。下図に示す性別変換タスクを例にとると、GAN トレーニングの初期段階では、トレーニングの反復回数が増えるにつれて、生成された画像の品質が大幅に向上し、トレーニングの後期段階では、モデルによって生成された画像の品質が安定する傾向があることがわかります。

この論文では、中間モデルによって生成された一連の画像を RISA トレーニング データとして使用し、これらの画像のサンプル ラベルは、対応するモデルのトレーニング反復回数によって取得されます。しかし、生成された画像の品質はトレーニングの後期段階では大きく変化しないため、明らかにこの種の注釈はトレーニングの後期段階のモデルには適していません。トレーニングデータをRISAトレーニングに適したものにするために、本論文では、ピクセル単位の補間、つまり画像空間での線形補間の手法を採用し、トレーニングの後期段階での画質の変化を推定します。

下の図に示すように、理想的には、GAN のトレーニング ラウンド数の増加に伴って、生成された画像は単調に向上しますが、実際には、単純なタスクの場合、トレーニングの後期段階で生成された画像の品質はほとんど変化しません。一方、難しいタスクの場合、トレーニングの後期段階で生成された画像の品質は、トレーニング ラウンド数の増加に伴って振動的に向上する傾向を示します。そこで本論文では、FID曲線の変化のエルボーポイントをGANトレーニングの初期段階と後期段階の境界として選択する。トレーニングの初期段階では、中間モデルを直接サンプリングして画像を生成し、反復回数を画像品質ラベルとして使用する。トレーニングの後期段階では、最初の2つのモデルと最後の2つのモデルを選択して、明らかな品質の違いがある画像を生成し、その後、画像を線形補間して中間品質の一連の画像を取得する。

補間された画像のデモが次のアニメーション図に示されています。図に示されているイプシロンは、2 つの画像を融合するときの重みを表します。

画像空間での補間に加えて、RISA トレーニングの安定性を確保するために、RISA の予測では、単純な回帰器の出力フィッティング値の代わりに、複数のバイナリ分類器の平均出力を使用します。最初のバイナリ分類器は、現在生成された画像の品質が特定のしきい値よりも高い確率を予測するために使用されます。実験では、品質評価を回帰問題から分類問題に変換すると、RISA のパフォーマンスが大幅に向上することが示されています。

損失関数の設計では、次の 3 つの側面が考慮されます。1) 入力参照画像と生成画像のペアおよび対応する品質ラベルを適合させるために使用される弱い監督損失。2) 参照画像と生成画像間のスタイルの類似性を捕捉するために使用される監督なし対照学習損失。3) 実際の画像から 2 つの強化画像のスタイルの一貫性を学習するために使用される上限損失。

上限損失はスタイル情報と全く同じであり、RISAに入力した予測結果は最高の品質スコア1に対応するはずです。

対照学習損失では、まず、画像スタイル情報を破壊せずに、つまり画像のスケーリング、トリミング、反転のみを含めて、2 つの異なるデータ拡張画像と参照画像を作成することを検討します。生成された画像と参照画像は正のサンプルペアを構成し、対照学習損失により予測出力が近づきます。同じ入力サンプルバッチでは、対応する参照画像と対応しない参照画像は負のサンプルペアを構成し、対照学習損失により予測出力が広がります。

実験結果

この論文では、4 つの生成モデルに基づいて、5 つのデータセットで生成された画像に対して複数の RISA モデルをトレーニングします。まず、視覚化の観点から、下の図は、RISA が低品質から高品質まで対応する品質評価スコアを与えることができることを示しています。

次に、定量的指標の観点から、本論文では、RISA の評価結果が人々の主観的な感情と非常によく一致していることを示すために、広範な手動評価テストを実施します。具体的には、各タスクに対して、1 つの参照画像と 2 つの生成画像を含む数千のトリプレット サンプルが選択されました。生成された 2 つの画像は、2 つの異なるトレーニング段階での同じアーキテクチャ モデルの中間モデルから取得される場合もあれば、異なるアーキテクチャを持つ 2 つの完全に収束したモデルから取得される場合もあります。テスターは品質の良いものを選ぶように求められました。最後に、各タスクについて、各サンプル グループに少なくとも 3 人のテスターが評価に参加するようにし、一貫した評価を示したすべてのサンプルを保持して、RISA の評価と人々の主観的な感情の一貫性を評価しました。

次の表は、RISA のトレーニング データとテスト データの両方が同じアーキテクチャのモデルによって生成された場合に対応しています。 RISA の評価構造は、人々の主観的な感覚との整合性が高く、参照の有無にかかわらず、既存の主流の単一画像品質評価方法よりも優れていることがわかります。

次の表は、RISA のトレーニング データとテスト データの両方が異なるアーキテクチャのモデルによって生成された場合に対応しています。表の結果は、RISA が異なるモデル間で移行する能力に優れていることをさらに示しています。

したがって、トリプレットの RISA と各データセットの最適なベースライン メソッドの視覚的な比較を提供します。 RISA は、生成された画像のリアリティを考慮しながら、生成された画像と参照画像間のスタイルの類似性のレベルを評価できることがわかります。

最後に、研究者らは、RISA による複数のバイナリ分類器、ピクセル単位の補間、およびその各損失項の導入の重要性を示すために、2 セットのアブレーション実験を実施しました。

<<:  「検索」は終わり、「レコメンド」も終わるのか?

>>:  スマートレコメンデーションの根底にあるロジックを理解するための4つのステップ

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ChatGPT を使用すると、わずか 3 時間で高品質の論文を書くことができます。

1. 論文のテーマと研究の方向性を決定するディスカッションと詳細化: ChatGPT で論文のトピ...

...

GoogleはコードネームGenesisと呼ばれるAIニュースライティング製品をテストしていると報じられている。

ニューヨーク・タイムズ紙は7月20日、3つの情報源を引用して、グーグルがAI技術を使ってニュース記事...

自己教師あり学習:AI技術の将来の方向性

ディープラーニングは人工知能の分野に多大な貢献をしてきましたが、その技術自体には依然として致命的な欠...

ICRA 2022 優秀論文: 自動運転用 2D 画像を鳥瞰図に変換し、モデル認識精度を 15% 向上

自動運転における多くのタスクは、トップダウン、マップ、または鳥瞰図 (BEV) の観点から見ると、よ...

人気のワールドモデルとは何ですか? DriveDreamer: 実世界初の自動運転世界モデル

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

グラフィカルな説明 | RSAアルゴリズムとは

[[339878]]この記事はWeChatパブリックアカウント「Backend Technology...

GPT をゼロから構築するための 60 行のコード!最も完全な実践ガイドはここにあります

GPT をゼロから構築するには 60 行のコードが必要ですか?最近、開発者が Numpy コードを使...

GPTは「贅沢」すぎるが、代替案が多数用意されており、展開の問題を心配する必要はもうない

近年、生成的事前トレーニング済みモデル (GPT など) の台頭により、自然言語処理の分野に革命が起...

10の古典的なソートアルゴリズム

[[432257]]ソースコードはこちら GitHub: https://github.com/na...

欧州のAI法案がまもなく導入され、世界の技術規制に影響を及ぼす可能性がある

AI法案は、AIの開発方法、企業がAIを使ってできること、要件に従わなかった場合の法的結果など、A...

...

いいえ!機械学習は単なる美化された統計ではありません。

ビッグデータダイジェスト制作編集者: JIN、Hope、Jiang Baoshangタイトル画像のパ...

AI業界で働く人々はどうすれば失業を回避できるのでしょうか?

「人工知能によって人間が失業したわけではない。人工知能に携わる人々が先に失業したのだ」これはもとも...