清華大学と快手は、手動注釈なしで単一の参照画像に基づいて画像品質評価方法を生成しました。

清華大学と快手は、手動注釈なしで単一の参照画像に基づいて画像品質評価方法を生成しました。

導入

生成画像の評価に関する既存の研究では、主に生成された画像の分布に基づいてモデルの「全体的な」生成効果を評価しています。ただし、優れたパフォーマンスを持つ生成モデルは、それが合成する「あらゆる」画像に高品質の効果をもたらすことを意味するわけではありません。ユーザーがアップロードした風景写真を指定されたスタイルにレンダリングするなど、参照画像ベースの生成タスクでは、生成された「単一の」画像の品質を評価できることが、ユーザー エクスペリエンスを向上させるために重要です。

この研究では、参照画像に基づいて生成された単一の画像品質評価方法である参照ガイド付き画像合成評価 (RISA) を提案しました。

RISA の貢献と革新は次のように要約できます。

  • RISA のトレーニング画像は、GAN トレーニング プロセスの中間モデルによって生成された画像から取得されます。画像の品質ラベルは、モデルの反復回数によって決まります。手動でラベルを付ける必要はなく、理論的にはトレーニングに使用できるデータに上限はありません。
  • モデルの反復回数はラベルとして十分な精度ではないため、ピクセル単位の補間と複数のバイナリ分類器を使用してトレーニングの安定性を高めます。
  • 参照画像と生成された画像間のスタイルの類似性を学習するために、教師なしの対照学習損失が導入されています。


論文リンク: https://arxiv.org/pdf/2112.04163.pdf

実装戦略

RISA の全体的なフレームワークは非常にシンプルです。参照画像と生成された画像は、パラメータ共有スタイルの抽出器に渡され、対応する特徴ベクトルを取得します。次に、2 つの特徴ベクトル間の L1 距離を計算し、複数のバイナリ分類器に入力して予測ベクトルを取得します。最後に、予測ベクトルの要素を平均して、最終的な品質スコアを取得します。

RISA のトレーニング データは、GAN トレーニング プロセスにおける一連の中間モデルによって生成された画像から取得されます。下図に示す性別変換タスクを例にとると、GAN トレーニングの初期段階では、トレーニングの反復回数が増えるにつれて、生成された画像の品質が大幅に向上し、トレーニングの後期段階では、モデルによって生成された画像の品質が安定する傾向があることがわかります。

この論文では、中間モデルによって生成された一連の画像を RISA トレーニング データとして使用し、これらの画像のサンプル ラベルは、対応するモデルのトレーニング反復回数によって取得されます。しかし、生成された画像の品質はトレーニングの後期段階では大きく変化しないため、明らかにこの種の注釈はトレーニングの後期段階のモデルには適していません。トレーニングデータをRISAトレーニングに適したものにするために、本論文では、ピクセル単位の補間、つまり画像空間での線形補間の手法を採用し、トレーニングの後期段階での画質の変化を推定します。

下の図に示すように、理想的には、GAN のトレーニング ラウンド数の増加に伴って、生成された画像は単調に向上しますが、実際には、単純なタスクの場合、トレーニングの後期段階で生成された画像の品質はほとんど変化しません。一方、難しいタスクの場合、トレーニングの後期段階で生成された画像の品質は、トレーニング ラウンド数の増加に伴って振動的に向上する傾向を示します。そこで本論文では、FID曲線の変化のエルボーポイントをGANトレーニングの初期段階と後期段階の境界として選択する。トレーニングの初期段階では、中間モデルを直接サンプリングして画像を生成し、反復回数を画像品質ラベルとして使用する。トレーニングの後期段階では、最初の2つのモデルと最後の2つのモデルを選択して、明らかな品質の違いがある画像を生成し、その後、画像を線形補間して中間品質の一連の画像を取得する。

補間された画像のデモが次のアニメーション図に示されています。図に示されているイプシロンは、2 つの画像を融合するときの重みを表します。

画像空間での補間に加えて、RISA トレーニングの安定性を確保するために、RISA の予測では、単純な回帰器の出力フィッティング値の代わりに、複数のバイナリ分類器の平均出力を使用します。最初のバイナリ分類器は、現在生成された画像の品質が特定のしきい値よりも高い確率を予測するために使用されます。実験では、品質評価を回帰問題から分類問題に変換すると、RISA のパフォーマンスが大幅に向上することが示されています。

損失関数の設計では、次の 3 つの側面が考慮されます。1) 入力参照画像と生成画像のペアおよび対応する品質ラベルを適合させるために使用される弱い監督損失。2) 参照画像と生成画像間のスタイルの類似性を捕捉するために使用される監督なし対照学習損失。3) 実際の画像から 2 つの強化画像のスタイルの一貫性を学習するために使用される上限損失。

上限損失はスタイル情報と全く同じであり、RISAに入力した予測結果は最高の品質スコア1に対応するはずです。

対照学習損失では、まず、画像スタイル情報を破壊せずに、つまり画像のスケーリング、トリミング、反転のみを含めて、2 つの異なるデータ拡張画像と参照画像を作成することを検討します。生成された画像と参照画像は正のサンプルペアを構成し、対照学習損失により予測出力が近づきます。同じ入力サンプルバッチでは、対応する参照画像と対応しない参照画像は負のサンプルペアを構成し、対照学習損失により予測出力が広がります。

実験結果

この論文では、4 つの生成モデルに基づいて、5 つのデータセットで生成された画像に対して複数の RISA モデルをトレーニングします。まず、視覚化の観点から、下の図は、RISA が低品質から高品質まで対応する品質評価スコアを与えることができることを示しています。

次に、定量的指標の観点から、本論文では、RISA の評価結果が人々の主観的な感情と非常によく一致していることを示すために、広範な手動評価テストを実施します。具体的には、各タスクに対して、1 つの参照画像と 2 つの生成画像を含む数千のトリプレット サンプルが選択されました。生成された 2 つの画像は、2 つの異なるトレーニング段階での同じアーキテクチャ モデルの中間モデルから取得される場合もあれば、異なるアーキテクチャを持つ 2 つの完全に収束したモデルから取得される場合もあります。テスターは品質の良いものを選ぶように求められました。最後に、各タスクについて、各サンプル グループに少なくとも 3 人のテスターが評価に参加するようにし、一貫した評価を示したすべてのサンプルを保持して、RISA の評価と人々の主観的な感情の一貫性を評価しました。

次の表は、RISA のトレーニング データとテスト データの両方が同じアーキテクチャのモデルによって生成された場合に対応しています。 RISA の評価構造は、人々の主観的な感覚との整合性が高く、参照の有無にかかわらず、既存の主流の単一画像品質評価方法よりも優れていることがわかります。

次の表は、RISA のトレーニング データとテスト データの両方が異なるアーキテクチャのモデルによって生成された場合に対応しています。表の結果は、RISA が異なるモデル間で移行する能力に優れていることをさらに示しています。

したがって、トリプレットの RISA と各データセットの最適なベースライン メソッドの視覚的な比較を提供します。 RISA は、生成された画像のリアリティを考慮しながら、生成された画像と参照画像間のスタイルの類似性のレベルを評価できることがわかります。

最後に、研究者らは、RISA による複数のバイナリ分類器、ピクセル単位の補間、およびその各損失項の導入の重要性を示すために、2 セットのアブレーション実験を実施しました。

<<:  「検索」は終わり、「レコメンド」も終わるのか?

>>:  スマートレコメンデーションの根底にあるロジックを理解するための4つのステップ

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

専門家の洞察: AI を活用して配送をスピードアップする方法

毎分250人の赤ちゃんが生まれ、世界では4回の地震が発生し、シンガポール港では1,000トンを超える...

2 回のセッションの後、Ovio は次のように分析します: 私たちは人工知能の時代を迎えましたが、それは良い面と悪い面の両方があります。

2回の会期は3月20日に終了した。今年の全国人民代表大会では、政府活動報告に「人工知能」が再び記載...

...

Java ソートアルゴリズムの概要 (II): 選択ソート

選択ソートの基本的な操作は、ソートするデータ要素から毎回最小(または最大)の要素を選択し、ソートする...

OpenAI が静かに「価値観」を変更: AGI に全力で取り組んでいないなら関与しないでください

OpenAI はひっそりとその中核となる価値観を変えました。公式ウェブサイトに掲載されている6つのコ...

機械学習における小規模データの重要性

ビッグデータが何であるかを知っている人は多いですが、スモールデータと機械学習におけるその重要性を知っ...

英国は「国家AI研究リソース」としてGPUを購入するために1億3000万ドルを費やす計画だと報じられている。

8月21日、英国のリシ・スナック首相は、世界的なコンピューティング能力の競争に追いつくために、1億...

機械学習エンジニアとデータサイエンティストの戦い

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

AIアルゴリズムから製品実装までの8つのギャップを数える

今日、人工知能技術は急速に発展し続けており、画像認識、音声認識、意味理解など多くの特定の分野で人間の...

ドローン時代の到来により、人工知能航空機が有人戦闘機に取って代わり、パイロットは失業することになるのでしょうか?

まず、ドローンはソレイマニの暗殺に使用され、その後、アルメニアとアゼルバイジャンの戦場でドローンが活...

AI バイアスは、偏見のない視点を必要とする未解決の問題でしょうか?

[[418851]] [51CTO.com クイック翻訳]非常に複雑な技術的アプリケーションで A...

...

Salesforce が AI 人材を見つけ、スキルを向上させる方法

[[415289]] AI、機械学習、データサイエンスに関連するスキルの需要は依然として高く、企業は...