297 件の論文すべてを 1 つの記事で読むことができます。中国科学院が「拡散モデルに基づく画像編集」に関する初のレビューの出版を主導

297 件の論文すべてを 1 つの記事で読むことができます。中国科学院が「拡散モデルに基づく画像編集」に関する初のレビューの出版を主導

この記事では、画像編集の最先端の手法を包括的に研究し、技術的なルートに基づいて 3 つの主要なカテゴリと 14 のサブカテゴリに簡潔に分類します。各手法の種類、条件、実行可能なタスクなどの情報は表にまとめられています。

さらに、本論文では、代表的な手法を実験的に評価するための新しいベンチマークと LMM スコア指標を提案し、研究者に便利な学習参照ツールを提供します。 AIGC 大型モデルの研究者や愛好家が読んで、ホットな話題を把握しておくことを強くお勧めします。

論文アドレス: https://arxiv.org/abs/2402.17525

オープンソース プロジェクト: https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods

まとめ

ノイズ除去拡散モデルは、さまざまな画像生成および編集タスクのための強力なツールとして登場し、無条件または入力条件付きの方法で視覚コンテンツを合成するのに役立ちます。

これらのモデルの中心的な考え方は、画像に徐々にノイズを追加するプロセスを逆転させる方法を学習し、複雑な分布から高品質のサンプルを生成することです。

この調査論文では、拡散モデルを使用した画像編集の既存のアプローチについて、この分野の理論的側面と実践的側面の両方を網羅した包括的な概要を示します。私たちは、学習戦略、ユーザーの入力条件、完了できる一連の具体的な編集タスクなど、さまざまな観点からこれらの作品を詳細に分析し、分類します。

さらに、画像のインペインティングとアウトペインティングに特に注目し、初期の伝統的なコンテキスト駆動型手法と現在のマルチモーダル条件付き手法の両方を調査して、包括的な方法論的分析を提供します。

テキストガイドによる画像編集アルゴリズムのパフォーマンスをさらに評価するために、革新的なメトリック LMM スコアを備えたシステム ベンチマーク EditEval を提案します。最後に、現在の限界について説明し、将来の研究の潜在的な方向性を概説します。

拡散モデルに基づく画像編集に関する研究出版物の統計的概要。上: 学習戦略。中央: 条件を入力します。下: 編集タスク。

導入

人工知能を使用してデジタルコンテンツを作成および変更する人工知能生成コンテンツ(AIGC)の分野では、画像編集は革新と実用化の重要な分野と考えられています。

最小限の入力から新しい画像を作成する画像生成とは異なり、画像編集では、微妙な調整から大きな変換まで、画像の外観、構造、またはコンテンツを変更します。

この研究は、さまざまな視覚コンテンツが重要なデジタルメディア、広告、科学研究などの分野の基礎となります。画像編集の進化は、手作業による労働集約的なプロセスから、学習ベースのアルゴリズムによって駆動される高度なデジタル技術へと、デジタル技術の進歩を反映しています。この進化における重要な進歩は、生成的敵対的ネットワーク (GAN) の導入であり、これにより創造的な画像操作の可能性が大幅に高まりました。

近年、拡散モデルの画像編集への応用は大きな関心を集めており、この分野の研究論文数が大幅に増加していることからもそれがわかります。この注目の高まりは、以前の研究と比較して画像編集のパフォーマンスを向上させる拡散モデルの可能性と汎用性を浮き彫りにしています。

この重要な進歩を考慮して、これらの貢献を体系的に検討し、要約する必要があります。ただし、拡散モデルに関する既存のレビュー文献は、ビデオアプリケーションや画像の復元と強化など、他の特定の視覚タスクに焦点を当てています。画像編集について言及している調査は少数ですが、多くの場合、表面的な概要しか提供されておらず、方法の詳細かつ集中的な調査は行われていません。

このギャップを埋めるために、画像編集に焦点を当てた詳細かつ包括的な分析を提供する調査を実施しました。我々は、現場で普及モデルが実装されてきた方法、入力条件、および幅広い編集タスクを詳細に調査します。

この調査では、100 件を超える研究論文を批判的にレビューし、学習戦略に基づいて、トレーニングベースの方法、テスト時の微調整方法、トレーニングと微調整なしの方法という 3 つの主要なカテゴリに分類しました。

各カテゴリはコアテクノロジーに基づいてさらに細分化されており、それぞれセクション 4、5、6 で詳しく説明します。また、テキスト、マスク、参照画像、カテゴリ、レイアウト、ポーズ、スケッチ、セグメンテーション マップ、オーディオ、ドラッグ ポイントなど、これらの方法で使用される 10 種類の入力条件を調査し、さまざまな画像編集シナリオでの拡散モデルの適応性を実証します。

さらに、私たちの調査では、画像編集タスクの新しい分類法を提案し、意味編集、スタイル編集、構造編集の 3 つの大まかなカテゴリに分け、12 の具体的なタイプをカバーしています。図 1 は、学習戦略、入力条件、編集タスクのカテゴリに関する研究の統計分布を直感的に示しています。

さらに、独特な編集方法であるインペインティングとアウトペインティングにも特に注意を払いました。初期の伝統的なアプローチと現在のマルチモーダル条件付き方法の両方を検討し、第 7 章ではそれらの方法論を包括的に分析します。また、セクション 8 で詳しく説明する、テキスト ガイドによる画像編集アルゴリズムを評価するために設計されたベンチマークである EditEval も紹介します。

特に、大規模マルチモーダルモデル (LMM) の高度な視覚言語理解機能を活用することで、効果的な評価指標である LMM スコアが提案されています。最後に、第 9 章では展望として、現在の課題と将来の潜在的な傾向をいくつか示します。

要約すると、この調査は、普及モデルに基づく画像編集研究に関する膨大な文献を体系的に分類し、批判的に評価することを目的としています。私たちの目標は、現在の研究結果を統合するだけでなく、急速に進化するこの分野における将来の研究の方向性を導く包括的なリソースを提供することです。

画像編集の分類

拡散モデルは、画像の生成、復元、強化において大きな進歩を遂げただけでなく、画像編集においても大きな進歩を遂げ、これまで主流であった敵対的生成ネットワーク (GAN) よりも優れた制御性を実現しました。

ゼロから新しい画像を作成することに重点を置く画像生成や、劣化した画像の品質を修復および向上させることを目的とする画像復元および強化とは異なり、画像編集では、オブジェクトの追加、背景の置き換え、テクスチャの変更などのタスクを含め、既存の画像の外観、構造、またはコンテンツを変更します。

この調査では、学習戦略に基づいて画像編集論文を 3 つの主要なグループに分類します。トレーニングベースの方法、テスト時の微調整方法、トレーニングと微調整のない方法であり、それぞれセクション 4、5、6 で詳しく説明します。

さらに、テキスト、マスク、参照画像、カテゴリ、レイアウト、ポーズ、スケッチ、セグメンテーション マップ、オーディオ、ドラッグ ポイントなど、編集プロセスを制御するためにこれらの方法で使用される 10 種類の入力条件を調査します。

さらに、これらの方法で実行できる最も一般的な 12 種類の編集を調査しました。これらは、次の 3 つの大まかなカテゴリに分類されます。

- セマンティック編集:

このカテゴリには、描写されたシーンのストーリー、設定、またはテーマ要素に影響を与える画像の内容と物語の変更が含まれます。このカテゴリ内のタスクには、オブジェクトの追加、オブジェクトの削除、オブジェクトの置き換え、背景の変更、感情表現の変更が含まれます。

- スタイルエディター:

このカテゴリでは、物語の内容を変えずに、画像の視覚的なスタイルと美的要素を強化または変換することに重点を置いています。このカテゴリ内のタスクには、色の変更、テクスチャの変更、全体的なスタイルの変更が含まれ、芸術的なスタイルと現実的なスタイルの両方をカバーします。

- 構造エディター:

このカテゴリには、画像内の要素の空間的な配置、配置、視点、特徴の変化が含まれ、シーン内のオブジェクトの編成とプレゼンテーションに重点が置かれます。このカテゴリ内のタスクには、オブジェクトの移動、オブジェクトのサイズと形状の変更、オブジェクトの動きとポーズの変更、および視点/視点の変更が含まれます。

表1は、調査対象となった論文の多角的な分類を包括的にまとめ、迅速な検索方法を提供しています。

拡散モデルに基づく画像編集手法を複数の観点から包括的に分類します。これらの方法は、カラーレンダリングのためのトレーニング、微調整、トレーニング不要に基づいています。入力条件には、テキスト、カテゴリ、参照画像、セグメンテーション マップ、ポーズ、マスク、レイアウト、スケッチ、ドラッグ ポイント、オーディオが含まれます。実行可能なタスクにチェックを入れます。

拡散モデルに基づく画像編集手法を複数の観点から包括的に分類します。これらの方法は、カラーレンダリングのためのトレーニング、微調整、トレーニング不要に基づいています。入力条件には、テキスト、カテゴリ、参照画像、セグメンテーション マップ、ポーズ、マスク、レイアウト、スケッチ、ドラッグ ポイント、オーディオが含まれます。実行可能なタスクにチェックを入れます。

トレーニングベースの方法

拡散モデルベースの画像編集の分野では、トレーニングベースの方法が大きな注目を集めています。これらの方法は、安定した拡散モデルのトレーニングと効果的なデータ分布モデリングで有名であるだけでなく、さまざまな編集タスクでも確実に機能します。

これらの方法を徹底的に分析するために、図 2 に示すように、適用範囲、トレーニング要件、監督の種類に基づいて 4 つの主要なグループに分類します。

さらに、これらの主要なグループ内で、コアとなる編集アプローチに基づいて方法をさまざまなタイプに分類しました。この分類は、ドメイン固有のアプリケーションからより広範なオープンワールドの用途まで、これらのアプローチの範囲を示しています。

2 つの代表的な CLIP ガイダンス方法 (DiffusionCLIP と Asyrp) を比較するフレームワーク図。 CelebAデータセットのAsyrpからのサンプル画像

画像編集方法を指導するための一般的なフレームワーク。サンプル画像は、InstructPix2Pix、InstructAny2Pix、MagicBrush からのものです。

テスト中に微調整する方法

画像の生成と編集において、テスト時の微調整は精度と制御の重要な前進を意味します。このセクションでは、画像編集機能を強化するためのさまざまな微調整戦略 (図 5 を参照) について説明します。これらの方法は、図 6 に示すように、ノイズ除去モデル全体を微調整することから、特定のレイヤーまたは埋め込みに焦点を当てることまで多岐にわたります。

私たちは、モデル全体を微調整し、特定のパラメータをターゲットにし、テキストベースの埋め込みを最適化する方法を研究しています。さらに、ハイパーネットワークの統合と直接的な画像表現の最適化についても説明します。これらのアプローチを組み合わせることで、画像編集における微調整技術の洗練度と有効性が高まり、幅広い編集ニーズとユーザーの意図に応えることができます。

さまざまな微調整コンポーネントを使用する微調整フレームワーク。サンプル画像はカスタム編集からのものです。

トレーニング不要で微調整可能な方法

画像編集の分野では、トレーニングや微調整を必要としない方法の出発点は、編集プロセス全体を通じてトレーニング (データセット) や微調整 (ソース画像) の形式が不要であるため、高速かつ低コストであることです。

このセクションでは、図 7 と 8 に示すように、変更するコンテンツに応じて 5 つのカテゴリに分類します。彼らは、編集目標を達成するために、普及モデルに固有の原理を巧みに利用しています。

トレーニング不要のアプローチの一般的なフレームワーク。さまざまなセクションで説明されている変更が示されています。 LEDITS++からのサンプル画像

画像のインペインティングとアウトペインティング

画像の完成と拡張は、画像編集のサブタスクと見なされることが多く、異なる目標と課題を伴う独特の位置を占めています。より分かりやすく説明するために、これらを 2 つの主要なタイプに分類します (図 9 を参照)。詳細については、それぞれセクション 7.1 とセクション 7.2 で説明します。

視覚的に比較すると、従来のコンテキスト駆動型の補完 (上段) とマルチモーダル条件付き補完 (下段) の間には大きな違いがあります。上段と下段のサンプルは、それぞれ Palette と Imagen Editor からのものです。

ベンチマーク

前のセクションでは、拡散モデルに基づく画像編集方法の方法論的側面を詳細に検討しました。これらの分析に加えて、さまざまな編集タスクにおけるこれらの方法の機能を検証して評価することが重要です。しかし、既存の画像編集ベンチマークは限られており、調査で特定されたニーズに完全には対応していません。

たとえば、EditBench は主にテキストとマスクによるガイド付きの補完を対象としており、スタイル転送などのグローバル編集を伴うより広範なタスクは無視します。 TedBench はタスクの範囲を拡大しますが、説明ではなくテキストの指示に依存する方法を評価する上で重要な詳細なガイダンスが欠けています。

さらに、EditVal ベンチマークは、タスクとメソッドをより包括的にカバーしようとしていますが、MS-COCO データセットから取得する画像の品質によって制限され、通常は解像度が低くぼやけています。

これらの問題に対処するために、一般的な拡散モデルに基づく画像編集方法を評価するように設計されたベンチマークである EditEval を紹介します。 EditEval には、それぞれテキストキャプションが付いた 50 枚の高品質画像の厳選されたデータセットが含まれています。 EditEval は、表 1 で選択された 7 つの一般的な編集タスクのパフォーマンスを評価します。

さらに、大規模マルチモーダルモデル (LMM) の力を活用してさまざまなタスクでの編集パフォーマンスを評価する定量評価メトリックである LMM スコアを提案します。 LMM スコアによる客観的な評価に加え、主観的な評価も取り入れたユーザー調査も実施しました。 EditEval の構築と適用の詳細については、以下で説明します。

LMM スコアとユーザー調査間のピアソン相関係数。


LMM スコア/CLIPScore とユーザー調査間のピアソン相関係数の比較。

選択した 7 つの編集タイプの視覚的な比較。

課題と今後の方向性

画像編集に拡散モデルを使用することは成功していますが、今後の作業で対処する必要があるいくつかの制限がまだ残っています。

より少ないステップでモデル推論

ほとんどの拡散ベースのモデルでは、最終的な画像を取得するために推論中に多数のステップが必要であり、時間がかかり、計算リソースを大量に消費するため、モデルの展開とユーザー エクスペリエンスに課題が生じます。推論効率を向上させるために、ステップ数が少ない拡散モデルや1ステップ生成モデルが研究されてきました。

最近のアプローチでは、事前にトレーニングされた強力な拡散モデルから知識を抽出することでステップ数を削減し、少数ステップのモデルが強力なモデルの動作を模倣できるようにします。より興味深いがより困難な方向性は、一貫性モデルなどの事前トレーニング済みモデルに依存せずに、数ステップのモデルを直接開発することです。

効率的なモデル

現実的な結果を生成する拡散モデルのトレーニングには大量の計算が必要であり、大量の高品質データが必要です。この複雑さにより、画像編集用の拡散モデルの開発は非常に困難になります。トレーニングコストを削減するために、最近の研究では、拡散モデルのバックボーンとしてより効率的なネットワークアーキテクチャが設計されています。

さらに、もう 1 つの重要な方向性として、パラメータの一部だけをトレーニングするか、元のパラメータを固定して、事前トレーニング済みの拡散モデルの上にいくつかの新しいレイヤーを追加することが挙げられます。

複雑なオブジェクト構造の編集

既存の作業では、画像を編集するときにリアルな色、スタイル、またはテクスチャを合成できます。ただし、指、標識、シーンのテキストなどの複雑な構造を扱う場合、依然として目立つアーティファクトが生成されます。これらの問題に対処するための試みがなされてきました。

従来の方法では、通常、「6本の指、悪い足など」などの否定的な手がかりを使用して、モデルがそのような画像を生成するのを回避していましたが、これは場合によっては効果的でしたが、十分に堅牢ではありませんでした。最近の研究では、レイアウト、エッジ、または密なラベルを、画像のグローバルまたはローカル構造を編集するためのガイドとして使用するようになりました。

複雑な照明と影の編集

オブジェクトの照明や影を編集することは依然として課題であり、シーン内の照明条件を正確に推定する必要があります。 Total Relighting[21]などの以前の研究では、ネットワークの組み合わせを使用して、前景オブジェクトの法線、アルベド、および影を推定し、現実的な再照明結果を実現しました。

最近、顔の照明を編集するための拡散ベースのモデルが提案されました (DiFaReli)。ただし、事前トレーニング済みの拡散モデルの強力な照明事前確率を活用して、ポートレートや一般的なオブジェクトの照明を編集することは、まだ未解決の領域です。

同様に、ShadowDiffusion は、視覚的に美しいオブジェクトの影を生成できる拡散ベースの影合成を研究しています。しかし、拡散モデルを使用してさまざまな背景条件下でのオブジェクトの影を正確に編集することは、未解決の問題のままです。

画像編集の堅牢性の欠如

既存の拡散ベースの画像編集モデルは、与えられた一連の条件に対してリアルな視覚コンテンツを合成することができます。しかし、現実世界の多くのシナリオでは依然として失敗しています。この問題の根本的な原因は、モデルが条件付き分布空間内のすべての可能なサンプルを正確にモデル化できないことです。

常に完璧なコンテンツを生成するためにモデルをどのように改善するかは、依然として課題です。この問題を解決する方法はいくつかあります。

まず、モデルトレーニングのデータ規模を拡大して、困難なシナリオをカバーします。これは効果的ですが、コストのかかる方法です。

場合によっては、医療画像や目視検査データなど、十分な量のデータを収集することさえ困難な場合があります。

次に、構造ガイダンス、3D 認識ガイダンス、テキスト ガイダンスなどのより多くの条件を受け入れるようにモデルを調整し、より制御可能で決定論的なコンテンツ作成を実現します。

3 番目に、反復的な改良または多段階のトレーニングを採用して、モデルの初期結果を徐々に改善します。

忠実な評価指標

画像編集が特定の条件に適切に適合していることを確認するには、画像編集を正確に評価することが重要です。しかし、FID、KID、LPIPS、CLIP スコア、PSNR、SSIM などの定量的な指標がこのタスクの基準として使用されているものの、既存の研究のほとんどは、視覚的な結果に対する比較的正確な知覚評価を提供するために依然としてユーザー スタディに大きく依存しており、効率的でもスケーラブルでもありません。

忠実な定量的評価指標は未解決の問題のままです。最近、物体の知覚的類似性を定量化するための、より正確な測定基準が提案されています。

DreamSim は、レイアウト、ポーズ、セマンティック コンテンツを考慮して 2 つの画像間の中レベルの類似性を測定し、LPIPS よりも優れたパフォーマンスを発揮します。

同様に、前景特徴平均 (FFA) は、ポーズ、視点、照明条件、背景が異なる場合でも、オブジェクトの類似性を測定するためのシンプルかつ効果的な方法を提供します。本稿では、LMM を利用して実装される効果的な画像編集メトリック LMM スコアも提案します。

要約する

我々は、拡散モデルに基づく画像編集手法を広範囲にレビューし、この分野をさまざまな観点から検討します。

私たちの分析では、まず、学習戦略に基づいて 100 を超える手法を、トレーニング ベース、テスト時の微調整、トレーニングや微調整を行わない手法の 3 つの主要グループに分類します。

次に、画像編集タスクを、意味編集、スタイル編集、構造編集の 3 つの独自のカテゴリに分類します。これらのカテゴリには、合計 12 の特定のタイプが含まれます。

これらの方法と、編集パフォーマンスの向上への貢献について検討します。当社の画像編集ベンチマーク EditEval では、最新の最先端の方法に沿って 7 つのタスクが評価されます。

さらに、これらの方法を比較分析するために、新しいメトリックである LMM スコアが導入されました。私たちのレビューでは、画像編集分野における幅広い可能性を強調し、将来の研究の方向性を提案します。

<<: 

>>:  データセンター管理者は AI と ML の爆発的な増加にどのように備えればよいのでしょうか?

ブログ    

推薦する

人工知能は人類に潜在的に壊滅的なリスクをもたらす

11月1日、米国、英国、中国を含む28か国がブレッチリーで開催された第1回世界人工知能(AI)セキュ...

2020年、アルゴリズムの話題が主流になる年

[[397576]]システムに閉じ込められた配達員から人々が飽きることのないソーシャルメディアまで、...

AIの次の波に乗る:リスクを減らしながら成功する

近年、人工知能(AI)はビジネスや業界でますます注目を集めています。企業が AI を使用する方法も、...

上位 10 の古典的なソート アルゴリズムの詳細な説明: シェル ソート、マージ ソート、クイック ソート

[[378304]]上位 10 の古典的なソート アルゴリズム - シェル ソート、マージ ソート、...

Google翻訳では対応できない?ドイツ語ハードコア翻訳DeepL体験

[[321121]]インターネットを頻繁に利用する人のほとんどは、お気に入りの翻訳ツールを持っていま...

...

...

AIのブラックボックス問題をどう解決するか?ニューラルネットワークモデルアルゴリズムが答えを導きます

AIが特定のタスクを完了することは目新しいことではありません。結局のところ、AIは産業、医療、農業な...

大規模なモデルでプロンプト内のより多くの例を学習させたい場合は、この方法を使用すると、より多くの文字を入力できます。

GPT や LLaMA などの大規模な言語モデルを使用する場合、入力プロンプトに文字数制限があるこ...

人工知能に対する2つのアプローチの戦い

[[248047]] (AIの2つのルート)ホフスタッターは1995年に予測した。 (人工知能におい...

アイウェア市場は1000億円規模を超えるか? 3Dプリントで「顔のカスタマイズ」を実現

私たちの日常生活には、近視用メガネ、サングラス、サングラス、遠視用メガネ、ゴーグルなど、視力矯正、視...

インターネット業界における顔認識機能の認知に関する調査報告書

[51CTO.comからのオリジナル記事] 高速かつ高性能なコンピュータの登場により、顔画像技術は大...

天津市が顔認証訴訟で勝利、コミュニティが顔認証を唯一のアクセス手段として使用することは違法と判断

天津の不動産管理会社は、コミュニティへの出入りの唯一の方法として顔認証を使用していたとして住民から訴...