現実は素晴らしい、Googleとコーネル大学が提案した実画像補完技術RealFill

現実は素晴らしい、Googleとコーネル大学が提案した実画像補完技術RealFill

休暇で旅行するときは、写真を撮ることが必須です。しかし、景勝地で撮影した写真の多くは、背景に何かが写りすぎたり、何かが欠けたりして、多少なりとも残念な結果になっています。

「完璧な」画像を得ることは、CV 研究者が長い間目指してきた目標の 1 つです。最近、Google Research とコーネル大学の研究者が協力して、「本物の画像補完」技術、つまり画像補完のための生成モデルである RealFill を提案しました。

RealFill モデルの利点は、少数のシーン参照画像を使用してパーソナライズできることです。これらのシーン参照画像は、ターゲット画像と揃える必要がなく、視点、照明条件、カメラの絞り、画像スタイルなどが大きく異なる場合もあります。パーソナライズされると、RealFill は元のシーンに忠実な方法で視覚的に魅力的なコンテンツを使用してターゲット画像を完成させます。


  • 論文リンク: https://arxiv.org/abs/2309.16668
  • プロジェクトページ: https://realfill.github.io/

インペインティング モデルとアウトペインティング モデルは、画像の未知の領域に高品質で妥当な画像コンテンツを生成できる手法ですが、これらのモデルには実際のシーンに関するコンテキスト情報が欠けているため、生成されるコンテンツは必然的に非現実的になります。対照的に、RealFill はそこに「あるべき」コンテンツを生成できるため、画像完成の結果がよりリアルになります。

著者らは論文の中で、新しい画像補完問題「Authentic Image Completion」を定義したと指摘した。従来の生成画像修復(置き換えられた欠落領域の内容が元のシーンと一致しない可能性がある)とは異なり、実画像補完の目標は、補完された内容を元のシーンにできるだけ忠実にし、「そこに存在するかもしれない」内容ではなく「そこに存在するはず」の内容で対象画像を補完することです。

著者らは、RealFill はプロセスにさらに多くの条件 (つまり参照画像の追加) を追加することで、生成画像修復モデルの表現力を拡張する最初の方法であると述べています。

多様で難しいシーンを網羅した新しい画像完成ベンチマークにおいて、RealFill は既存の方法を大幅に上回ります。

方法

RealFill の目的は、可能な限りリアルさを維持しながら、少数の参照画像を使用して、特定のターゲット画像の欠落部分を埋めることです。具体的には、最大 5 枚の参照画像と、ほぼ同じシーンをキャプチャしたターゲット画像 (ただし、レイアウトや外観は異なる場合があります) が提供されます。

研究者はまず、特定のシーンに対して、参照画像とターゲット画像上で事前トレーニング済みのインペインティング拡散モデルを微調整して、パーソナライズされた生成モデルを作成します。この微調整プロセスは、微調整されたモデルが良好な画像事前分布を維持するだけでなく、入力画像内のシーンの内容、照明、スタイルを学習するように設計されています。この微調整されたモデルは、標準的な拡散サンプリング プロセスを介して、ターゲット イメージ内の欠落領域を埋めるために使用されます。

実際のアプリケーションの価値のために、モデルは、ターゲット画像と参照画像の視点、環境条件、カメラの絞り、画像スタイルが大きく異なる場合や、移動するオブジェクトが含まれる場合もある、より困難で制約のない状況に特別な注意を払っていることに注目すべきです。

実験結果

RealFill は、左側の参照画像を指定すると、右側のターゲット画像のトリミングを解除または修復して、参照画像とターゲット画像の視点、絞り、照明、画像スタイル、オブジェクトの動きなどが大きく異なる場合でも、視覚的に魅力的であるだけでなく、参照画像と一貫性のある結果を生成します。

RealFill モデルからの出力。左側に参照画像を指定すると、RealFill は右側の対応するターゲット画像を拡大できます。白いボックス内の領域は既知のピクセルとしてネットワークに提供され、白いボックスの外側の領域は生成されます。結果は、視点、絞り、照明、画像スタイル、オブジェクトの動きなど、参照画像とターゲット画像の間に大きな違いがある場合でも、RealFill が参照画像に忠実な高品質の画像を生成できることを示しています。出典:論文

制御された実験

研究者らは、RealFill モデルを他のベースライン方法と比較しました。それに比べて、RealFill によって生成される結果は高品質であり、シーンの忠実度と参照画像との一貫性の点でパフォーマンスが優れています。

Paint-by-Example は、高レベルのセマンティック情報しかキャプチャできない CLIP 埋め込みに依存しているため、高いシーン忠実度を実現できません。

安定拡散インペインティングは一見妥当な結果を生成できますが、プロンプトの表現力が限られているため、最終的に生成される結果は参照画像と一致しません。

RealFill と他の 2 つのベースライン メソッドの比較。透明な白いマスクで覆われた領域は、対象画像の変更されていない部分です。出典: realfill.github.io

制限事項

研究者らは、処理速度、視点の変化への対応能力、ベースモデルにとって困難な状況への対応能力など、RealFill モデルの潜在的な問題と制限についても議論しました。具体的には:

RealFill では、入力画像に対してグラデーションベースの微調整プロセスが必要になるため、処理速度が比較的遅くなります。

参照画像とターゲット画像間の視点の変化が非常に大きい場合、特に参照画像が 1 つしかない場合、RealFill は 3D シーンを復元できないことがよくあります。

RealFill は主に、ベースの事前トレーニング済みモデルから継承された画像の事前分布に依存しているため、安定した拡散モデルがテキストを適切に処理できないなど、ベースモデルにとって難しいケースを処理できません。

最後に著者は協力者たちに感謝の意を表した。

貴重な議論とフィードバックを提供してくれた Rundi Wu、Qianqian Wang、Viraj Shah、Ethan Weber、Zhengqi Li、Kyle Genova、Boyang Deng、Maya Goldenberg、Noah Snavely、Ben Poole、Ben Mildenhall、Alex Rav-Acha、Pratul Srinivasan、Dor Verbin、Jon Barron の各氏、および評価データセットへの貢献をしてくれた Zeya Peng、Rundi Wu、Shan Nan の各氏に感謝します。特に、プロジェクトに対するフィードバックとサポートをいただいた Jason Baldridge、Kihyuk Sohn、Kathy Meier-Hellstern、Nicole Brichtova に感謝します。

詳細については、元の論文を読み、プロジェクトのホームページにアクセスしてください。

<<: 

>>:  行列乗算の3Dインサイト: これがAIの思考法

ブログ    
ブログ    

推薦する

フォーブス:人工知能が解決できる15の社会的課題

人工知能の応用範囲は非常に広いです。製造業から保険業まで、さまざまな業界がビジネスの改善に人工知能の...

深セン大学教授が顔検出ライブラリをオープンソース化、顔検出速度は最大1500FPS以上

先週、深セン大学コンピュータサイエンスおよびソフトウェア工学部の Yu Shiqi 教授が、最大 1...

人工知能が裁判官の判断に取って代われば、司法権は誤った方向に導かれる可能性がある

近年、社会構造の転換と国民の権利意識の強化に伴い、中国の裁判所が受理する事件の規模は毎年二桁増加し、...

...

2020年の情報セキュリティ:人工知能(AI)はさまざまな情報セキュリティシステムで広く利用されている

マーク・カネル、イマジネーション・テクノロジーズ、 戦略およびセキュリティ担当副社長[[281448...

...

...

宜春市はファーウェイと提携し、ビッグデータと人工知能で市のデジタル変革を推進

2019年11月21日〜22日、第一回ファーウェイ宜春市ビッグデータ・人工知能サミットフォーラムと宜...

Google: 2020年5月のコアアルゴリズムアップデート、多数のウェブサイトに影響

Google のアルゴリズムは毎年何百回も更新されます (Google は通常、これらの更新について...

さまざまな専門家が独自のカスタムGPTを提供しました。24時間のトップ9リストはこちらです。

11月10日の早朝、OpenAIはGPTをリリースしました。ChatGPT Plusのすべての加入...

AI+ビデオ分析: ユビキタスセキュリティリスクのリアルタイム監視

[[352986]] 2020 年の多くの運用上の課題を踏まえて、公益事業会社は、運用する物理的およ...

専門家の視点:量子コンピューティングの開発動向

量子コンピューティングとは、量子理論の原理に基づいたコンピューター技術の開発に焦点を当てた研究分野を...