ポイントトラッキングが不要になり、DragGAN の欠陥を克服します。 USTCと上海AIラボが共同でFreeDragをリリース:セマンティックコンテンツの安定したドラッグ

ポイントトラッキングが不要になり、DragGAN の欠陥を克服します。 USTCと上海AIラボが共同でFreeDragをリリース:セマンティックコンテンツの安定したドラッグ

最近、AIGC の広大な世界で、セマンティック コンテンツを元の位置 (ハンドル ポイント) からターゲットの位置 (ターゲット ポイント) にドラッグすることで、特定の画像に対してきめ細かいカスタマイズされた編集操作を実行するという、注目の画像編集方法が登場しました。

たとえば、「猫にウインクさせる」という魔法のような操作を実現できます。

この驚くべき効果は、SIGGRAPH 2023 カンファレンスで発表された [Drag Your GAN] 論文 (略称 DragGAN) から生まれました。

さらに、DragGAN コードが公開されると、わずか数週間で 3 万個のスターが付き、ネットユーザーの間で「ドラッグ ブーム」が巻き起こった。

DragGAN のサポートにより、さまざまな AI 描画ツールの「アキレス腱」は弱点ではなくなりました。満足できない部分を修正するだけです。

最近、USTC と上海 AI ラボの研究者が別の関連研究「FreeDrag」を発表しました。

写真

論文: https://arxiv.org/abs/2307.04684

コード: https://github.com/LPengYang/FreeDrag

プロジェクトページ: https://lin-chen.site/projects/freedrag/

結果は、以前の DragGAN が 2 つの交互の反復プロセスで構成されていることを示しています。

1. 動作監視プロセスは、ハンドル ポイントを対応するターゲット ポイントに向かって移動するように誘導します。

2. ポイント トラッキング プロセスは、移動後のハンドル ポイントの正確な位置を特定し、次の移動の方向と制約機能を提供します。

したがって、DragGAN はポイント追跡の精度に大きく依存します。ただし、ポイント トラッキング戦略は、各移動後に、ハンドル ポイントの特性を完全に継承するポイントが既定の検索領域内に 1 つだけ存在すると暗黙的に想定しているため、本質的に不安定です。

この仮定は、次の 2 つのケースでは当てはまりません。

1. 画像内容の急激な変化による追跡の喪失

写真

DragGAN はコンテンツの変化により追跡ポイントを失う

2. 等高線や馬の脚など、検索エリア内の類似点によって発生する追跡エラー。

写真

DragGANは類似点があるためにポイントを誤って追跡する

ポイント トラッキングが正しくないと、次の移動に対して間違った方向と制約機能が提供され、エラーが蓄積され、編集の品質が低下します。

方法の紹介

不安定なポイント追跡プロセスが画像編集の品質を必然的に損なうことを防ぐため、中国科学技術大学と上海 AI ラボの研究者は共同で、特徴ガイド付きのポイントベースのインタラクティブ編集フレームワークである FreeDrag を提案しました。

FreeDrag は、適応的に更新されるテンプレート機能、ファジー ポジショニング、線形検索テクノロジを導入し、正確なポイント トラッキングを必要とせずに、より安定した信頼性の高いドラッグ編集を実現します。

図2 FreeDragのフローチャート


図 3. DragGAN ポイント トラッキングと FreeDrag ポイント ローカリゼーションの比較。

DragGAN では正確な位置決めが必要ですが、FreeDrag では特徴の違いを制限することで位置決めポイントが近くにあるように制限しますが、特定の位置は必要ありません。

動的に更新されるテンプレート機能

写真

研究者らはまず、追跡ポイントの損失の問題を軽減するために、動的に更新されるテンプレート機能技術を提案しました。テンプレート機能は、各動きの品質を測定することによって、つまりλの値を制御して各更新の割合を決定することによって、更新するかどうかを決定します。

λが大きいほど更新度合いが大きくなることを意味します。モバイル品質が高くなるほど、アップデートも大きくなります。動きの質は、動きの終了時の特徴量と前のテンプレート特徴量との間のL1距離( を測定することによって測定されます。距離が小さいほど、動きの質が高くなります。

テンプレート機能の更新プロセスは、ハンドル ポイントの位置と機能に依存しないため、正確なポイント追跡の負担がなくなります。同時に、適応更新戦略によってもたらされるスムーズさにより、テンプレート機能の堅牢性が向上し、大幅なコンテンツの変更を克服し、編集されたコンテンツの異常な損失を回避できます。

ファジーポジショニングと線形探索

次に、研究者らは追跡ポイントの曖昧さの問題を軽減するために、ファジーポジショニングと線形探索技術を提案しました。 FreeDragは移動距離dと特徴量差l、つまり式(10)に基づいて各移動に適した目標点を見つける。

主な位置決め状況は、目標点に向かって移動し続ける(移動品質が高い)、現在の位置を維持する(移動が不完全)、後退する(移動が異常)の 3 つです。

DragGANで必要な正確なポイント追跡と比較して、式(10)によって検索される位置決めポイントは、ハンドルポイントの正確な位置を検索する必要がなく、特徴の差を制約することによって位置決めポイントがハンドルポイントの近くにあることを保証し、正確な位置決めの負担を取り除くため、「あいまい」です。

また、式(10)は、元のハンドル点と目標点が形成する直線上の点のみを探索する。この線形探索戦略は、隣接領域内の類似点の干渉を効果的に緩和し、動作監視の信頼性を確保し、点移動の安定性をさらに向上させる。

実験比較

さまざまなシナリオにおける DragGAN と FreeDrag の比較を下図 (図 4) に示します。FreeDrag は、ハンドル ポイントの異常な消失 (図 4 の最初の例の口の消失や 2 番目の例のメガネの消失など) を効果的に防ぐことができます。同時に、コンテンツの変化や類似ポイントからの干渉による異常な編集を効果的に回避し、ポイントの移動の信頼性を確保します (図 4 の 3 番目の例の象の目や 4 番目の例の馬の足など)。

また、図4の例(5)~(8)から、FreeDragは安定した点の移動を通じて、所定の編集目標をより効率的かつ正確に達成できることが分かる。さらに、さまざまなシナリオでの多数の実験 (図 5) により、FreeDrag は安定したポイント移動を通じてより高い編集品質を実現できることが完全に検証され、インタラクティブなポイントベースの画像編集が新たな高みに到達するのに役立っています。

写真

図4 さまざまなシナリオにおけるDragGANとFreeDragの比較


図5 より多くのシナリオにおけるDragGANとFreeDragの比較

左の2枚の写真は元画像と編集対象(赤がハンドルポイント、青がターゲットポイント)、右の2枚の写真はそれぞれDragGANとFreeDragの処理です。

写真

写真

動的プロセス: https://lin-chen.site/projects/freedrag/

象の目をドラッグする例では、DragGAN によって象の目を移動させる過程で、画像レイアウトが突然変化し、ポイント トラッキングが失われることがわかります。ポイント トラッキングが失われると、その後の動きに対して効果的なモーション モニタリングを提供できなくなり、意図した編集目的を達成できなくなります。

比較すると、動的に更新されるテンプレート機能の滑らかさのおかげで、FreeDrag は画像コンテンツの急激な変化をより適切に回避し、目の特徴を所定の位置に確実にドラッグすることができます。

馬の脚を引きずる例で言えば、DragGAN は馬の脚を動かす過程で誤ったポイント追跡を行っており、その後のモーション監視に誤った最適化方向を提供し、画像の品質を低下させていることがわかります。このエラーは複数の反復で蓄積され、編集結果の品質が急激に低下します。

それに比べて、FreeDrag のファジー ポジショニングと線形検索戦略は、類似ポイントの干渉を効果的に軽減し、ポイント移動の信頼性の高い監視信号を提供することで、意図した編集目的を高品質で達成します。

<<:  人工知能の環境コスト: 計算能力のために私たちは何を犠牲にする覚悟があるのでしょうか?

>>:  7つの便利なプロンプトパラメータ

ブログ    
ブログ    

推薦する

...

ARにおける人工知能

今年3月、上海市経済情報化委員会は、同市の人工知能の革新と発展を支援する2018年特別プロジェクトの...

IoT セキュリティ: RSA 暗号化および復号化アルゴリズム

[[357279]] WeChat パブリックアカウント: コンピューターとネットワークのセキュリテ...

GitHub のネイティブ AI コード生成ツール Copilot が Visual Studio 2022 を正式にサポート

現在、Microsoft、OpenAI、GitHub が共同で作成した AI プログラミング支援ツー...

NetEase はデータ指標の異常をどのように検出し、診断するのでしょうか?

1. 背景指標はビジネスと密接に関係しており、その価値は、問題点やハイライトを発見し、タイムリーに...

これほどリアルな効果を生み出すために、原作者を何人食べなければならなかったのですか?文生図はビジュアル「盗作」の疑い

少し前、ニューヨーク・タイムズ紙は、OpenAI が自社のコンテンツを人工知能開発のために違法に使用...

自動運転車は「交通渋滞をさらに悪化させる可能性がある」

西オーストラリア大学の研究者らは、交通渋滞を緩和するために設計された無人運転車が逆の効果をもたらして...

360スマートブレインモデルが一般公開されました

9月5日、360 Intelligent Brainモデルが今後一般公開され、360の「ファミリーバ...

...

AIと機械学習プロジェクトのセキュリティを確保する方法

人工知能と機械学習はメリットをもたらす一方で、新たな脆弱性ももたらします。この記事では、いくつかの企...

資金調達は引き続き好調:6月の自動運転分野における資金調達活動の概要

近年、自動運転の開発が本格化し、多くの企業や資本が参入しています。こうした背景から、もうすぐ終わる6...

GPT-4/Llama2のパフォーマンスを大幅に向上させるためにRLHFは必要ない、北京大学のチームはAlignerの新しいアライメントパラダイムを提案

背景大規模言語モデル (LLM) は強力な機能を発揮していますが、不快な応答、虚偽の情報、漏洩した個...

JD Digits の AI ロボットが物理産業に貢献し、業界賞を受賞

電気の「ジュージュー」という音が響くコンピューター室では、「スマートガーディアン」コンピューター室検...

...

TensorFlow 機械学習の初心者向けガイド: 線形回帰を実装するには?

TensorFlow 入門記事: 初心者でも理解できる TensorFlow 入門小学校で受けた理...