ポイントトラッキングが不要になり、DragGAN の欠陥を克服します。 USTCと上海AIラボが共同でFreeDragをリリース:セマンティックコンテンツの安定したドラッグ

ポイントトラッキングが不要になり、DragGAN の欠陥を克服します。 USTCと上海AIラボが共同でFreeDragをリリース:セマンティックコンテンツの安定したドラッグ

最近、AIGC の広大な世界で、セマンティック コンテンツを元の位置 (ハンドル ポイント) からターゲットの位置 (ターゲット ポイント) にドラッグすることで、特定の画像に対してきめ細かいカスタマイズされた編集操作を実行するという、注目の画像編集方法が登場しました。

たとえば、「猫にウインクさせる」という魔法のような操作を実現できます。

この驚くべき効果は、SIGGRAPH 2023 カンファレンスで発表された [Drag Your GAN] 論文 (略称 DragGAN) から生まれました。

さらに、DragGAN コードが公開されると、わずか数週間で 3 万個のスターが付き、ネットユーザーの間で「ドラッグ ブーム」が巻き起こった。

DragGAN のサポートにより、さまざまな AI 描画ツールの「アキレス腱」は弱点ではなくなりました。満足できない部分を修正するだけです。

最近、USTC と上海 AI ラボの研究者が別の関連研究「FreeDrag」を発表しました。

写真

論文: https://arxiv.org/abs/2307.04684

コード: https://github.com/LPengYang/FreeDrag

プロジェクトページ: https://lin-chen.site/projects/freedrag/

結果は、以前の DragGAN が 2 つの交互の反復プロセスで構成されていることを示しています。

1. 動作監視プロセスは、ハンドル ポイントを対応するターゲット ポイントに向かって移動するように誘導します。

2. ポイント トラッキング プロセスは、移動後のハンドル ポイントの正確な位置を特定し、次の移動の方向と制約機能を提供します。

したがって、DragGAN はポイント追跡の精度に大きく依存します。ただし、ポイント トラッキング戦略は、各移動後に、ハンドル ポイントの特性を完全に継承するポイントが既定の検索領域内に 1 つだけ存在すると暗黙的に想定しているため、本質的に不安定です。

この仮定は、次の 2 つのケースでは当てはまりません。

1. 画像内容の急激な変化による追跡の喪失

写真

DragGAN はコンテンツの変化により追跡ポイントを失う

2. 等高線や馬の脚など、検索エリア内の類似点によって発生する追跡エラー。

写真

DragGANは類似点があるためにポイントを誤って追跡する

ポイント トラッキングが正しくないと、次の移動に対して間違った方向と制約機能が提供され、エラーが蓄積され、編集の品質が低下します。

方法の紹介

不安定なポイント追跡プロセスが画像編集の品質を必然的に損なうことを防ぐため、中国科学技術大学と上海 AI ラボの研究者は共同で、特徴ガイド付きのポイントベースのインタラクティブ編集フレームワークである FreeDrag を提案しました。

FreeDrag は、適応的に更新されるテンプレート機能、ファジー ポジショニング、線形検索テクノロジを導入し、正確なポイント トラッキングを必要とせずに、より安定した信頼性の高いドラッグ編集を実現します。

図2 FreeDragのフローチャート


図 3. DragGAN ポイント トラッキングと FreeDrag ポイント ローカリゼーションの比較。

DragGAN では正確な位置決めが必要ですが、FreeDrag では特徴の違いを制限することで位置決めポイントが近くにあるように制限しますが、特定の位置は必要ありません。

動的に更新されるテンプレート機能

写真

研究者らはまず、追跡ポイントの損失の問題を軽減するために、動的に更新されるテンプレート機能技術を提案しました。テンプレート機能は、各動きの品質を測定することによって、つまりλの値を制御して各更新の割合を決定することによって、更新するかどうかを決定します。

λが大きいほど更新度合いが大きくなることを意味します。モバイル品質が高くなるほど、アップデートも大きくなります。動きの質は、動きの終了時の特徴量と前のテンプレート特徴量との間のL1距離( を測定することによって測定されます。距離が小さいほど、動きの質が高くなります。

テンプレート機能の更新プロセスは、ハンドル ポイントの位置と機能に依存しないため、正確なポイント追跡の負担がなくなります。同時に、適応更新戦略によってもたらされるスムーズさにより、テンプレート機能の堅牢性が向上し、大幅なコンテンツの変更を克服し、編集されたコンテンツの異常な損失を回避できます。

ファジーポジショニングと線形探索

次に、研究者らは追跡ポイントの曖昧さの問題を軽減するために、ファジーポジショニングと線形探索技術を提案しました。 FreeDragは移動距離dと特徴量差l、つまり式(10)に基づいて各移動に適した目標点を見つける。

主な位置決め状況は、目標点に向かって移動し続ける(移動品質が高い)、現在の位置を維持する(移動が不完全)、後退する(移動が異常)の 3 つです。

DragGANで必要な正確なポイント追跡と比較して、式(10)によって検索される位置決めポイントは、ハンドルポイントの正確な位置を検索する必要がなく、特徴の差を制約することによって位置決めポイントがハンドルポイントの近くにあることを保証し、正確な位置決めの負担を取り除くため、「あいまい」です。

また、式(10)は、元のハンドル点と目標点が形成する直線上の点のみを探索する。この線形探索戦略は、隣接領域内の類似点の干渉を効果的に緩和し、動作監視の信頼性を確保し、点移動の安定性をさらに向上させる。

実験比較

さまざまなシナリオにおける DragGAN と FreeDrag の比較を下図 (図 4) に示します。FreeDrag は、ハンドル ポイントの異常な消失 (図 4 の最初の例の口の消失や 2 番目の例のメガネの消失など) を効果的に防ぐことができます。同時に、コンテンツの変化や類似ポイントからの干渉による異常な編集を効果的に回避し、ポイントの移動の信頼性を確保します (図 4 の 3 番目の例の象の目や 4 番目の例の馬の足など)。

また、図4の例(5)~(8)から、FreeDragは安定した点の移動を通じて、所定の編集目標をより効率的かつ正確に達成できることが分かる。さらに、さまざまなシナリオでの多数の実験 (図 5) により、FreeDrag は安定したポイント移動を通じてより高い編集品質を実現できることが完全に検証され、インタラクティブなポイントベースの画像編集が新たな高みに到達するのに役立っています。

写真

図4 さまざまなシナリオにおけるDragGANとFreeDragの比較


図5 より多くのシナリオにおけるDragGANとFreeDragの比較

左の2枚の写真は元画像と編集対象(赤がハンドルポイント、青がターゲットポイント)、右の2枚の写真はそれぞれDragGANとFreeDragの処理です。

写真

写真

動的プロセス: https://lin-chen.site/projects/freedrag/

象の目をドラッグする例では、DragGAN によって象の目を移動させる過程で、画像レイアウトが突然変化し、ポイント トラッキングが失われることがわかります。ポイント トラッキングが失われると、その後の動きに対して効果的なモーション モニタリングを提供できなくなり、意図した編集目的を達成できなくなります。

比較すると、動的に更新されるテンプレート機能の滑らかさのおかげで、FreeDrag は画像コンテンツの急激な変化をより適切に回避し、目の特徴を所定の位置に確実にドラッグすることができます。

馬の脚を引きずる例で言えば、DragGAN は馬の脚を動かす過程で誤ったポイント追跡を行っており、その後のモーション監視に誤った最適化方向を提供し、画像の品質を低下させていることがわかります。このエラーは複数の反復で蓄積され、編集結果の品質が急激に低下します。

それに比べて、FreeDrag のファジー ポジショニングと線形検索戦略は、類似ポイントの干渉を効果的に軽減し、ポイント移動の信頼性の高い監視信号を提供することで、意図した編集目的を高品質で達成します。

<<:  人工知能の環境コスト: 計算能力のために私たちは何を犠牲にする覚悟があるのでしょうか?

>>:  7つの便利なプロンプトパラメータ

ブログ    
ブログ    
ブログ    

推薦する

切り抜きや着色を超えて、人工知能がデザインに及ぼす影響をご覧ください

人工知能の時代では、ARデザインとスマートハードウェアデザインが徐々に発展しています。デザイン改革で...

自動化とロボットの違いと適用可能なシナリオ

[[421134]]ロボット工学と自動化には違いがありますか? 自動化が適用されるかどうかわからない...

ゼロサンプルのパフォーマンスが小サンプルのパフォーマンスを上回り、Google の新しい 1370 億パラメータ モデルは GPT-3 よりも強力

[[422681]] NLP の分野では、事前トレーニングの微調整とプロンプトチューニングの手法に...

顔認識、今やアニメキャラクターも例外ではない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

人間が世界を理解するのに近づく:研究者はAIに「想像力」を与える

オレンジ色の猫を想像してください。次に、その猫の毛が黒だけであることを想像してください。そして、万里...

...

人工知能は希少疾患を患う4億人の患者がより効果的な診断を受けるのに役立っている

[[284630]] ▲人工知能は数百万の遺伝子変異を高速で検索し、希少疾患の原因を特定することがで...

...

コンテンツ マーケティングにおいて自然言語処理はどのように機能しますか?

[[417909]] [51CTO.com クイック翻訳]自然言語処理 (NLP) はコンテンツ ...

...

2020年の世界コンサルティング会社の新ランキング:AI時代の新たな課題

[[348678]] 5G、人工知能、ブロックチェーンなどの新技術の継続的な進歩は、あらゆる企業の変...

AIが人々の職場復帰を支援:重慶の音声ロボット、北京の無人配達、広州の顔認識体温測定

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2021 年の AI イノベーション トレンド トップ 10

人工知能は、人々の日常の仕事や生活を変えるテクノロジーとイノベーションに関して、最もホットなトレンド...

...