北京大学のチームは、より強力な一般化とより高い生成品質を備えたDiffusionでDragGANをアップグレードしました。クリックするだけで「地面から山が立ち上がる」

北京大学のチームは、より強力な一般化とより高い生成品質を備えたDiffusionでDragGANをアップグレードしました。クリックするだけで「地面から山が立ち上がる」

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

北京大学チームの最新作では、拡散モデルを使用してドラッグアンドドロップによる写真編集を実現しました。

クリックするだけで雪山が高くなります。

あるいは太陽が昇るようにしましょう。

これは、北京大学の張建教授のチーム VILLA (Visual-Information Intelligent Learning LAB) が北京大学深圳大学院-TuZhan Intelligent AIGC 共同実験室、および Tencent ARC Lab の協力を得て開発したDragonDiffusionです。

これはDragGANのバリエーションとして理解できます。

DragGAN には現在 30,000 を超える GitHub スターがあり、その基盤となるモデルは GAN (Generative Adversarial Network) に基づいています。

GAN は、一般化能力と生成画像の品質において常に欠点がありました。

これこそが拡散モデルの強みです。

そこで、張建教授のチームはDragGANパラダイムを拡散モデルに拡張しました。

この成果は発表時にZhihuのホットリストに掲載されました。

これにより、Stable Diffusion によって生成された画像の部分的な不完全性の問題が解決され、再描画をうまく制御できるようになったというコメントもありました。

写真の中でライオンの頭を回す

Dragon Diffusion の効果には、車の前面の形状の変更も含まれます。

ソファを徐々に長くします。

または、手動で顔を細くします。

別の写真にドーナツを置くなど、写真内のオブジェクトを置き換えることもできます。

あるいはライオンの頭を回す:

この方法のフレームワークには、ガイダンス ブランチと生成ブランチの 2 つのブランチが含まれます。

まず、編集対象の画像は拡散の逆プロセスを経て、2 つのブランチの入力として拡散潜在空間内の画像の表現を見つけます。

このうち、ガイドブランチは元の画像を再構築し、再構築の過程で元の画像の情報が下の生成ブランチに注入されます。

生成されたブランチの役割は、メインコンテンツを元の画像と一貫性を保ちながら、元の画像を編集するための情報を導くことです。

拡散モデルの中間特徴間の強い対応に従って、DragonDiffusion は、各拡散反復で同じ UNet ノイズ除去装置を介して 2 つのブランチの潜在変数を特徴ドメインに変換します。

次に、2 つのマスク領域を使用します。ドラッグしたコンテンツは元の画像と編集された画像で調整され、制限されたコンテンツが領域内に表示されます。

この論文では、2 つの領域間の類似性をコサイン距離で測定し、類似性を正規化します。

編集後のコンテンツの変更を制限するだけでなく、編集されていない他の領域も元の画像との一貫性を保つ必要があります。ここでも、対応する領域の類似性によって制約が課せられます。最終的に、総損失関数は次のように設計されます。

編集情報の注入に関しては、この論文では、条件付き拡散プロセスをスコアベースの拡散を介した結合スコア関数として考察しています。

編集信号は、特徴間の強い対応に基づくスコア関数を通じて勾配に変換され、拡散プロセス内の隠れ変数が更新されます。

意味的およびグラフィカルなアライメントの両方を考慮するために、著者らはこのガイド付き戦略に基づくマルチスケールのガイド付きアライメント設計を導入しました。

さらに、編集結果と元の画像との一貫性をさらに確保するために、DragonDiffusion メソッドではクロスブランチ自己注意メカニズムが設計されています。

具体的なアプローチとしては、ガイド付きブランチセルフアテンションモジュールのキーと値を使用して、生成されたブランチセルフアテンションモジュールのキーと値を置き換え、特徴レベルでの参照情報注入を実現することです。

最後に、提案された方法は、効率的な設計により、生成された画像と実際の画像の両方に対して複数の編集モードを提供します。

これには、画像内のオブジェクトの移動、オブジェクトのサイズ変更、オブジェクトの外観の置き換え、画像コンテンツのドラッグが含まれます。

このアプローチでは、すべてのコンテンツ編集および保存信号は画像自体から取得されるため、追加モジュールの微調整やトレーニングは必要なく、編集プロセスが簡素化されます。

研究者たちは実験で、ニューラルネットワークの最初の層が浅すぎて画像を正確に再構築できないことを発見した。しかし、第 4 層まで再構築すると、深すぎるため、効果も同様に悪くなります。 2 番目または 3 番目のレイヤーで最も効果的に機能します。

他の方法と比較して、Dragon Diffusion は除去効果においても優れています。


北京大学張建チーム他

この成果は、北京大学の張建氏のチーム、テンセントARCラボ、北京大学深圳大学院-TuZhanインテリジェントAIGC共同研究室によって共同で達成されました。

張建教授のチームは、拡散モデルによって生成されたコンテンツを正確に制御できるT2I-Adapterの開発を主導しました。

GitHub には 2,000 を超えるスターがあります。

この技術は、落書き作成ツール「Stable Doodle」のコア制御技術として、Stable Diffusion 社によって正式に採用されました。

Tuzhan Intelligenceと北京大学深圳研究所が設立したAIGC共同研究室は最近、画像編集・生成、法定AI製品など多くの分野で画期的な技術成果を達成した。

ほんの数週間前、北京大学-TuZhan AIGC 共同研究室は、Zhihu のホット検索リストで 1 位にランクされた大規模な言語モデル製品である ChatLaw をリリースしました。この製品はネットワーク全体で数千万回の露出を集めただけでなく、一連のソーシャル ディスカッションも引き起こしました。

共同研究室は、CVを中核とするマルチモーダル大規模モデルに焦点を当て、言語分野におけるChatLawの背後にあるChatKnowledge大規模モデルを引き続き深く掘り下げ、法律や金融などの垂直分野における幻覚防止、民営化、データセキュリティの問題を解決します。

同研究所では、近い将来、Stable Diffusionに対抗する独自の大型モデルも発売する予定だと報じられている。

論文アドレス: https://arxiv.org/abs/2307.02421

プロジェクトホームページ: https://mc-e.github.io/project/DragonDiffusion/

<<:  清華大学の卒業生は大きな貢献をしました! Google、14のタスクで初の大規模一般医療モデルSOTAをリリース

>>:  レポート: Meta の Llama 2 と OpenAI の ChatGPT の「オープンソース」は透明性に欠ける

ブログ    

推薦する

...

AIをやりたいなら高校でデータサイエンスを勉強するな:ウルトラマンとマスクがついに合意

AIの発展には基礎教育を強化しなければ手遅れになります。大規模モデル技術が急速に発展し、企業間の競争...

...

李開復:中国の大型モデル競争は非常に激しく、最終的には大きな勝者が数人出るだろう

12月28日、ベンチャーキャピタリストで元Google China社長の李開復氏の予測によれば、中国...

IIoTとAIは大きな課題に直面している

AI は IIoT から生成される膨大な量のデータを管理できるため、その基盤となるアーキテクチャはセ...

...

未来 | 人工知能が人間社会を変える24の方法

今こそ、AI の将来を本当に理解するときです。 AI を取り巻く不安は雇用の減少など多岐にわたります...

NLP事前トレーニングパラダイムが統合され、下流のタスクタイプに絡まらなくなり、Googleの新しいフレームワークは50のSOTAを更新します

この論文では、Google の研究者がさまざまな事前トレーニング パラダイムを統合する事前トレーニン...

...

...

...

SASは、IoTイニシアチブにAIを組み込むことで企業が競合他社を飛び越えることができると述べている

SAS の新しいレポート「AIoT – IoT リーダーが困難を脱する方法」によると、組織のモノのイ...

...

私の国の医薬品人工知能市場は急速な成長期に入っている

3月23日から26日まで、2021年重大健康産業(重慶)博覧会と第6回双品会が重慶で開催されました。...