北京大学のチームは、より強力な一般化とより高い生成品質を備えたDiffusionでDragGANをアップグレードしました。クリックするだけで「地面から山が立ち上がる」

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

北京大学チームの最新作では、拡散モデルを使用してドラッグアンドドロップによる写真編集を実現しました。

クリックするだけで雪山が高くなります。

あるいは太陽が昇るようにしましょう。

これは、北京大学の張建教授のチーム VILLA (Visual-Information Intelligent Learning LAB) が北京大学深圳大学院-TuZhan Intelligent AIGC 共同実験室、および Tencent ARC Lab の協力を得て開発したDragonDiffusionです。

これはDragGANのバリエーションとして理解できます。

DragGAN には現在 30,000 を超える GitHub スターがあり、その基盤となるモデルは GAN (Generative Adversarial Network) に基づいています。

GAN は、一般化能力と生成画像の品質において常に欠点がありました。

これこそが拡散モデルの強みです。

そこで、張建教授のチームはDragGANパラダイムを拡散モデルに拡張しました。

この成果は発表時にZhihuのホットリストに掲載されました。

これにより、Stable Diffusion によって生成された画像の部分的な不完全性の問題が解決され、再描画をうまく制御できるようになったというコメントもありました。

写真の中でライオンの頭を回す

Dragon Diffusion の効果には、車の前面の形状の変更も含まれます。

ソファを徐々に長くします。

または、手動で顔を細くします。

別の写真にドーナツを置くなど、写真内のオブジェクトを置き換えることもできます。

あるいはライオンの頭を回す:

この方法のフレームワークには、ガイダンスブランチと生成ブランチの 2 つのブランチが含まれます。

まず、編集対象の画像は拡散の逆プロセスを経て、2 つのブランチの入力として拡散潜在空間内の画像の表現を見つけます。

このうち、ガイドブランチは元の画像を再構築し、再構築の過程で元の画像の情報が下の生成ブランチに注入されます。

生成されたブランチの役割は、メインコンテンツを元の画像と一貫性を保ちながら、元の画像を編集するための情報を導くことです。

拡散モデルの中間特徴間の強い対応に従って、DragonDiffusion は、各拡散反復で同じ UNet ノイズ除去装置を介して 2 つのブランチの潜在変数を特徴ドメインに変換します。

次に、2 つのマスクと領域を使用します。ドラッグしたコンテンツは元の画像と編集された画像で調整され、制限されたコンテンツが領域内に表示されます。

この論文では、2 つの領域間の類似性をコサイン距離で測定し、類似性を正規化します。

編集後のコンテンツの変更を制限するだけでなく、編集されていない他の領域も元の画像との一貫性を保つ必要があります。ここでも、対応する領域の類似性によって制約が課せられます。最終的に、総損失関数は次のように設計されます。

編集情報の注入に関しては、この論文では、条件付き拡散プロセスをスコアベースの拡散を介した結合スコア関数として考察しています。

編集信号は、特徴間の強い対応に基づくスコア関数を通じて勾配に変換され、拡散プロセス内の隠れ変数が更新されます。

意味的およびグラフィカルなアライメントの両方を考慮するために、著者らはこのガイド付き戦略に基づくマルチスケールのガイド付きアライメント設計を導入しました。

さらに、編集結果と元の画像との一貫性をさらに確保するために、DragonDiffusion メソッドではクロスブランチ自己注意メカニズムが設計されています。

具体的なアプローチとしては、ガイド付きブランチセルフアテンションモジュールのキーと値を使用して、生成されたブランチセルフアテンションモジュールのキーと値を置き換え、特徴レベルでの参照情報注入を実現することです。

最後に、提案された方法は、効率的な設計により、生成された画像と実際の画像の両方に対して複数の編集モードを提供します。

これには、画像内のオブジェクトの移動、オブジェクトのサイズ変更、オブジェクトの外観の置き換え、画像コンテンツのドラッグが含まれます。

このアプローチでは、すべてのコンテンツ編集および保存信号は画像自体から取得されるため、追加モジュールの微調整やトレーニングは必要なく、編集プロセスが簡素化されます。

研究者たちは実験で、ニューラルネットワークの最初の層が浅すぎて画像を正確に再構築できないことを発見した。しかし、第 4 層まで再構築すると、深すぎるため、効果も同様に悪くなります。 2 番目または 3 番目のレイヤーで最も効果的に機能します。

他の方法と比較して、Dragon Diffusion は除去効果においても優れています。

北京大学張建チーム他

この成果は、北京大学の張建氏のチーム、テンセントARCラボ、北京大学深圳大学院-TuZhanインテリジェントAIGC共同研究室によって共同で達成されました。

張建教授のチームは、拡散モデルによって生成されたコンテンツを正確に制御できるT2I-Adapterの開発を主導しました。

GitHub には 2,000 を超えるスターがあります。

この技術は、落書き作成ツール「Stable Doodle」のコア制御技術として、Stable Diffusion 社によって正式に採用されました。

Tuzhan Intelligenceと北京大学深圳研究所が設立したAIGC共同研究室は最近、画像編集・生成、法定AI製品など多くの分野で画期的な技術成果を達成した。

ほんの数週間前、北京大学-TuZhan AIGC 共同研究室は、Zhihu のホット検索リストで 1 位にランクされた大規模な言語モデル製品である ChatLaw をリリースしました。この製品はネットワーク全体で数千万回の露出を集めただけでなく、一連のソーシャルディスカッションも引き起こしました。

共同研究室は、CVを中核とするマルチモーダル大規模モデルに焦点を当て、言語分野におけるChatLawの背後にあるChatKnowledge大規模モデルを引き続き深く掘り下げ、法律や金融などの垂直分野における幻覚防止、民営化、データセキュリティの問題を解決します。

同研究所では、近い将来、Stable Diffusionに対抗する独自の大型モデルも発売する予定だと報じられている。

論文アドレス: https://arxiv.org/abs/2307.02421

プロジェクトホームページ: https://mc-e.github.io/project/DragonDiffusion/

<<: 清華大学の卒業生は大きな貢献をしました！ Google、14のタスクで初の大規模一般医療モデルSOTAをリリース

>>: レポート: Meta の Llama 2 と OpenAI の ChatGPT の「オープンソース」は透明性に欠ける

北京大学のチームは、より強力な一般化とより高い生成品質を備えたDiffusionでDragGANをアップグレードしました。クリックするだけで「地面から山が立ち上がる」

写真の中でライオンの頭を回す

北京大学張建チーム他

MITが脳制御ロボットを開発：脳波を使ってロボットのエラーを修正できる

AIが産業のデジタル変革をどのように促進するか

Python による顔認識 (ソースコード付き)

人工知能は偏見の岐路に立っている

毎日のアルゴリズム: データストリームの中央値

利便性を超えて：スマートホームは信頼できるのか？

【必見】機械学習分野の世界トップ16企業

オープンソースのビデオ切り抜き技術が人気です！背景を変える方法は、それが真実か嘘かを判断するのが非常に難しい

推薦する

大規模モデル幻覚率ランキング：GPT-4は3％と最も低いが、Google Palmは最大27.2％

データサイエンスについて知っておくべきこと: 10 の重要な概念 + 22 のグラフ

エッジ AI はスマートシティの持続可能な開発にどのように貢献するのでしょうか?

モジュラー大型モデルが登場！ IBMがWatsonXコアアーキテクチャの技術的詳細を公開

Baiduの李振宇氏：Apollo 3.0のリリースはApolloのオープン性の新たな出発点です

データサイエンティストが最もよく使用するデータマイニングアルゴリズム10選

業界規模のナレッジグラフ：経験と課題

銀行におけるクラウドコンピューティングと人工知能の利点

オープンソースの大規模モデルの王座が交代しました! Google Gemmaが市場に参入、ノートパソコンは動作可能でビジネスにも使用可能

AI を活用して建設現場の活動を監視

ChatGPT 技術製品の実装: 技術アーキテクチャから実際のアプリケーションまで