北京大学のチームは、より強力な一般化とより高い生成品質を備えたDiffusionでDragGANをアップグレードしました。クリックするだけで「地面から山が立ち上がる」

北京大学のチームは、より強力な一般化とより高い生成品質を備えたDiffusionでDragGANをアップグレードしました。クリックするだけで「地面から山が立ち上がる」

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

北京大学チームの最新作では、拡散モデルを使用してドラッグアンドドロップによる写真編集を実現しました。

クリックするだけで雪山が高くなります。

あるいは太陽が昇るようにしましょう。

これは、北京大学の張建教授のチーム VILLA (Visual-Information Intelligent Learning LAB) が北京大学深圳大学院-TuZhan Intelligent AIGC 共同実験室、および Tencent ARC Lab の協力を得て開発したDragonDiffusionです。

これはDragGANのバリエーションとして理解できます。

DragGAN には現在 30,000 を超える GitHub スターがあり、その基盤となるモデルは GAN (Generative Adversarial Network) に基づいています。

GAN は、一般化能力と生成画像の品質において常に欠点がありました。

これこそが拡散モデルの強みです。

そこで、張建教授のチームはDragGANパラダイムを拡散モデルに拡張しました。

この成果は発表時にZhihuのホットリストに掲載されました。

これにより、Stable Diffusion によって生成された画像の部分的な不完全性の問題が解決され、再描画をうまく制御できるようになったというコメントもありました。

写真の中でライオンの頭を回す

Dragon Diffusion の効果には、車の前面の形状の変更も含まれます。

ソファを徐々に長くします。

または、手動で顔を細くします。

別の写真にドーナツを置くなど、写真内のオブジェクトを置き換えることもできます。

あるいはライオンの頭を回す:

この方法のフレームワークには、ガイダンス ブランチと生成ブランチの 2 つのブランチが含まれます。

まず、編集対象の画像は拡散の逆プロセスを経て、2 つのブランチの入力として拡散潜在空間内の画像の表現を見つけます。

このうち、ガイドブランチは元の画像を再構築し、再構築の過程で元の画像の情報が下の生成ブランチに注入されます。

生成されたブランチの役割は、メインコンテンツを元の画像と一貫性を保ちながら、元の画像を編集するための情報を導くことです。

拡散モデルの中間特徴間の強い対応に従って、DragonDiffusion は、各拡散反復で同じ UNet ノイズ除去装置を介して 2 つのブランチの潜在変数を特徴ドメインに変換します。

次に、2 つのマスク領域を使用します。ドラッグしたコンテンツは元の画像と編集された画像で調整され、制限されたコンテンツが領域内に表示されます。

この論文では、2 つの領域間の類似性をコサイン距離で測定し、類似性を正規化します。

編集後のコンテンツの変更を制限するだけでなく、編集されていない他の領域も元の画像との一貫性を保つ必要があります。ここでも、対応する領域の類似性によって制約が課せられます。最終的に、総損失関数は次のように設計されます。

編集情報の注入に関しては、この論文では、条件付き拡散プロセスをスコアベースの拡散を介した結合スコア関数として考察しています。

編集信号は、特徴間の強い対応に基づくスコア関数を通じて勾配に変換され、拡散プロセス内の隠れ変数が更新されます。

意味的およびグラフィカルなアライメントの両方を考慮するために、著者らはこのガイド付き戦略に基づくマルチスケールのガイド付きアライメント設計を導入しました。

さらに、編集結果と元の画像との一貫性をさらに確保するために、DragonDiffusion メソッドではクロスブランチ自己注意メカニズムが設計されています。

具体的なアプローチとしては、ガイド付きブランチセルフアテンションモジュールのキーと値を使用して、生成されたブランチセルフアテンションモジュールのキーと値を置き換え、特徴レベルでの参照情報注入を実現することです。

最後に、提案された方法は、効率的な設計により、生成された画像と実際の画像の両方に対して複数の編集モードを提供します。

これには、画像内のオブジェクトの移動、オブジェクトのサイズ変更、オブジェクトの外観の置き換え、画像コンテンツのドラッグが含まれます。

このアプローチでは、すべてのコンテンツ編集および保存信号は画像自体から取得されるため、追加モジュールの微調整やトレーニングは必要なく、編集プロセスが簡素化されます。

研究者たちは実験で、ニューラルネットワークの最初の層が浅すぎて画像を正確に再構築できないことを発見した。しかし、第 4 層まで再構築すると、深すぎるため、効果も同様に悪くなります。 2 番目または 3 番目のレイヤーで最も効果的に機能します。

他の方法と比較して、Dragon Diffusion は除去効果においても優れています。


北京大学張建チーム他

この成果は、北京大学の張建氏のチーム、テンセントARCラボ、北京大学深圳大学院-TuZhanインテリジェントAIGC共同研究室によって共同で達成されました。

張建教授のチームは、拡散モデルによって生成されたコンテンツを正確に制御できるT2I-Adapterの開発を主導しました。

GitHub には 2,000 を超えるスターがあります。

この技術は、落書き作成ツール「Stable Doodle」のコア制御技術として、Stable Diffusion 社によって正式に採用されました。

Tuzhan Intelligenceと北京大学深圳研究所が設立したAIGC共同研究室は最近、画像編集・生成、法定AI製品など多くの分野で画期的な技術成果を達成した。

ほんの数週間前、北京大学-TuZhan AIGC 共同研究室は、Zhihu のホット検索リストで 1 位にランクされた大規模な言語モデル製品である ChatLaw をリリースしました。この製品はネットワーク全体で数千万回の露出を集めただけでなく、一連のソーシャル ディスカッションも引き起こしました。

共同研究室は、CVを中核とするマルチモーダル大規模モデルに焦点を当て、言語分野におけるChatLawの背後にあるChatKnowledge大規模モデルを引き続き深く掘り下げ、法律や金融などの垂直分野における幻覚防止、民営化、データセキュリティの問題を解決します。

同研究所では、近い将来、Stable Diffusionに対抗する独自の大型モデルも発売する予定だと報じられている。

論文アドレス: https://arxiv.org/abs/2307.02421

プロジェクトホームページ: https://mc-e.github.io/project/DragonDiffusion/

<<:  清華大学の卒業生は大きな貢献をしました! Google、14のタスクで初の大規模一般医療モデルSOTAをリリース

>>:  レポート: Meta の Llama 2 と OpenAI の ChatGPT の「オープンソース」は透明性に欠ける

ブログ    
ブログ    

推薦する

HRがAIバイアスを理解し軽減する方法

人工知能 (AI) と機械学習 (ML) がもたらすメリットは広く認識されています。このテクノロジー...

香港大学のチームがエンタングルメントエントロピーを測定する新しいアルゴリズムを開発、量子材料の実用化に一歩近づく

量子材料は人類の進歩を促進する上で重要な役割を果たします。科学技術分野では、特殊な特性を持つ新たな量...

ロボット工学が医療業界にもたらす変化

ロボット工学は医療分野で一般的になりつつあり、生物医学工学の分野における医療用ロボットへの資金提供が...

...

...

...

10億件の速達配送のピークを迎える中、Baidu OCRが物流企業のスピードアップにどのように貢献しているかをご覧ください。

ダブル11の大割引が戻ってきました。新規のお客様が最初に購入できる厳選商品...速達便のビジネスプロ...

ついにビッグデータ、機械学習、データサイエンスをわかりやすく説明する人が出てきた

データの爆発的な増加とその利用可能性は、人工知能 (AI) の発展を促進しました。人工ニューラル ネ...

2018年のトップ10の技術開発トレンド:人工知能は応用の「爆発期」に入る

情報技術の調査およびコンサルティング会社であるガートナーは最近、2018 年の戦略的技術開発のトレン...

暑い天候でのドローン飛行の安全ガイド:理解できましたか?

夏が進むにつれて気温もどんどん高くなっていきます。最近クウェートの気温は50℃~70℃に達したと報じ...

人工知能の発展と未来

人工知能(AI)技術の継続的な発展により、さまざまなAI製品が徐々に私たちの生活に入り込んできました...

オンラインショッピングに革命が起こりました! Googleの最新AIモデルでは、姿勢を変えずにワンクリックで服を試着できる

ワンクリック着せ替えがGoogleで実現しました!このAIフィッティングモデルTryOnDiffus...

オープンソースの人工知能ソフトウェア 15 種類、あなたのお気に入りはどれですか?

人工知能は現在最も注目されている科学研究分野の一つです。 IBM、Google、Microsoft、...

脳に埋め込まれたAIチップはてんかん発作を予測し、2時間で充電して1週間持続する

脳にAIチップを埋め込むことで、てんかん発作をいつでも予測し、制御できるようになります。これは、我が...

Python 実用コード - 無限分類ツリー構造生成アルゴリズム

バックエンド開発者にとっては、無限レベルの分類に強い印象を受けたのではないでしょうか。最初はかなり時...