人気の DragGAN は正式にオープンソース化され、GitHub で約 18,000 個のスターを獲得しています。清華大学の卒業生がGANを反撃に導き、象は1秒で方向転換した

人気の DragGAN は正式にオープンソース化され、GitHub で約 18,000 個のスターを獲得しています。清華大学の卒業生がGANを反撃に導き、象は1秒で方向転換した

先月、「Drag Your GAN」と呼ばれる核レベルの研究がAIグラフィックス界で爆発的に広がりました。

この論文は、MPII、MIT、ペンシルバニア大学、Googleなどの研究者によって共同で発表され、SIGGRAPH 2023に採択されました。

これからは、ドラッグアンドドロップだけで完璧な写真編集を実現し、許可されていないものも編集できるようになります。

写真

写真の表情がよくないですか?建てる!顔が細くないですか?建てる!カメラに向いた顔の角度が間違っていませんか?建てる!

そして今、チームは公式コードを正式にリリースしました!

写真

プロジェクトアドレス: https://github.com/XingangPan/DragGAN

まず、事前トレーニング済みの StyleGAN2 の重みをダウンロードする必要があります。

 sh scripts/download_model.sh

StyleGAN-Human および Landscapes HQ (LHQ) データセットを試してみたい場合は、ダウンロードした重み​​を ./checkpoints ディレクトリに配置する必要があります。

次に、DragGAN GUI を起動して、GAN で生成された画像を編集します。

 sh scripts/gui.sh

実際の画像を編集したい場合は、PTI などのツールを使用して GAN 反転を実行する必要があります。新しい潜在コードとモデルの重みが GUI に読み込まれます。

一部のネットユーザーは、試してみたところ、ビデオメモリを6G程度しか消費しないが、効果はあまり理想的ではなく、その後の改善を待つ必要があると述べた。

写真

GANが反撃、1秒で象を方向転換

名前の通り、DragGAN を使用すると、画像を自由にドラッグして編集することができ、オブジェクトの形状、レイアウト、姿勢、表現、位置、サイズを正確に制御できます。

写真

プロジェクトアドレス: https://vcai.mpi-inf.mpg.de/projects/DragGAN/

キーポイントの開始位置と終了位置を決定した後、GAN を使用してオブジェクトの物理的構造に基づいて論理的な画像を生成し、完璧な画像が完成します。

写真

たとえば、優しく引っ張るだけで、垂れ下がった犬の耳を持ち上げたり、犬を立った状態から横たわった状態に変えたり、犬にすぐに口を開けて笑わせたりすることができます。

写真

モデルのポーズは自由に変えることができ、ショートパンツはクロップドパンツに、半袖は長袖に変えることができます。

写真

湖畔の木々は一瞬にして大きく成長し、湖に映る木々の姿も変化します。

写真

元の写真では太陽は顔を見せていないのですか?問題ありません。DragGAN が日の出をお届けします。

写真

これに対しネットユーザーらは「象を振り向かせよう」という甲側の要求がついに実現できるのではないかと冗談を飛ばした。

DragGAN: 画像処理の新時代

この研究で、チームは、画像内の任意の点をターゲット ポイントまでインタラクティブに「ドラッグ」するという、強力だがまだ十分に研究されていない GAN の制御方法を研究しました。

写真

DragGAN は主に次の 2 つの主要コンポーネントで構成されています。

1. 機能ベースのモーションモニタリングにより、動作点を目標位置に移動させる

2. 識別的なGAN特徴を使用して動作点の位置を継続的に特定する新しいポイント追跡方法

DragGAN を使用すると、誰でもピクセル単位の精度で制御し、動物、車、人間、風景など、さまざまなカテゴリのポーズ、形状、表情、レイアウトを編集できます。

これらの操作は GAN の学習された生成画像マニフォールドに対して実行されるため、遮蔽されたコンテンツや変形された画像などの困難なシナリオでも現実的な出力を生成する傾向があります。

定性的および定量的な比較により、DragGAN は画像操作とポイント追跡タスクの両方において従来の方法を大幅に上回ることがわかりました。

ドラッグ編集

DragGAN を使用すると、ユーザーはいくつかの操作ポイント (赤い点)、ターゲット ポイント (青い点)、および移動可能な領域を表すオプションのマスク (明るい領域) を設定するだけで済みます。その後、モデルは後続の画像生成を自動的に完了します。

動的監視ステップでは、動作点 (赤い点) をターゲット ポイント (青い点) に向かって移動し、ポイント追跡ステップでは、動作点を更新して画像内のオブジェクトを追跡します。このプロセスは、動作点が対応する目標点に到達するまで継続されます。

写真

プロセス

具体的には、チームはジェネレーターの特徴マップ上で変位パッチ損失を介して動的モニタリングを実装し、同じ特徴空間内で最近傍検索を介してポイント追跡を実行します。

写真

方法

注目すべきは、ユーザーがマスクを追加することで編集が必要な領域を制御できることです。

犬の頭をマスクすると、編集した画像では頭だけが動き、他の部分は変化しないことがわかります。しかし、マスクがなければ、犬の体全体が一緒に動いてしまいます。

これは、ポイントベースの操作には複数の可能な解決策があることが多く、GAN はトレーニング データから学習した画像マニフォールド内で最も近い解決策を見つける傾向があることも示しています。

写真

マスクの効果

実際の画像の編集では、チームはGAN反転を適用してStyleGANの潜在空間にマッピングし、ポーズ、髪、形状、表情を個別に編集しました。

写真

写真

リアル画像処理

それだけでなく、DragGAN は強力な一般化機能も備えており、トレーニング画像の分布を超えた画像を作成できます。例えば、大きく開いた口や、極限まで拡大された車輪など。

写真

一般化

著者について

パン・シンガン

論文の第一著者である潘新剛氏は、現在、南洋理工大学コンピュータ科学工学部の助教授に正式に就任している。

研究の方向性は主に、生成 AI モデル、AI と人間の共同コンテンツ生成、3D/ビデオ編集と生成、ニューラルシーン表現とレンダリング、物理的に知覚されるコンテンツ生成に焦点を当てています。

これに先立ち、彼は2016年に清華大学で学士号を取得し、2021年に香港中文大学マルチメディア研究所で唐暁教授の指導の下で博士号を取得しました。その後、マックス・プランクコンピュータサイエンス研究所でクリスチャン・テオバルト教授の指導の下、博士研究員として研究を行いました。

劉玲傑

Lingjie Liu 氏は、ペンシルバニア大学コンピューター情報科学部の Aravind K. Joshi 助教授です。同氏はペンシルバニア大学コンピューター グラフィックス研究所の所長であり、一般ロボット工学、自動化、センシング、および知覚 (GRASP) 研究所のメンバーでもあります。

それ以前は、マックス・プランクコンピュータサイエンス研究所のリーゼ・マイトナー博士研究員でした。彼は2019年に香港大学で博士号を取得しました。

<<:  Google、金融機関の内部リスク警告の精度を2~4倍に高められるAIマネーロンダリング対策ツールをリリース

>>: 

ブログ    

推薦する

大規模な言語モデルをローカルで実行する 5 つの簡単な方法

翻訳者 |陳俊レビュー | Chonglou今日では、ChatGPT や phind などの AI ...

人工知能に関する長期的および短期的な懸念

人工知能(AI)技術の発展により、いつか「超人」的なAIが出現する日は来るのでしょうか?もしそうなれ...

インテリジェントなケアに加えて、感情的なニーズもあります。人工知能と高齢者ケアについてお話ししましょう。

2017年は「人工知能」が輝きました。ディープラーニング「AlphaGo」が柯潔に勝利し、無人運転...

ByteDance によって否定された中国版 Sora の何がそんなに素晴らしいのでしょうか?

執筆者 | Yun Zhao制作:51CTO テクノロジースタック(WeChat ID:blog)最...

...

10分で多言語チャットボットを作成する方法

[51CTO.com クイック翻訳]チャットボットは、人間との会話を自動的に行い、組織と顧客間のビジ...

Golang GC についていくつか誤解がありますが、本当に Java アルゴリズムよりも高度なのでしょうか?

[[273650]]まず最初に強調しておきたいのは、この記事の発端は High Availabil...

PyTorch と TensorFlow で画像分類モデルをトレーニングする方法

導入画像分類は、コンピューター ビジョンの最も重要なアプリケーションの 1 つです。その応用範囲は、...

Midjourneyの隠されたスキルをアンロックする:プロンプトを変更すると、4つの正方形のグリッドが「分裂」します

Midjourney は多くの人が使用するグラフィック デザイン ツールです。最近アップデートされた...

2021年の中国の人工知能市場の現状と応用動向の分析人工知能は業界規模を5000億に押し上げ、幅広い応用産業を持っています

人工知能業界の主要上場企業:現在、国内の人工知能業界の上場企業は主に百度(BAIDU)、テンセント(...

機械学習開発ガイド(基礎編)

【51CTO.comオリジナル記事】序文機械学習は人工知能の分野で重要な部分を占めています。簡単に...

毎秒400ペタフロップスの計算能力を備えた最速のAIコンピュータが稼働中です。宇宙最大の3Dマップが構築中

宇宙のコンピューター探査における壮大な瞬間!最近、人工知能ワークロード向けの世界最速スーパーコンピュ...

革新的な人工視覚脳インプラントが初めて視覚障害者に移植される

現時点では失明を治す方法はないが、初めての人工視覚システムの移植が初めて成功し、失明した人々の視力を...

Tencent Youtu:ビジュアルAIはどこまで発展したのか?

[[204589]] AIの発展に伴い、コンピュータービジョン技術の応用範囲は徐々に広がっています...

Keras+LSTM+CRF を使用した固有表現抽出 NER の練習

[[339715]]テキスト分割、品詞タグ付け、固有表現認識は、自然言語処理の分野では非常に基本的な...