人気の DragGAN は正式にオープンソース化され、GitHub で約 18,000 個のスターを獲得しています。清華大学の卒業生がGANを反撃に導き、象は1秒で方向転換した

先月、「Drag Your GAN」と呼ばれる核レベルの研究がAIグラフィックス界で爆発的に広がりました。

この論文は、MPII、MIT、ペンシルバニア大学、Googleなどの研究者によって共同で発表され、SIGGRAPH 2023に採択されました。

これからは、ドラッグアンドドロップだけで完璧な写真編集を実現し、許可されていないものも編集できるようになります。

写真

写真の表情がよくないですか？建てる！顔が細くないですか？建てる！カメラに向いた顔の角度が間違っていませんか？建てる！

そして今、チームは公式コードを正式にリリースしました!

写真

プロジェクトアドレス: https://github.com/XingangPan/DragGAN

まず、事前トレーニング済みの StyleGAN2 の重みをダウンロードする必要があります。

 sh scripts/download_model.sh

StyleGAN-Human および Landscapes HQ (LHQ) データセットを試してみたい場合は、ダウンロードした重みを ./checkpoints ディレクトリに配置する必要があります。

次に、DragGAN GUI を起動して、GAN で生成された画像を編集します。

 sh scripts/gui.sh

実際の画像を編集したい場合は、PTI などのツールを使用して GAN 反転を実行する必要があります。新しい潜在コードとモデルの重みが GUI に読み込まれます。

一部のネットユーザーは、試してみたところ、ビデオメモリを6G程度しか消費しないが、効果はあまり理想的ではなく、その後の改善を待つ必要があると述べた。

写真

GANが反撃、1秒で象を方向転換

名前の通り、DragGAN を使用すると、画像を自由にドラッグして編集することができ、オブジェクトの形状、レイアウト、姿勢、表現、位置、サイズを正確に制御できます。

写真

プロジェクトアドレス: https://vcai.mpi-inf.mpg.de/projects/DragGAN/

キーポイントの開始位置と終了位置を決定した後、GAN を使用してオブジェクトの物理的構造に基づいて論理的な画像を生成し、完璧な画像が完成します。

写真

たとえば、優しく引っ張るだけで、垂れ下がった犬の耳を持ち上げたり、犬を立った状態から横たわった状態に変えたり、犬にすぐに口を開けて笑わせたりすることができます。

写真

モデルのポーズは自由に変えることができ、ショートパンツはクロップドパンツに、半袖は長袖に変えることができます。

写真

湖畔の木々は一瞬にして大きく成長し、湖に映る木々の姿も変化します。

写真

元の写真では太陽は顔を見せていないのですか?問題ありません。DragGAN が日の出をお届けします。

写真

これに対しネットユーザーらは「象を振り向かせよう」という甲側の要求がついに実現できるのではないかと冗談を飛ばした。

DragGAN: 画像処理の新時代

この研究で、チームは、画像内の任意の点をターゲットポイントまでインタラクティブに「ドラッグ」するという、強力だがまだ十分に研究されていない GAN の制御方法を研究しました。

写真

DragGAN は主に次の 2 つの主要コンポーネントで構成されています。

1. 機能ベースのモーションモニタリングにより、動作点を目標位置に移動させる

2. 識別的なGAN特徴を使用して動作点の位置を継続的に特定する新しいポイント追跡方法

DragGAN を使用すると、誰でもピクセル単位の精度で制御し、動物、車、人間、風景など、さまざまなカテゴリのポーズ、形状、表情、レイアウトを編集できます。

これらの操作は GAN の学習された生成画像マニフォールドに対して実行されるため、遮蔽されたコンテンツや変形された画像などの困難なシナリオでも現実的な出力を生成する傾向があります。

定性的および定量的な比較により、DragGAN は画像操作とポイント追跡タスクの両方において従来の方法を大幅に上回ることがわかりました。

ドラッグ編集

DragGAN を使用すると、ユーザーはいくつかの操作ポイント (赤い点)、ターゲットポイント (青い点)、および移動可能な領域を表すオプションのマスク (明るい領域) を設定するだけで済みます。その後、モデルは後続の画像生成を自動的に完了します。

動的監視ステップでは、動作点 (赤い点) をターゲットポイント (青い点) に向かって移動し、ポイント追跡ステップでは、動作点を更新して画像内のオブジェクトを追跡します。このプロセスは、動作点が対応する目標点に到達するまで継続されます。

写真

プロセス

具体的には、チームはジェネレーターの特徴マップ上で変位パッチ損失を介して動的モニタリングを実装し、同じ特徴空間内で最近傍検索を介してポイント追跡を実行します。

写真

方法

注目すべきは、ユーザーがマスクを追加することで編集が必要な領域を制御できることです。

犬の頭をマスクすると、編集した画像では頭だけが動き、他の部分は変化しないことがわかります。しかし、マスクがなければ、犬の体全体が一緒に動いてしまいます。

これは、ポイントベースの操作には複数の可能な解決策があることが多く、GAN はトレーニングデータから学習した画像マニフォールド内で最も近い解決策を見つける傾向があることも示しています。

写真

マスクの効果

実際の画像の編集では、チームはGAN反転を適用してStyleGANの潜在空間にマッピングし、ポーズ、髪、形状、表情を個別に編集しました。

写真

リアル画像処理

それだけでなく、DragGAN は強力な一般化機能も備えており、トレーニング画像の分布を超えた画像を作成できます。例えば、大きく開いた口や、極限まで拡大された車輪など。

写真

一般化

著者について

パン・シンガン

論文の第一著者である潘新剛氏は、現在、南洋理工大学コンピュータ科学工学部の助教授に正式に就任している。

研究の方向性は主に、生成 AI モデル、AI と人間の共同コンテンツ生成、3D/ビデオ編集と生成、ニューラルシーン表現とレンダリング、物理的に知覚されるコンテンツ生成に焦点を当てています。

これに先立ち、彼は2016年に清華大学で学士号を取得し、2021年に香港中文大学マルチメディア研究所で唐暁教授の指導の下で博士号を取得しました。その後、マックス・プランクコンピュータサイエンス研究所でクリスチャン・テオバルト教授の指導の下、博士研究員として研究を行いました。

劉玲傑

Lingjie Liu 氏は、ペンシルバニア大学コンピューター情報科学部の Aravind K. Joshi 助教授です。同氏はペンシルバニア大学コンピューターグラフィックス研究所の所長であり、一般ロボット工学、自動化、センシング、および知覚 (GRASP) 研究所のメンバーでもあります。

それ以前は、マックス・プランクコンピュータサイエンス研究所のリーゼ・マイトナー博士研究員でした。彼は2019年に香港大学で博士号を取得しました。

<<: Google、金融機関の内部リスク警告の精度を2～4倍に高められるAIマネーロンダリング対策ツールをリリース

>>:

人間に一歩近づく | MIT×UMichが物体の空間関係を理解できる人工知能を研究

人気の DragGAN は正式にオープンソース化され、GitHub で約 18,000 個のスターを獲得しています。清華大学の卒業生がGANを反撃に導き、象は1秒で方向転換した

GANが反撃、1秒で象を方向転換

DragGAN: 画像処理の新時代

方法

著者について

人間に一歩近づく | MIT×UMichが物体の空間関係を理解できる人工知能を研究

巨大企業の障壁の中で、人工知能のサブセクターでリーダーが出現している。これはAIにとって真の新しいチャンスである。

AI は無限であり、あなたの声によって動かされます。マイクロソフトは慈善団体や業界のパートナーと協力し、テクノロジーで愛を育むお手伝いをします。

強化学習とは具体的に何であり、どのように機能するのでしょうか?

コロナウイルスのパンデミックはデジタル音声技術に新たな刺激を与えた

自動運転分野における機械学習アルゴリズムの応用に関する包括的なレビュー

将来の量子コンピューティング攻撃の脅威に対処するため、我が国は新たなデータ保護暗号アルゴリズムの研究を開始しました。

今後 20 年間で人工知能は何ができるでしょうか?

13Bモデルはあらゆる面でGPT-4を圧倒しますか？この裏にあるトリックは何でしょうか?

推薦する

機械学習に基づくユーザーエンティティ行動分析技術のアカウント異常検知への応用

ソラがビデオ世代を爆発させたとき、Metaは中国の著者の主導で、エージェントを使用してビデオを自動的に編集し始めました。

PyTorch と TensorFlow のベンチマーク: どちらのプラットフォームが NLP モデル推論をより速く実行しますか?

AI のブラックボックスを開く: 「説明可能な」人工知能 (XAI) への認知ガイド!

全国人民代表大会代表劉清鋒氏：2019年は人工知能の大規模応用の年となる

学覇君主任科学者陳瑞峰：テクノロジーを活用して知識のサイロ化を減らし、教育の効率化を実現する

自動運転の利点は明らかだ。政治協商会議委員の李延宏氏：大規模な商業利用には政策革新が必要

人工知能の3つの大きな弱点

製造業における人工知能: 産業用 AI のユースケース

浙江大学の「ホッキョクグマセーター」がサイエンス誌に掲載、ダウンジャケットの5倍の断熱効果

Python 用 OpenCV について Dlib を使って顔検出を実装する