先月、「Drag Your GAN」と呼ばれる核レベルの研究がAIグラフィックス界で爆発的に広がりました。 この論文は、MPII、MIT、ペンシルバニア大学、Googleなどの研究者によって共同で発表され、SIGGRAPH 2023に採択されました。 これからは、ドラッグアンドドロップだけで完璧な写真編集を実現し、許可されていないものも編集できるようになります。 写真 写真の表情がよくないですか?建てる!顔が細くないですか?建てる!カメラに向いた顔の角度が間違っていませんか?建てる! そして今、チームは公式コードを正式にリリースしました! 写真 プロジェクトアドレス: https://github.com/XingangPan/DragGAN まず、事前トレーニング済みの StyleGAN2 の重みをダウンロードする必要があります。 StyleGAN-Human および Landscapes HQ (LHQ) データセットを試してみたい場合は、ダウンロードした重みを ./checkpoints ディレクトリに配置する必要があります。 次に、DragGAN GUI を起動して、GAN で生成された画像を編集します。 実際の画像を編集したい場合は、PTI などのツールを使用して GAN 反転を実行する必要があります。新しい潜在コードとモデルの重みが GUI に読み込まれます。 一部のネットユーザーは、試してみたところ、ビデオメモリを6G程度しか消費しないが、効果はあまり理想的ではなく、その後の改善を待つ必要があると述べた。 写真 GANが反撃、1秒で象を方向転換名前の通り、DragGAN を使用すると、画像を自由にドラッグして編集することができ、オブジェクトの形状、レイアウト、姿勢、表現、位置、サイズを正確に制御できます。 写真 プロジェクトアドレス: https://vcai.mpi-inf.mpg.de/projects/DragGAN/ キーポイントの開始位置と終了位置を決定した後、GAN を使用してオブジェクトの物理的構造に基づいて論理的な画像を生成し、完璧な画像が完成します。 写真 たとえば、優しく引っ張るだけで、垂れ下がった犬の耳を持ち上げたり、犬を立った状態から横たわった状態に変えたり、犬にすぐに口を開けて笑わせたりすることができます。 写真 モデルのポーズは自由に変えることができ、ショートパンツはクロップドパンツに、半袖は長袖に変えることができます。 写真 湖畔の木々は一瞬にして大きく成長し、湖に映る木々の姿も変化します。 写真 元の写真では太陽は顔を見せていないのですか?問題ありません。DragGAN が日の出をお届けします。 写真 これに対しネットユーザーらは「象を振り向かせよう」という甲側の要求がついに実現できるのではないかと冗談を飛ばした。 DragGAN: 画像処理の新時代この研究で、チームは、画像内の任意の点をターゲット ポイントまでインタラクティブに「ドラッグ」するという、強力だがまだ十分に研究されていない GAN の制御方法を研究しました。 写真 DragGAN は主に次の 2 つの主要コンポーネントで構成されています。 1. 機能ベースのモーションモニタリングにより、動作点を目標位置に移動させる 2. 識別的なGAN特徴を使用して動作点の位置を継続的に特定する新しいポイント追跡方法 DragGAN を使用すると、誰でもピクセル単位の精度で制御し、動物、車、人間、風景など、さまざまなカテゴリのポーズ、形状、表情、レイアウトを編集できます。 これらの操作は GAN の学習された生成画像マニフォールドに対して実行されるため、遮蔽されたコンテンツや変形された画像などの困難なシナリオでも現実的な出力を生成する傾向があります。 定性的および定量的な比較により、DragGAN は画像操作とポイント追跡タスクの両方において従来の方法を大幅に上回ることがわかりました。 ドラッグ編集 DragGAN を使用すると、ユーザーはいくつかの操作ポイント (赤い点)、ターゲット ポイント (青い点)、および移動可能な領域を表すオプションのマスク (明るい領域) を設定するだけで済みます。その後、モデルは後続の画像生成を自動的に完了します。 動的監視ステップでは、動作点 (赤い点) をターゲット ポイント (青い点) に向かって移動し、ポイント追跡ステップでは、動作点を更新して画像内のオブジェクトを追跡します。このプロセスは、動作点が対応する目標点に到達するまで継続されます。 写真 プロセス 具体的には、チームはジェネレーターの特徴マップ上で変位パッチ損失を介して動的モニタリングを実装し、同じ特徴空間内で最近傍検索を介してポイント追跡を実行します。 写真 方法注目すべきは、ユーザーがマスクを追加することで編集が必要な領域を制御できることです。 犬の頭をマスクすると、編集した画像では頭だけが動き、他の部分は変化しないことがわかります。しかし、マスクがなければ、犬の体全体が一緒に動いてしまいます。 これは、ポイントベースの操作には複数の可能な解決策があることが多く、GAN はトレーニング データから学習した画像マニフォールド内で最も近い解決策を見つける傾向があることも示しています。 写真 マスクの効果 実際の画像の編集では、チームはGAN反転を適用してStyleGANの潜在空間にマッピングし、ポーズ、髪、形状、表情を個別に編集しました。 写真 写真 リアル画像処理 それだけでなく、DragGAN は強力な一般化機能も備えており、トレーニング画像の分布を超えた画像を作成できます。例えば、大きく開いた口や、極限まで拡大された車輪など。 写真 一般化 著者についてパン・シンガン 論文の第一著者である潘新剛氏は、現在、南洋理工大学コンピュータ科学工学部の助教授に正式に就任している。 研究の方向性は主に、生成 AI モデル、AI と人間の共同コンテンツ生成、3D/ビデオ編集と生成、ニューラルシーン表現とレンダリング、物理的に知覚されるコンテンツ生成に焦点を当てています。 これに先立ち、彼は2016年に清華大学で学士号を取得し、2021年に香港中文大学マルチメディア研究所で唐暁教授の指導の下で博士号を取得しました。その後、マックス・プランクコンピュータサイエンス研究所でクリスチャン・テオバルト教授の指導の下、博士研究員として研究を行いました。 劉玲傑 Lingjie Liu 氏は、ペンシルバニア大学コンピューター情報科学部の Aravind K. Joshi 助教授です。同氏はペンシルバニア大学コンピューター グラフィックス研究所の所長であり、一般ロボット工学、自動化、センシング、および知覚 (GRASP) 研究所のメンバーでもあります。 それ以前は、マックス・プランクコンピュータサイエンス研究所のリーゼ・マイトナー博士研究員でした。彼は2019年に香港大学で博士号を取得しました。 |
<<: Google、金融機関の内部リスク警告の精度を2~4倍に高められるAIマネーロンダリング対策ツールをリリース
過去2年間、安全都市、インテリジェント交通、スノーブライトプロジェクトの継続的な発展と深化に伴い、ビ...
[[433811]]みなさんこんにちは。私は Python の専門家です。驚きましたか?先週、この...
3月15日、毎年恒例のCCTV Finance 3.15 Galaが開催されています。序文から判断す...
このコースでは、ナレッジグラフ技術の開発動向、機械学習に基づくラベルグラフ技術のアイデア、主要技術の...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
次の技術変化が始まる前に、将来の発展の方向を予測・判断し、技術変化に伴う可能性のある困難を軽減する必...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
最近、NPJ—Computational Materials誌に研究論文が掲載されました。この論文は...
最近、中国自動車工学協会副秘書長、国際自動車工学科学技術革新戦略研究所執行理事の侯福神氏は上海モータ...
「墜落」とは模型飛行機の用語です。簡単に言うと、模型飛行機が不適切な操作や機械の故障により異常に地...
AI業界の実務家にとっては、眠れない夜を過ごしたかもしれない。北京時間11月7日早朝、アメリカの人工...