Nvidiaは写真編集ソフトウェアGANを

[[438694]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

Nvidia の最新 AI ツールが再びネットユーザーを興奮させている。

"待ちきれない！"

あるネットユーザーはデモ動画を見た後こう言った。

手先の器用さに乏しい人にとって、NVIDIA の EditGAN は、基本的な知識がなくても写真編集ができる魔法のツールです。

高品質かつ高精度で画像を修正できるため、写真編集がこれまで以上に簡単になります。

たとえば、肖像画や彫刻を「ウインク」させます。

写真をアップロードしたりスケッチを描いたりできれば、簡単に写真を編集できます。このような「魔法の」ツールがネットユーザーの間で人気があるのも不思議ではありません。

EditGAN では、ホイールのスポークのサイズや方向を変更することもできます。

もちろん、目の方向や髪の毛の量などをコントロールするなど、実物の写真でも問題ありません。

猫の耳のサイズを変更することもできます。

画像をアップロードするだけで、プログラムがセマンティックセグメンテーションスケッチを生成し、そのスケッチ上で直接ペイントしたり変更したりできるようになります。

△ スケッチに歯を加えると笑顔になります

EditGAN は変更したい部分のみを修正し、残りの部分はそのまま残します。

最近の GauGAN2 と同様に、NVIDIA は EditGAN 用のコンピュータソフトウェアも開発しました。

この研究はNeurIPS 2021に採択されました。

この記事の第一著者は、トロント大学の中国人博士課程学生で、同大学の Vector Institute と NVIDIA でも研究を行っている Ling Huan 氏です。

GANを搭載した初の画像エディタ

研究者らによると、EditGAN は初のGAN 駆動型画像編集フレームワークであり、その主な機能は以下のとおりです。

1. 非常に高精度な編集を提供する
2. 少量の注釈付きトレーニングデータのみが必要です
3. リアルタイムでインタラクティブに実行できる
4. 複数の編集を直接合成できる
5. 実際の埋め込み画像、GAN生成画像、さらにはドメイン外画像にも適しています。

まず、EditGANはStyleGAN2を使用して画像を生成します。

StyleGAN2 のワークフローは、画像を取得し、それを潜在空間にエンコードし、ジェネレーターを使用してこのエンコードされたサブスペースを別の画像に変換することです。

問題は、この空間が多次元であるため、このサブスペースのどの部分が画像内のどの特徴を再構築する役割を担っているかを視覚化して識別することが難しいことです。

通常、モデル内の潜在空間のどの部分がどの機能を制御しているかを知るには、大規模な注釈付きデータセットが必要です。

EditGAN は、ラベル付けされたデータセットの例をいくつか学習するだけで、セグメンテーションを画像に一致させることができるため、画像ごとの編集が可能になります。

EditGAN は、これまでにない詳細と自由度を提供しながら、完全な画像品質を維持します。

さらに重要なのは、EditGAN は潜在空間のどの部分がコントロールに対応するかを認識するだけでなく、それらをスケッチに対応させることもできることです。この方法では、スケッチを修正することで画像を簡単に修正できます。

EditGAN は DatasetGAN に基づいており、画像モデリングとそのセマンティックセグメンテーションを組み合わせています。

EditGAN の重要なアイデアは、画像とピクセルレベルの言語セグメンテーションの結合分布を活用することです。

具体的には、GAN の潜在空間に画像を埋め込み、セグメンテーション編集に基づいて条件付き潜在コード最適化を実行します。

上記は、EditGAN のトレーニングプロセスを示しています。セマンティックセグメンテーションを変更し、編集領域内の新しいセグメンテーションと編集領域外の RGB の外観と一致するように共有潜在コードを最適化します。対応する勾配は共有ジェネレータを通じて逆伝播されます。

最適化を償却するために、著者らは実装された編集の潜在空間で「編集ベクトル」を見つけます。このフレームワークにより、任意の数の編集ベクトルを学習し、それをリアルタイムの速度で他の画像に直接適用することができます。

Pピクチャーツールは近日リリース予定

著者チームは、NVIDIA の内部 GPU クラスター上の V100 を使用して、基盤となる StyleGAN2、エンコーダーとセグメンテーションブランチのトレーニング、および埋め込みと編集の最適化を実行しました。

このプロジェクトでは約 14,000 GPU 時間が使用され、そのうち約 3,500 GPU 時間が最終実験に使用され、残りは研究プロジェクトの初期段階での調査とテストに使用されました。

EditGANの動作については、V100で30（60）ステップの最適化を実行するのに11.4（18.9）秒かかります。

トレーニングすることはできませんが、トレーニング済みのモデルを使用して画像を Photoshop で加工することは可能です。

NVIDIAがこれまでにリリースしたCanvasは、GauGAN2などの最新の成果を統合しており、手描きのスケッチから詳細なPSファイルを生成できます。

おそらく Canvas もすぐに EditGAN を統合するでしょう。

良いニュースとしては、Nvidia がコードと編集ツールソフトウェアがまもなく利用可能になると言っていることです。ぜひ試してみたいですか?

論文の宛先:
https://arxiv.org/abs/2111.03186

補足資料:
https://nv-tlabs.github.io/editGAN/editGAN_supp_compressed.pdf

説明ビデオ:
https://www.youtube.com/watch?v=bus4OGyMQec

<<: ビジュアルTransformer BERTの事前トレーニングのための新しい方法：USTC、MSRAなどが提案したPeCo

>>: Google は NLP モデルのデバッグを許可しており、必要なのは「ドラフトペーパー」だけです。

効率が1200倍にアップ！ MIT、医薬品製造向けの新たなAIモデルを開発

ブログ

Nvidiaは写真編集ソフトウェアGANを

GANを搭載した初の画像エディタ

Pピクチャーツールは近日リリース予定

効率が1200倍にアップ！ MIT、医薬品製造向けの新たなAIモデルを開発

データ構造とアルゴリズムについて知っておくべき 50 のコード実装

量子化学計算と機械学習に基づいて、肉眼で検出可能な蛍光分子をゼロから作成する

100,000 台以上の Vision Transformer を一度にトレーニングするにはどうすればよいでしょうか?

AI人工知能の今後の発展方向と展望

人工知能が注目を集め、ロボットキャスターが生放送の「新参者」に

世界の自動運転事故を比較することで、そのデータと真実が明らかになった。

推薦する

エンタープライズデータ開発のための大規模言語モデル: 概念、懸念事項、ホットトピック

強力な大型モデルにはどんなスーパーパワーがあるのでしょうか?

AlphaGO よりも強力な人工知能アルゴリズムが登場しました!まさに中国です！

袖の中の「スーパーパワー」：FacebookのリストバンドARセンサーは空中で入力してインターフェースを制御できる、LeCunはそれを気に入っている

Baidu WorldがAI応用レポートカードを発表、国民経済の3大産業に進出

ImageNetは人間の顔をぼかすことにしたが、ハスキー犬の顔の写真の認識率は急上昇した

マッキンゼーのレポート: 2030 年までに 8 億人が機械に置き換えられ、約 1 億人の中国人が転職を余儀なくされる!

人工知能は今年のトップ10の新興職業の中で第1位にランクイン

銀行、金融、保険業界に革命をもたらす主要技術

生成的敵対ネットワークがなぜ必要なのでしょうか?

自動運転車の意思決定制御システム技術を分析した記事

ChatGPTに勝つ？ OpenChat が 105.7% のパフォーマンスでスタンフォード AlpacaEval オープンソースリストのトップに