Nvidiaは写真編集ソフトウェアGANを

Nvidiaは写真編集ソフトウェアGANを

[[438694]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Nvidia の最新 AI ツールが再びネットユーザーを興奮させている。

"待ちきれない!"

あるネットユーザーはデモ動画を見た後こう言った。

手先の器用さに乏しい人にとって、NVIDIA の EditGAN は、基本的な知識がなくても写真編集ができる魔法のツールです。

高品質かつ高精度で画像を修正できるため、写真編集がこれまで以上に簡単になります。

たとえば、肖像画や彫刻を「ウインク」させます。

写真をアップロードしたりスケッチを描いたりできれば、簡単に写真を編集できます。このような「魔法の」ツールがネットユーザーの間で人気があるのも不思議ではありません。

EditGAN では、ホイールのスポークのサイズや方向を変更することもできます。

もちろん、目の方向や髪の毛の量などをコントロールするなど、実物の写真でも問題ありません。

猫の耳のサイズを変更することもできます。

画像をアップロードするだけで、プログラムがセマンティックセグメンテーションスケッチを生成し、そのスケッチ上で直接ペイントしたり変更したりできるようになります。

△ スケッチに歯を加えると笑顔になります

EditGAN は変更したい部分のみを修正し、残りの部分はそのまま残します。

最近の GauGAN2 と同様に、NVIDIA は EditGAN 用のコンピュータ ソフトウェアも開発しました。

この研究はNeurIPS 2021に採択されました。

この記事の第一著者は、トロント大学の中国人博士課程学生で、同大学の Vector Institute と NVIDIA でも研究を行っている Ling Huan 氏です。

[[438700]]

GANを搭載した初の画像エディタ

研究者らによると、EditGAN は初のGAN 駆動型画像編集フレームワークであり、その主な機能は以下のとおりです。

1. 非常に高精度な編集を提供する
2. 少量の注釈付きトレーニングデータのみが必要です
3. リアルタイムでインタラクティブに実行できる
4. 複数の編集を直接合成できる
5. 実際の埋め込み画像、GAN生成画像、さらにはドメイン外画像にも適しています。

まず、EditGANはStyleGAN2を使用して画像を生成します。

StyleGAN2 のワークフローは、画像を取得し、それを潜在空間にエンコードし、ジェネレーターを使用してこのエンコードされたサブスペースを別の画像に変換することです。

問題は、この空間が多次元であるため、このサブスペースのどの部分が画像内のどの特徴を再構築する役割を担っているかを視覚化して識別することが難しいことです。

通常、モデル内の潜在空間のどの部分がどの機能を制御しているかを知るには、大規模な注釈付きデータセットが必要です。

EditGAN は、ラベル付けされたデータセットの例をいくつか学習するだけで、セグメンテーションを画像に一致させることができるため、画像ごとの編集が可能になります。

EditGAN は、これまでにない詳細と自由度を提供しながら、完全な画像品質を維持します。

さらに重要なのは、EditGAN は潜在空間のどの部分がコントロールに対応するかを認識するだけでなく、それらをスケッチに対応させることもできることです。この方法では、スケッチを修正することで画像を簡単に修正できます。

EditGAN は DatasetGAN に基づいており、画像モデリングとそのセマンティックセグメンテーションを組み合わせています。

EditGAN の重要なアイデアは、画像とピクセルレベルの言語セグメンテーションの結合分布を活用することです。

具体的には、GAN の潜在空間に画像を埋め込み、セグメンテーション編集に基づいて条件付き潜在コード最適化を実行します。

上記は、EditGAN のトレーニング プロセスを示しています。セマンティック セグメンテーションを変更し、編集領域内の新しいセグメンテーションと編集領域外の RGB の外観と一致するように共有潜在コードを最適化します。対応する勾配は共有ジェネレータを通じて逆伝播されます。

最適化を償却するために、著者らは実装された編集の潜在空間で「編集ベクトル」を見つけます。このフレームワークにより、任意の数の編集ベクトルを学習し、それをリアルタイムの速度で他の画像に直接適用することができます。

Pピクチャーツールは近日リリース予定

著者チームは、NVIDIA の内部 GPU クラスター上の V100 を使用して、基盤となる StyleGAN2、エンコーダーとセグメンテーション ブランチのトレーニング、および埋め込みと編集の最適化を実行しました。

このプロジェクトでは約 14,000 GPU 時間が使用され、そのうち約 3,500 GPU 時間が最終実験に使用され、残りは研究プロジェクトの初期段階での調査とテストに使用されました。

EditGANの動作については、V100で30(60)ステップの最適化を実行するのに11.4(18.9)秒かかります。

トレーニングすることはできませんが、トレーニング済みのモデルを使用して画像を Photoshop で加工することは可能です。

NVIDIAがこれまでにリリースしたCanvasは、GauGAN2などの最新の成果を統合しており、手描きのスケッチから詳細なPSファイルを生成できます。

おそらく Canvas もすぐに EditGAN を統合するでしょう。

良いニュースとしては、Nvidia がコードと編集ツール ソフトウェアがまもなく利用可能になると言っていることです。ぜひ試してみたいですか?

論文の宛先:
https://arxiv.org/abs/2111.03186

補足資料:
https://nv-tlabs.github.io/editGAN/editGAN_supp_compressed.pdf

説明ビデオ:
https://www.youtube.com/watch?v=bus4OGyMQec

<<:  ビジュアルTransformer BERTの事前トレーニングのための新しい方法:USTC、MSRAなどが提案したPeCo

>>:  Google は NLP モデルのデバッグを許可しており、必要なのは「ドラフト ペーパー」だけです。

推薦する

人工知能の成長がデータセンターの再設計を促している

現在進行中のデータ センターの再設計の主な側面は、AI の大規模で複雑なワークロードと、グラフィック...

自動運転シミュレーションの雄大な景色!自動運転シミュレーションの分野についてお話ししましょう!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

機械学習の本質は数理統計学ですか?答えはそれほど単純ではないかもしれない

AI 初心者の多くは、次のような同様の疑問を抱いているかもしれません。機械学習と数理統計の本質的な違...

LangChain の実践: 大規模言語モデルのコードベースの理解

著者 | 崔昊レビュー | ChonglouまとめLLM(大規模言語モデル)の開発に伴い、ソースコー...

...

...

XLNet の作者と AMiner のコア開発者が協力し、AI でエンタープライズ セールスを強化

[元記事は51CTO.comより] 近年、多くのインターネット企業がデータ、テクノロジー、AI、組織...

A*、ダイクストラ、BFS 経路探索アルゴリズムの視覚的な説明

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

2019 年に人工知能がハイパフォーマンス コンピューティングに及ぼす 10 の影響

[[262566]]今日では、人工知能を使用するワークロードが普及しつつあり、その一部は世界最速のコ...

AIは黄金時代を迎えているのか、それとも冬を迎えようとしているのか?

人工知能開発の世界的なブームは今も急速に進んでおり、止まる気配はありません。現在、数十カ国が経済成長...

PyTorchのベストプラクティス、エレガントなコードの書き方

これは非公式の PyTorch ガイドですが、この記事では PyTorch フレームワークを使用した...

掃除ロボットが話し始めた。人工知能アシスタントは、家庭の6つの主要分野で努力している。

[[348486]]従来の掃除ロボットは、何も言わずにただ働くだけの家庭内の「ロールモデル」です。...

...

写真とテキスト付き!推奨アルゴリズムのアーキテクチャ - 大まかなランキング

1. 全体的なアーキテクチャ粗いソートは、リコールと細かいソートの中間のモジュールです。 。数万の候...