Nvidiaは写真編集ソフトウェアGANを

Nvidiaは写真編集ソフトウェアGANを

[[438694]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Nvidia の最新 AI ツールが再びネットユーザーを興奮させている。

"待ちきれない!"

あるネットユーザーはデモ動画を見た後こう言った。

手先の器用さに乏しい人にとって、NVIDIA の EditGAN は、基本的な知識がなくても写真編集ができる魔法のツールです。

高品質かつ高精度で画像を修正できるため、写真編集がこれまで以上に簡単になります。

たとえば、肖像画や彫刻を「ウインク」させます。

写真をアップロードしたりスケッチを描いたりできれば、簡単に写真を編集できます。このような「魔法の」ツールがネットユーザーの間で人気があるのも不思議ではありません。

EditGAN では、ホイールのスポークのサイズや方向を変更することもできます。

もちろん、目の方向や髪の毛の量などをコントロールするなど、実物の写真でも問題ありません。

猫の耳のサイズを変更することもできます。

画像をアップロードするだけで、プログラムがセマンティックセグメンテーションスケッチを生成し、そのスケッチ上で直接ペイントしたり変更したりできるようになります。

△ スケッチに歯を加えると笑顔になります

EditGAN は変更したい部分のみを修正し、残りの部分はそのまま残します。

最近の GauGAN2 と同様に、NVIDIA は EditGAN 用のコンピュータ ソフトウェアも開発しました。

この研究はNeurIPS 2021に採択されました。

この記事の第一著者は、トロント大学の中国人博士課程学生で、同大学の Vector Institute と NVIDIA でも研究を行っている Ling Huan 氏です。

[[438700]]

GANを搭載した初の画像エディタ

研究者らによると、EditGAN は初のGAN 駆動型画像編集フレームワークであり、その主な機能は以下のとおりです。

1. 非常に高精度な編集を提供する
2. 少量の注釈付きトレーニングデータのみが必要です
3. リアルタイムでインタラクティブに実行できる
4. 複数の編集を直接合成できる
5. 実際の埋め込み画像、GAN生成画像、さらにはドメイン外画像にも適しています。

まず、EditGANはStyleGAN2を使用して画像を生成します。

StyleGAN2 のワークフローは、画像を取得し、それを潜在空間にエンコードし、ジェネレーターを使用してこのエンコードされたサブスペースを別の画像に変換することです。

問題は、この空間が多次元であるため、このサブスペースのどの部分が画像内のどの特徴を再構築する役割を担っているかを視覚化して識別することが難しいことです。

通常、モデル内の潜在空間のどの部分がどの機能を制御しているかを知るには、大規模な注釈付きデータセットが必要です。

EditGAN は、ラベル付けされたデータセットの例をいくつか学習するだけで、セグメンテーションを画像に一致させることができるため、画像ごとの編集が可能になります。

EditGAN は、これまでにない詳細と自由度を提供しながら、完全な画像品質を維持します。

さらに重要なのは、EditGAN は潜在空間のどの部分がコントロールに対応するかを認識するだけでなく、それらをスケッチに対応させることもできることです。この方法では、スケッチを修正することで画像を簡単に修正できます。

EditGAN は DatasetGAN に基づいており、画像モデリングとそのセマンティックセグメンテーションを組み合わせています。

EditGAN の重要なアイデアは、画像とピクセルレベルの言語セグメンテーションの結合分布を活用することです。

具体的には、GAN の潜在空間に画像を埋め込み、セグメンテーション編集に基づいて条件付き潜在コード最適化を実行します。

上記は、EditGAN のトレーニング プロセスを示しています。セマンティック セグメンテーションを変更し、編集領域内の新しいセグメンテーションと編集領域外の RGB の外観と一致するように共有潜在コードを最適化します。対応する勾配は共有ジェネレータを通じて逆伝播されます。

最適化を償却するために、著者らは実装された編集の潜在空間で「編集ベクトル」を見つけます。このフレームワークにより、任意の数の編集ベクトルを学習し、それをリアルタイムの速度で他の画像に直接適用することができます。

Pピクチャーツールは近日リリース予定

著者チームは、NVIDIA の内部 GPU クラスター上の V100 を使用して、基盤となる StyleGAN2、エンコーダーとセグメンテーション ブランチのトレーニング、および埋め込みと編集の最適化を実行しました。

このプロジェクトでは約 14,000 GPU 時間が使用され、そのうち約 3,500 GPU 時間が最終実験に使用され、残りは研究プロジェクトの初期段階での調査とテストに使用されました。

EditGANの動作については、V100で30(60)ステップの最適化を実行するのに11.4(18.9)秒かかります。

トレーニングすることはできませんが、トレーニング済みのモデルを使用して画像を Photoshop で加工することは可能です。

NVIDIAがこれまでにリリースしたCanvasは、GauGAN2などの最新の成果を統合しており、手描きのスケッチから詳細なPSファイルを生成できます。

おそらく Canvas もすぐに EditGAN を統合するでしょう。

良いニュースとしては、Nvidia がコードと編集ツール ソフトウェアがまもなく利用可能になると言っていることです。ぜひ試してみたいですか?

論文の宛先:
https://arxiv.org/abs/2111.03186

補足資料:
https://nv-tlabs.github.io/editGAN/editGAN_supp_compressed.pdf

説明ビデオ:
https://www.youtube.com/watch?v=bus4OGyMQec

<<:  ビジュアルTransformer BERTの事前トレーニングのための新しい方法:USTC、MSRAなどが提案したPeCo

>>:  Google は NLP モデルのデバッグを許可しており、必要なのは「ドラフト ペーパー」だけです。

ブログ    
ブログ    

推薦する

調査レポート:世界のテクノロジー支出は2024年に5.3%増加して4.7兆ドルに達する

調査によると、2024年の世界のテクノロジー市場では期待できる出来事がたくさんあることが分かっていま...

RNN の効率は Transformer に匹敵し、Google は 2 つの新しいアーキテクチャをリリース: 同じ規模では Mamba よりも強力

今回、Google DeepMindは基本モデルに新たな動きを見せた。リカレント ニューラル ネット...

自動運転車がキャンパスの食事を配達するために走行中:サービス料金は15分以内で13元にも達する

海外メディアの報道によると、米国のジョージ・メイソン大学は、無人車両による食品配達サービスを開始し、...

...

...

...

意思決定権を機械に委任することは可能でしょうか?

デジタルインテリジェンスは経営上の意思決定を促進し、驚くべき成果をもたらします名前が示すように、デー...

...

2023年に人工知能とデータサイエンスについて知っておくべきこと

人工知能とデータサイエンスは、2023 年に最もエキサイティングで影響力のある 2 つのテクノロジー...

再編とリーダーシップ:デジタルとAIのリーダーが他を置き去りにしている

デジタルおよび AI リーダーと他の業界プレーヤーとの間のギャップは大きく、さらに広がっています。過...

...

データ構造とアルゴリズム: リンクリストの交差、交差点を見つける

[[441326]]リンクリストの交差LeetCode の問題へのリンク: https://leet...

「幻想」を消し去れ! Google の新しい ASPIRE メソッドにより、LLM は自己採点が可能になり、その効果はボリューム モデルよりも 10 倍優れています。

大規模モデルの「幻覚」問題は解決されつつあるのでしょうか?ウィスコンシン大学マディソン校とグーグルの...

...