Nvidiaは写真編集ソフトウェアGANを

Nvidiaは写真編集ソフトウェアGANを

[[438694]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Nvidia の最新 AI ツールが再びネットユーザーを興奮させている。

"待ちきれない!"

あるネットユーザーはデモ動画を見た後こう言った。

手先の器用さに乏しい人にとって、NVIDIA の EditGAN は、基本的な知識がなくても写真編集ができる魔法のツールです。

高品質かつ高精度で画像を修正できるため、写真編集がこれまで以上に簡単になります。

たとえば、肖像画や彫刻を「ウインク」させます。

写真をアップロードしたりスケッチを描いたりできれば、簡単に写真を編集できます。このような「魔法の」ツールがネットユーザーの間で人気があるのも不思議ではありません。

EditGAN では、ホイールのスポークのサイズや方向を変更することもできます。

もちろん、目の方向や髪の毛の量などをコントロールするなど、実物の写真でも問題ありません。

猫の耳のサイズを変更することもできます。

画像をアップロードするだけで、プログラムがセマンティックセグメンテーションスケッチを生成し、そのスケッチ上で直接ペイントしたり変更したりできるようになります。

△ スケッチに歯を加えると笑顔になります

EditGAN は変更したい部分のみを修正し、残りの部分はそのまま残します。

最近の GauGAN2 と同様に、NVIDIA は EditGAN 用のコンピュータ ソフトウェアも開発しました。

この研究はNeurIPS 2021に採択されました。

この記事の第一著者は、トロント大学の中国人博士課程学生で、同大学の Vector Institute と NVIDIA でも研究を行っている Ling Huan 氏です。

[[438700]]

GANを搭載した初の画像エディタ

研究者らによると、EditGAN は初のGAN 駆動型画像編集フレームワークであり、その主な機能は以下のとおりです。

1. 非常に高精度な編集を提供する
2. 少量の注釈付きトレーニングデータのみが必要です
3. リアルタイムでインタラクティブに実行できる
4. 複数の編集を直接合成できる
5. 実際の埋め込み画像、GAN生成画像、さらにはドメイン外画像にも適しています。

まず、EditGANはStyleGAN2を使用して画像を生成します。

StyleGAN2 のワークフローは、画像を取得し、それを潜在空間にエンコードし、ジェネレーターを使用してこのエンコードされたサブスペースを別の画像に変換することです。

問題は、この空間が多次元であるため、このサブスペースのどの部分が画像内のどの特徴を再構築する役割を担っているかを視覚化して識別することが難しいことです。

通常、モデル内の潜在空間のどの部分がどの機能を制御しているかを知るには、大規模な注釈付きデータセットが必要です。

EditGAN は、ラベル付けされたデータセットの例をいくつか学習するだけで、セグメンテーションを画像に一致させることができるため、画像ごとの編集が可能になります。

EditGAN は、これまでにない詳細と自由度を提供しながら、完全な画像品質を維持します。

さらに重要なのは、EditGAN は潜在空間のどの部分がコントロールに対応するかを認識するだけでなく、それらをスケッチに対応させることもできることです。この方法では、スケッチを修正することで画像を簡単に修正できます。

EditGAN は DatasetGAN に基づいており、画像モデリングとそのセマンティックセグメンテーションを組み合わせています。

EditGAN の重要なアイデアは、画像とピクセルレベルの言語セグメンテーションの結合分布を活用することです。

具体的には、GAN の潜在空間に画像を埋め込み、セグメンテーション編集に基づいて条件付き潜在コード最適化を実行します。

上記は、EditGAN のトレーニング プロセスを示しています。セマンティック セグメンテーションを変更し、編集領域内の新しいセグメンテーションと編集領域外の RGB の外観と一致するように共有潜在コードを最適化します。対応する勾配は共有ジェネレータを通じて逆伝播されます。

最適化を償却するために、著者らは実装された編集の潜在空間で「編集ベクトル」を見つけます。このフレームワークにより、任意の数の編集ベクトルを学習し、それをリアルタイムの速度で他の画像に直接適用することができます。

Pピクチャーツールは近日リリース予定

著者チームは、NVIDIA の内部 GPU クラスター上の V100 を使用して、基盤となる StyleGAN2、エンコーダーとセグメンテーション ブランチのトレーニング、および埋め込みと編集の最適化を実行しました。

このプロジェクトでは約 14,000 GPU 時間が使用され、そのうち約 3,500 GPU 時間が最終実験に使用され、残りは研究プロジェクトの初期段階での調査とテストに使用されました。

EditGANの動作については、V100で30(60)ステップの最適化を実行するのに11.4(18.9)秒かかります。

トレーニングすることはできませんが、トレーニング済みのモデルを使用して画像を Photoshop で加工することは可能です。

NVIDIAがこれまでにリリースしたCanvasは、GauGAN2などの最新の成果を統合しており、手描きのスケッチから詳細なPSファイルを生成できます。

おそらく Canvas もすぐに EditGAN を統合するでしょう。

良いニュースとしては、Nvidia がコードと編集ツール ソフトウェアがまもなく利用可能になると言っていることです。ぜひ試してみたいですか?

論文の宛先:
https://arxiv.org/abs/2111.03186

補足資料:
https://nv-tlabs.github.io/editGAN/editGAN_supp_compressed.pdf

説明ビデオ:
https://www.youtube.com/watch?v=bus4OGyMQec

<<:  ビジュアルTransformer BERTの事前トレーニングのための新しい方法:USTC、MSRAなどが提案したPeCo

>>:  Google は NLP モデルのデバッグを許可しており、必要なのは「ドラフト ペーパー」だけです。

推薦する

産業用 IoT を実装するための 3 つの重要なステップ

老朽化するインフラ、コスト圧力、変動する利益率、規制の監視などにより、より効率的で強力なメンテナンス...

実用的なCNN畳み込みニューラルネットワークは、99.5%の精度で検証コードを認識します

1. 背景2年間運営してきた個人プロジェクトですが、最近対象サイトがスキャンコードログインに変更にな...

産業用ロボットの開発動向

産業用ロボットは、さまざまな産業用タスクを自動的に実行できる一種の機器として、製造、組み立て、梱包、...

最高の AI 学習アプリ トップ 10

人工知能の革新により、ツールの使用方法は変化しています。 AI 学習アプリケーションは、適応型学習、...

IoTとAIはパンデミック中に企業が事業を再開するのにどのように役立つか

数か月に及ぶ極度の不確実性、経済活動の停止、強制的な自宅隔離を経て、ようやく経済活動と取引がゆっくり...

百度、中国企業のインテリジェントアップグレードプロセスを加速させる新型PaddlePaddleスマートマシンを発売

クラウドとインテリジェンスの統合は、中国企業が AI アプリケーションの実装の「最後の 1 マイル」...

20年間のAIベテランの告白

[[256514]] EyeSight Technologyの創設者兼CEO、周俊氏。彼は20年以上...

未来が到来: 脳コンピューターインターフェースの新たなブレークスルー: 人間の脳信号をテキストに変換する精度は 97%

4月23日、海外メディアの報道によると、カリフォルニア大学サンフランシスコ校の研究チームが開発した...

AI の成功にはなぜ知識管理が不可欠なのでしょうか?

AIに適切なコンテキストを提供することで、精度が向上し、幻覚が軽減されます。 AI が仕事に革命を...

人工知能は教育の新たな発展を促進し、これら3つの分野に大きな影響を与えます。

今年の流行語について聞かれたら、「人工知能」という言葉は誰もが知っていると思います。人工知能は多くの...

デザイナーがAIについて語る:「デザインは最終的に完全に消滅するだろう」

デザイン界では有名なブランド、フィリップ・スタルク。国際宇宙ステーションの居住モジュールからスティー...

市場規模は22億を超えるか?教育用ロボットは急速に発展している

教育は知識を伝える社会的活動として、国の人材育成システムや経済発展に影響を与え、国家の繁栄を促進しま...

生成型AIが小学生の「初めてのプログラミングレッスン」に登場:線を描いて音楽を生成し、スケッチが一瞬で傑作に変わる

古典作品「星の王子さま」には、蛇が象を飲み込む絵を描いた少年が、大人たちにその絵を見せて怖いかと尋ね...

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

近年、拡散モデルはテキストから画像への生成において大きな成功を収め、画像生成品質の向上、推論パフォー...

率直に言って、2018年に私たちが耐えなければならないかもしれない人工知能の暗い側面

18歳の時に撮った写真が様々な賞賛を浴びる中、また新たな年を迎えました。 [[215597]]本来な...