Nvidia、テキストスケッチを入力するだけでリアルな写真を生成できるGAN「スーパースティッチャー」を発表

Nvidia、テキストスケッチを入力するだけでリアルな写真を生成できるGAN「スーパースティッチャー」を発表

[[440170]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

GauGAN2に続いて、NVIDIAはGANの「スーパースティッチャー」であるPoE GANをリリースしました。

PoE GAN は複数の形式での入力を受け入れることができ、テキストの説明画像のセグメンテーションスケッチスタイルをすべて画像に変換できます。

そして、上記の入力モードの任意の 2 つの組み合わせを同時に受け入れることができ、これが PoE の意味です。

いわゆる PoE は、2002 年に Hinton によって提案された「専門家の積」の概念です。各専門家 (個別のモデル) は、入力空間上の確率モデルとして定義されます。

それぞれの入力モダリティは、合成画像が満たさなければならない制約であるため、すべての制約を満たす画像のセットは、各制約セットを満たすセットの共通部分になります。

各制約の結合条件付き確率分布がガウス分布に従うと仮定すると、交差の分布は単一の条件付き確率分布のによって表されます。

この条件下では、ある領域で製品分布が高密度になるためには、各個別分布がその領域で高密度である必要があり、それによって各制約が満たされます。

PoE GAN の焦点は、各入力をどのように混合するかにあります。

PoE GANの設計

PoE GAN のジェネレーターは、グローバル PoE-Netを使用して、さまざまな種類の入力のバリエーションを混合します。

各モダリティ入力を特徴ベクトルにエンコードし、PoE を使用してグローバル PoE-Net に集約します。デコーダーは、グローバル PoE-Net の出力を使用するだけでなく、セグメンテーション エンコーダーとスケッチ エンコーダーを直接接続して画像を出力します。

グローバル PoE-Net の構造は次のとおりです。潜在特徴ベクトル z0 は PoE を使用してサンプルとして使用され、MLP によって処理されて特徴ベクトル w が出力されます。

識別器部分では、著者らは、複数の条件付き入力を処理できるように投影識別器を一般化するためのマルチモーダル投影識別器を提案しました。

画像埋め込みと条件付き埋め込みの間の単一の内積を計算する標準的な投影識別器とは異なり、ここでは、入力モダリティごとに内積が計算され、合計されて最終的な損失が得られます。

入力をランダムに変換するGAN

PoE は、シングルモーダル入力、マルチモーダル入力、または入力なしでも画像を生成できます。

単一の入力モダリティでテストした場合、PoE-GAN は、そのモダリティ専用に設計された以前の SOTA 方法よりも優れたパフォーマンスを発揮します。

たとえば、セグメンテーション入力モダリティでは、PoE-GAN は以前の SPADE や OASIS よりも優れたパフォーマンスを発揮します。

テキスト入力モダリティでは、PoE-GAN はテキストから画像へのモデル DF-GAN および DM-GAN+CL よりも優れています。

任意のパターンのサブセットを条件にすると、PoE-GAN は異なる出力画像を生成できます。以下は、風景画像データセット上の 2 つのモード (テキスト + セグメンテーション、テキスト + スケッチ、セグメンテーション + スケッチ) で条件付けされた PoE-GAN のランダム サンプルを示しています。

PoE-GAN には入力がない場合もあり、その場合 PoE-GAN は無条件生成モデルになります。以下はPoE-GANによって無条件に生成されたサンプルです。

チームについて

この論文の責任著者は、ディープ生成モデルとその応用を研究対象とする、NVIDIA の著名なエンジニアであるLiu Mingyu氏です。 NVIDIA Canvas や GauGAN などの興味深い製品はすべて彼の手から生まれました。

[[440173]]

論文の筆頭著者は、北京航空航天大学を卒業し、コーネル大学で博士号を取得し、現在は NVIDIA に勤務する Huang Xun 氏です。

論文の宛先:
https://arxiv.org/abs/2112.05130

ポエム:
https://www.cs.toronto.edu/~hinton/absps/icann-99.pdf

投影識別器:
https://arxiv.org/abs/1802.05637

<<:  Google の Transformer が NeurIPS 2021 で 4 つの SOTA 賞を受賞

>>:  人工知能は良いものだが、企業はAIの適用時に4つの大きな間違いを犯している。

ブログ    
ブログ    

推薦する

...

AI規制に関するマスク氏の見解:規制は面倒だが、審判がいるのは良いことだ

現地時間11月3日、木曜日の2日間にわたる英国人工知能安全サミットで、テスラのイーロン・マスクCEO...

同意しますか?コンピューティングの未来は分散化です!

[51CTO.com クイック翻訳] 分散アプリケーションは何も新しいものではありません。最初の分...

AI技術は製薬業界の発展をどのように促進するのでしょうか?

[[315538]]米国では無人タクシーの試験と導入が進み、SFで描かれた無人運転のシナリオが徐々...

多くの競争者が競い合う中、自動運転をめぐる戦いが始まる!

著者: 張傑[51CTO.comより引用] 2020年と比べると、2021年の自動運転業界にはよりエ...

BBAug: PyTorch 用のオブジェクト検出境界ボックスデータ拡張パッケージ

多くのニューラル ネットワーク モデルと同様に、オブジェクト検出モデルは大量のデータでトレーニングす...

音声認識技術の開発と応用の概要

[[280529]] [51CTO.com クイック翻訳] コミュニケーションは私たちの生活において...

機械学習で最もよく使われる最適化の1つ - 勾配降下法最適化アルゴリズムのレビュー

勾配降下アルゴリズムは、機械学習で非常に広く使用されている最適化アルゴリズムであり、多くの機械学習ア...

AIでAIを守る、次世代のAIベースのサイバー脅威ソリューション

多くの関係者は、AI が「悪」の力にもなり得るという事実を受け入れ始めています。関連する海外メディア...

...

世界的な「AI+教育」の波が到来、第3回AIAEDグローバルAIインテリジェントアダプティブ教育サミットのハイライトは「ネタバレ」

最近、ファーウェイの創業者任正非氏はインタビューで、自分が最も関心を持っている問題は基礎科学研究と教...

Wu Sinan の機械学習への旅: Numpy で多次元配列を作成する

[[188605]] Numpy は Python 科学計算のコアライブラリの 1 つであり、主に多...

人工知能を迷わせない

[[438551]]人工知能技術の急速な発展に伴い、世界各国は兵器や装備の研究開発にインテリジェント...

流行後、生体認証はどこに向かうのでしょうか? 焦点は「手」に移るのでしょうか、それとも「頭」に移るのでしょうか?

庚子年の初めに、突然の疫病が中国全土に広がり、人々は突然「2003年を夢見ている」ような気分になった...