この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 GauGAN2に続いて、NVIDIAはGANの「スーパースティッチャー」であるPoE GANをリリースしました。 PoE GAN は複数の形式での入力を受け入れることができ、テキストの説明、画像のセグメンテーション、スケッチ、スタイルをすべて画像に変換できます。 そして、上記の入力モードの任意の 2 つの組み合わせを同時に受け入れることができ、これが PoE の意味です。 いわゆる PoE は、2002 年に Hinton によって提案された「専門家の積」の概念です。各専門家 (個別のモデル) は、入力空間上の確率モデルとして定義されます。 それぞれの入力モダリティは、合成画像が満たさなければならない制約であるため、すべての制約を満たす画像のセットは、各制約セットを満たすセットの共通部分になります。 各制約の結合条件付き確率分布がガウス分布に従うと仮定すると、交差の分布は単一の条件付き確率分布の積によって表されます。 この条件下では、ある領域で製品分布が高密度になるためには、各個別分布がその領域で高密度である必要があり、それによって各制約が満たされます。 PoE GAN の焦点は、各入力をどのように混合するかにあります。 PoE GANの設計PoE GAN のジェネレーターは、グローバル PoE-Netを使用して、さまざまな種類の入力のバリエーションを混合します。 各モダリティ入力を特徴ベクトルにエンコードし、PoE を使用してグローバル PoE-Net に集約します。デコーダーは、グローバル PoE-Net の出力を使用するだけでなく、セグメンテーション エンコーダーとスケッチ エンコーダーを直接接続して画像を出力します。 グローバル PoE-Net の構造は次のとおりです。潜在特徴ベクトル z0 は PoE を使用してサンプルとして使用され、MLP によって処理されて特徴ベクトル w が出力されます。 識別器部分では、著者らは、複数の条件付き入力を処理できるように投影識別器を一般化するためのマルチモーダル投影識別器を提案しました。 画像埋め込みと条件付き埋め込みの間の単一の内積を計算する標準的な投影識別器とは異なり、ここでは、入力モダリティごとに内積が計算され、合計されて最終的な損失が得られます。 入力をランダムに変換するGANPoE は、シングルモーダル入力、マルチモーダル入力、または入力なしでも画像を生成できます。 単一の入力モダリティでテストした場合、PoE-GAN は、そのモダリティ専用に設計された以前の SOTA 方法よりも優れたパフォーマンスを発揮します。 たとえば、セグメンテーション入力モダリティでは、PoE-GAN は以前の SPADE や OASIS よりも優れたパフォーマンスを発揮します。 テキスト入力モダリティでは、PoE-GAN はテキストから画像へのモデル DF-GAN および DM-GAN+CL よりも優れています。 任意のパターンのサブセットを条件にすると、PoE-GAN は異なる出力画像を生成できます。以下は、風景画像データセット上の 2 つのモード (テキスト + セグメンテーション、テキスト + スケッチ、セグメンテーション + スケッチ) で条件付けされた PoE-GAN のランダム サンプルを示しています。 PoE-GAN には入力がない場合もあり、その場合 PoE-GAN は無条件生成モデルになります。以下はPoE-GANによって無条件に生成されたサンプルです。 チームについてこの論文の責任著者は、ディープ生成モデルとその応用を研究対象とする、NVIDIA の著名なエンジニアであるLiu Mingyu氏です。 NVIDIA Canvas や GauGAN などの興味深い製品はすべて彼の手から生まれました。 論文の筆頭著者は、北京航空航天大学を卒業し、コーネル大学で博士号を取得し、現在は NVIDIA に勤務する Huang Xun 氏です。 論文の宛先: ポエム: 投影識別器: |
<<: Google の Transformer が NeurIPS 2021 で 4 つの SOTA 賞を受賞
>>: 人工知能は良いものだが、企業はAIの適用時に4つの大きな間違いを犯している。
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
AI界の巨匠アンドリュー・ン氏が最近、新型コロナウイルスの検査で陽性反応を示し、多くのネットユーザー...
ICML 2023 Test of Time Awards が発表されました!今年も、昨年同様、受賞...
レノボ・エンタープライズ・テクノロジー・グループは12月8日、「レノボ・インテリジェント・トランスフ...
品質保証(QA)は多くの企業にとって重要な関心分野です。企業やサービスプロバイダーが高い品質を維持す...
このアイデアは、かなり早い段階で思いつきました。私は検索エンジンの経験があるため、検索エンジンにおけ...
人工知能は、プロセスを支援および自動化できるスマートマシンの作成に重点を置いたテクノロジーです。 A...
皆さん、GPT-4 のパラメータは 1 兆を超える可能性があります。最近、アメリカの有名なハッカーで...
当初の目標は人間と同じくらい知的な機械を持つことでしたが、人工知能ではなくインテリジェントオートメー...
7月20日、滴滴出行の第一回グローバルDi-Techアルゴリズムコンテストが本日正式に終了しました...
さまざまなタスクに人工知能を導入する企業が増えるにつれ、AI モデルのトレーニングは費用がかかり、困...
[[320404]]デジタル化は金融サービスからヘルスケアまでほぼすべての業界に混乱をもたらしてお...
自動運転システムは、環境認識、意思決定制御、行動実行を統合した総合的なシステムであり、車両と交通環境...
都市はバスに大金を賭けている。パンデミックが沈静化し、アメリカ人が仕事に復帰するにつれ、全国の都市や...