CVサークル対決:GoogleがViTGANを提案、GANをトレーニングするためにビジュアルトランスフォーマーを使用

CVサークル対決:GoogleがViTGANを提案、GANをトレーニングするためにビジュアルトランスフォーマーを使用

[[411040]]

畳み込みニューラル ネットワーク (CNN) は、その強力な畳み込み機能とプーリング機能により、コンピューター ビジョンの分野を支配してきました。

最近の Transformer アーキテクチャの台頭により、画像およびビデオ認識タスクにおいて CNN と競合し始めています。特に Visual Transformer (ViT) です。

Dosovitskiy らは、画像を自然言語の単語に似た一連のトークンとして解釈できることを実証しました。 ImageNet ベンチマークでは、より少ない FLOP で同等の分類精度が達成されます。

ViT とその変種はまだ初期段階ですが、ViT は画像認識において競争力のあるパフォーマンスを示し、視覚特有の誘導バイアスをあまり必要としないことを考えると、ViT は画像生成に拡張できるでしょうか?

Google とカリフォルニア大学サンディエゴ校で構成された研究チームがこの問題を研究し、「ViTGAN: Visual Transformers による Generative Adversarial Networks (GANs) のトレーニング」という論文を発表しました。

△ https://arxiv.org/pdf/2107.04589.pdf

この論文で研究されている問題は、ViT が畳み込みやプーリングを使用せずに画像生成タスクを完了できるかどうか、つまり、ViT が競争力のある品質の GAN を使用して CNN ベースの GAN をトレーニングできるかどうかです。

研究チームは ViT アーキテクチャを GAN に統合し、既存の GAN 正規化手法が自己注意メカニズムとうまく相互作用せず、トレーニング中に深刻な不安定性を引き起こすことを発見しました。

そこで研究チームは、ViT を使用して GAN をトレーニングするための新しい正規化手法を導入し、次のような研究結果を得ました。

1. ViTGAN モデルは、Transformer ベースの GAN モデルよりもはるかに優れており、畳み込みやプーリングを使用せずに CNN ベースの GAN (Style-GAN2 など) のパフォーマンスに匹敵します。

2. ViTGAN モデルは、GAN でビジュアル Transformer を活用した最初のモデルの 1 つです。

3. ViTGAN モデルは、CIFAR、CelebA、LSUN ベッドルーム データセットなどの標準的な画像生成ベンチマークにおいて、この Transformer が最先端の畳み込みアーキテクチャと同等のパフォーマンスを発揮することを示します。

実験方法

上の図は、ViT 識別子と ViT ベースのジェネレーターで構成される ViTGAN のアーキテクチャを示しています。

実験では、ViT を識別器として直接使用するとトレーニングが不安定になる可能性があることが示されています。著者らは、トレーニングのダイナミクスを安定させ、収束を促進するために、ジェネレーターとディスクリミネーターの両方に新しい手法を導入しています。 (1)ViT識別器の正規化、(2)生成器の新しいアーキテクチャ。

既存の GAN 正則化手法は自己注意との相互作用が悪く、トレーニング中に深刻な不安定性を引き起こします。

この問題に対処するため、著者らは ViT データセットを使用して GAN をトレーニングするための新しい「正規化」手法を導入し、最先端の CNN ベースの StyleGAN2 に匹敵するパフォーマンスを達成しました。

リプシッツ連続性は GAN 識別器において重要であり、WGAN でワッサーシュタイン距離を近似するための条件として注目度で最初に導入され、後に他の GAN 設定でワッサーシュタイン損失を超えることが実証されました。特に、リプシッツ判別器は最適な判別関数の存在と一意のナッシュ均衡の存在を保証することが証明されています。

しかし、最近の研究では、標準的なドット積自己注意層(すなわち、式 5)の Lipschitz 定数は無制限になる可能性があり、ViT では Lipschitz 連続性が破られることが示されました。

式 7 に示すように、この実験ではドット積類似度の代わりにユークリッド距離を使用し、クエリとキー投影行列の重みは同じです。

この問題を解決するには、初期化中に各層の正規化された重み行列にスペクトルノルムを乗算するだけで十分であることがわかりました。この実験では、次の更新規則を使用してスペクトルノルムを実装します。ここで、σ は重み行列の標準スペクトルノルムを計算します。

デザインジェネレータ

ViT アーキテクチャに基づくジェネレーターの設計は簡単ではありません。課題の 1 つは、ViT をクラス ラベルのセットを予測することから空間領域内のピクセルを生成することに変換することです。

実験モデルを紹介する前に、著者らはまず、図2(A)と2(B)に示すように、2つの信頼できるベースラインモデルについて説明します。 2 つのモデルは ViT の入力と出力を交換し、埋め込みからピクセルを生成します。具体的には、MLP によってガウス ノイズ ベクトル z から導出される潜在ベクトル w、つまり w = MLP(z) (図 2 ではマッピング ネットワークと呼ばれます) からピクセルを生成します。

2 つのベースライン ジェネレーターは入力シーケンスが異なります。図2(A)は、位置埋め込みシーケンスを入力として受け取り、各位置埋め込みに中間特徴ベクトルwを追加します。

実験結果

△ ViTGANとベースラインアーキテクチャによる画像合成の主な結果の比較

TransGAN は、Transformer アーキテクチャ上に完全に構​​築された唯一の畳み込みのない GAN であり、その最良のバリエーションは TransGAN-XL です。

Vanilla-ViT は、図 2(A) に示すジェネレータとバニラ ViT 識別子を使用する ViT ベースの GAN です。

公平な比較のために、ベースラインでは R1 ペナルティと bCR + DiffAug を使用します。

さらに、比較のために、最も先進的な CNN ベースの GAN モデルとして BigGAN と StyleGAN2 も含まれています。

上記の表からわかるように、ViTGAN モデルは他の Transformer ベースの GAN モデルよりもはるかに優れています。これは、Transformer アーキテクチャでの安定した GAN トレーニングが改善された結果です。最先端の CNN ベースのモデルと同等のパフォーマンスを実現します。

この結果は、Transformer アーキテクチャが生成的敵対的トレーニングにおいて畳み込みネットワークに匹敵するパフォーマンスを発揮できることを実証的に証明しています。

上の図に示すように、ViTGAN モデル (最後の列) は、最良の Transformer ベースライン (中央の列) の画像忠実度を大幅に向上させます。 StyleGAN2 と比較しても、ViTGAN によって生成される画像の品質と多様性は同等です。

要約する

この論文では、GAN で Visual Transformers (ViT) を活用する ViTGAN を紹介し、トレーニングの安定性を確保し、収束を改善するための基本的な手法を提案します。

標準ベンチマーク (CIFAR-10、CelebA、LSUN ベッドルーム) での実験では、提案されたモデルが最先端の CNN ベースの GAN と同等のパフォーマンスを達成することが示されています。

制限事項としては、ViTGAN は一般的な ViT アーキテクチャ上に構築された新しい一般的な GAN モデルです。それでも、最高の CNN ベースの GAN モデルに勝つことはできません。

これは、高度なトレーニング手法を ViTGAN フレームワークに組み込むことで改善できます。 ViTGAN がこの分野での将来の研究を刺激し、他の画像やビデオの合成タスクにも拡張できることを期待しています。

<<:  2022年秋の採用戦争:アルゴリズム職は混み合い、Java開発も後退を余儀なくされる

>>:  GPT-4 パラメータは 10 兆に達します!この表は、新しい言語モデルのパラメータが GPT-3 の 57 倍になると予測しています。

ブログ    

推薦する

機械学習 = 「新しいボトルに入った古いワイン」の統計?いいえ!

最近、ディープラーニングと人工知能に関するジョークがソーシャルメディア上で広く流布しており、この2つ...

...

App Storeのランキングアルゴリズムの変更、開発者は準備が必要

[[80451]]数日前、AppleのApp Storeの検索アルゴリズムが変わり始めたかもしれない...

DeepMind、ロボットの物体積み重ね能力を向上させるための新たなベンチマークを提案

ほとんどの人にとって、あるオブジェクトを別のオブジェクトの上に重ねることは簡単な作業です。しかし、最...

Pythonを使用して機械学習モデルを作成する方法

導入新しいモデルをトレーニングしたときに、Flask コード (Python Web フレームワーク...

インターネットと自動車の大手企業が「自動運転」に賭けているのはなぜでしょうか?

米国現地時間の水曜日、マスク氏はソーシャルメディア上で、同社が今週、一部の選ばれた顧客に対して初の「...

より良いAIでより良い社会を築く

人工知能 (AI) には、従来のエンジニアリング システムからヘルスケア、芸術やエンターテイメントの...

AI がモノのインターネットをよりスマートにする 5 つの方法

第三者の介入なしに何十億ものデバイスを接続してデータを交換できるため、モノのインターネット (IoT...

AIが人々の恋愛探しをどうサポートするか

過去10年間で、多数のカップルがオンラインで出会いました。出会い系アプリを使って恋人を見つけることは...

AI時代になっても、あなたのキャリアは存続できるでしょうか?

人工知能(AI)技術はどこまで発展したのでしょうか? [[278665]]将来、AIが社会に本格的に...

同義千文の720億パラメータモデルがオープンソース化、初の「フルサイズ・フルモード」オープンソース化を実現

12月1日、アリババクラウド同義千文の720億パラメータモデルQwen-72Bがオープンソース化され...

Googleは従業員に対し、生成AIの秘密を「漏らしたり」、直接コードを書いたりしないように警告している。

ロイター通信によると、6月15日のニュースでは、Googleは生成AIの最も熱心な支持者の1つである...

Java で一般的に使用されているいくつかの暗号化アルゴリズムは、最も強力なハッカーでも解読できません。

シンプルな Java 暗号化アルゴリズムは次のとおりです。厳密に言えば、BASE は暗号化アルゴリズ...

ロボットは人間の労働に取って代わることができるでしょうか?アディダスは悲惨な教訓を学び、涙ながらにスマート工場を閉鎖した

科学技術は主要な生産力であると言われています。いつの時代になっても、この言葉は決して古くなることはあ...

人間の脳神経を模倣してAIを開発!ケンブリッジ大学の最新研究がネイチャー誌に掲載:人工脳がAIの新たな方向性となる

地球上で最も複雑な知能の担い手である人間の脳の最大の特徴の 1 つは、高いエネルギー効率で知能を生み...