中国の博士課程の学生が、2つのトランスフォーマーを使ってGANを構築しようとした。

中国の博士課程の学生が、2つのトランスフォーマーを使ってGANを構築しようとした。

[[382526]]

最近、CV 研究者は変圧器に大きな関心を示し、多くのブレークスルーを達成しました。これは、トランスフォーマーが、分類、検出、セグメンテーションなどのコンピューター ビジョン タスクのための強力な汎用モデルになる可能性があることを示唆しています。

私たちは皆、コンピューター ビジョンの分野でトランスフォーマーがどこまで進化できるのか興味があります。トランスフォーマーは、生成的敵対ネットワーク (GAN) などのより困難な視覚タスクでどのように機能するのでしょうか?

この好奇心に駆られて、テキサス大学オースティン校の Yifan Jiang 氏、Zhangyang Wang 氏、IBM リサーチの Shiyu Chang 氏らの研究者らは、最初の実験研究を実施し、畳み込みをまったく使用せず純粋なトランスフォーマー アーキテクチャのみを使用する GAN を構築し、それを TransGAN と名付けました。他のトランスフォーマーベースのビジョンモデルと比較すると、トランスフォーマーのみを使用して GAN を構築することは、分類などのタスクよりもリアルな画像生成のしきい値が高く、GAN のトレーニング自体に不安定性が高いため、より困難であると思われます。

  • 論文リンク: https://arxiv.org/pdf/2102.07074.pdf
  • コードリンク: https://github.com/VITA-Group/TransGAN

構造的には、TransGAN は 2 つの部分で構成されています。1 つは、埋め込み次元を減らしながら特徴解像度を徐々に向上させることができる、メモリに優しいトランスフォーマー ベースのジェネレーターです。もう 1 つは、トランスフォーマー ベースのパッチレベル ディスクリミネーターです。

研究者らはまた、TransGAN がデータ拡張 (標準 GAN と比較)、ジェネレーターのマルチタスク共同トレーニング戦略、自然画像の近傍の滑らかさを強調するローカルに初期化された自己注意から大きな恩恵を受けていることも発見しました。これらの結果は、TransGAN がより大きなモデルや高解像度の画像データセットに効果的に拡張できることを示唆しています。

実験結果によると、最高性能の TransGAN は、畳み込みバックボーンに基づく現在の SOTA GAN と比較して、非常に競争力のあるパフォーマンスを実現します。具体的には、TransGAN は STL-10 で IS スコア 10.10、FID 25.32 という新しい SOTA を達成しました。

この研究は、畳み込みバックボーンと多くの特殊モジュールへの依存が GAN には必要ない可能性があり、純粋なトランスフォーマーは画像を生成するのに十分な能力があることを示唆しています。

この論文についての議論の中で、ある読者は「本当に『必要なのは注目だけ』になりつつある」と冗談を言った。

しかし、一部の研究者は懸念を表明している。「変圧器がコミュニティ全体に浸透する中、小規模で弱い研究室はどうやって生き残ることができるのか?」

トランスフォーマーがコミュニティで本当に「必須」のものになった場合、このタイプのアーキテクチャの計算効率をどのように向上させるかが、難しい研究課題になるでしょう。

純粋なトランスフォーマーベースのGAN

基本的な構成要素としてのトランスフォーマーエンコーダ

最小限の変更で、Transformer エンコーダー (Vaswani et al.、2017) をベース ブロックとして使用することを選択しました。エンコーダーは 2 つのコンポーネントで構成されます。最初のコンポーネントはマルチヘッド自己注意モジュールから構成され、2 番目のコンポーネントは GELU 非線形性を備えたフィードフォワード MLP (多層パーセプトロン) です。さらに、研究者らは両方のコンポーネントの前にレイヤー正規化を適用しました (Ba et al.、2016)。両方のコンポーネントも残余接続を使用します。

メモリに優しいジェネレータ

NLP のトランスフォーマーは各単語を入力として受け取ります (Devlin et al.、2018)。ただし、同様の方法で Transformer エンコーダーを積み重ねてピクセルごとに画像を生成すると、低解像度の画像 (32×32 など) でもシーケンスが長くなり (1024)、自己注意のオーバーヘッドが高くなる可能性があります。

そのため、過度のオーバーヘッドを回避するために、研究者は CNN ベースの GAN の一般的な設計コンセプトに触発され、複数の段階で解像度を反復的に改善しました (Denton ら、2015 年、Karras ら、2017 年)。彼らの戦略は、入力シーケンスを徐々に増やし、埋め込み次元を減らすことです

下の図 1 に示すように、研究者らは、複数のステージで構成される、メモリに優しいトランスフォーマーベースのジェネレーターを提案しました。

各ステージには、複数のエンコーダー ブロックが積み重ねられます (デフォルトでは 5、2、2)。研究者はセグメント化された設計を通じて、特徴マップの解像度を徐々に高め、最終的に目標解像度 H_T×W_T に到達しました。具体的には、ジェネレーターはランダム ノイズを入力として受け取り、MLP を介して長さ H×W×C のベクトルにランダム ノイズを渡します。このベクトルは、解像度 H×W (デフォルト H=W=8) の特徴マップに変換され、各ポイントは C 次元の埋め込みになります。この機能マップは、長さ 64 の C 次元トークン シーケンスとして扱われ、学習可能な位置エンコーディングと組み合わせられます。

BERT (Devlin et al., 2018) と同様に、提案された Transformer エンコーダーは埋め込みトークンを入力として受け取り、各トークン間のマッチングを再帰的に計算します。より高解像度の画像を合成するために、研究者らは各段階の後に、再形成モジュールとピクセルシャッフル モジュールで構成されるアップサンプリング モジュールを挿入しました。

具体的な操作では、アップサンプリングモジュールはまず1Dシーケンストークン埋め込みを2D特徴マップに変換する。

次に、ピクセルシャッフルモジュールを使用して2D特徴マップの解像度をアップサンプリングし、埋め込み次元をダウンサンプリングして出力を取得します。

。次に、2D 特徴マップ X'_0 は、埋め込まれたトークンの 1D シーケンスに再度変換されます。ここで、トークンの数は 4HW で、埋め込み次元は C/4 です。したがって、各段階で解像度 (H、W) は 2 倍になり、埋め込み次元 C は入力の 4 分の 1 に削減されます。このトレードオフ戦略により、メモリと計算要件の急増が緩和されます。

研究者たちは、解像度が(H_T、W_T)に達するまで、上記のプロセスを複数の段階で繰り返しました。次に、埋め込み次元を 3 に投影し、RGB 画像を取得しました。

識別器のトークン化された入力

各ピクセルを正確に合成する必要があるジェネレータとは異なり、この研究で提案された識別器は、本物の画像と偽の画像を区別するだけで済みます。これにより、研究者は入力画像を意味的にトークン化して、より粗いパッチレベルにすることができます (Dosovitskiy et al.、2020)。

上の図 1 の右側に示すように、識別器は画像パッチを入力として受け取ります。研究者は画像を入力する

8 × 8 のパッチに分解され、各パッチは「単語」としてみなされます。次に、8 × 8 パッチは線形平坦化レイヤーを介してトークン埋め込みの 1D シーケンスに変換されます。ここで、トークンの数 N = 8 × 8 = 64、埋め込み次元は C です。その後、研究者らは、1Dシーケンスの先頭に学習可能な位置エンコーディングと[cls]トークンを追加しました。 Transformer エンコーダーを通過した後、分類ヘッドは [cls] トークンのみを使用して真または偽の予測を出力します。

実験

CIFAR-10の結果

研究者らは、CIFAR-10 データセットにおける TransGAN と最近の畳み込みベースの GAN 研究を比較しました。結果は以下の表 5 に示されています。

上記の表5に示すように、TransGANはAutoGAN(Gong et al.、2019)よりも優れているだけでなく、SN-GAN(Miyato et al.、2018)などの多くの競合製品よりも優れており、ISスコアの点でMMDGAN(Wang et al.、2018a)やMGAN(Hoang et al.、2018)を上回っています。 TransGAN は、Progressive GAN と StyleGAN v2 に次ぐものです。

FID の結果を比較すると、TransGAN は Progressive GAN よりもさらに優れており、StyleGANv2 よりもわずかに劣っていることが研究で判明しました (Karras et al.、2020b)。 CIFAR-10 で生成された視覚化の例を以下の図 4 に示します。

STL-10の結果

研究者らは、TransGAN を別の一般的な 48×48 解像度ベンチマーク STL-10 に適用しました。ターゲット解像度に適応するために、この研究では第1段階の入力特徴マップを(8×8)=64から(12×12)=144に増やし、提案されたTransGAN-XLを自動検索されたConvNetおよび手動で作成されたConvNetと比較しました。結果を以下の表6に示します。

CIFAR-10 の結果とは異なり、この研究では、TransGAN が現在のすべてのモデルよりも優れており、IS および FID スコアの点で新しい SOTA パフォーマンスを達成していることがわかりました。

高解像度生成

TransGAN は標準ベンチマークである CIFAR-10 と STL-10 で良好なパフォーマンスを達成したため、研究者は TransGAN をより困難なデータセットである CelebA 64 × 64 に適用しました。その結果を以下の表 10 に示します。

TransGAN-XLのFIDスコアは12.23であり、TransGAN-XLが高解像度のタスクに適用可能であることを示しています。視覚化結果を図4に示します。

制限

TransGAN は優れた結果を達成しましたが、最高の手動設計の GAN と比較すると、まだ改善の余地が大きく残っています。論文の最後で、著者は次のような具体的な改善の方向性を指摘しています。

  • セマンティックグループ化を使用するなど、G と D に対してより複雑なトークン化操作を実行します (Wu et al.、2020)。
  • プレテキストタスクを使用してTransformerを事前トレーニングすると、この研究の既存のMT-CTが改善される可能性があります。
  • より強力な注意の形態、例えば(Zhu et al.、2020)。
  • より効果的な自己注意の形式 (Wang et al.、2020; Choromanski et al.、2020) は、モデルの効率を向上させるだけでなく、メモリのオーバーヘッドを節約し、より高解像度の画像を生成するのに役立ちます。

著者について

[[382531]]

この記事の筆頭著者である Yifan Jiang 氏は、テキサス大学オースティン校の電気・コンピュータ工学科の博士課程 1 年目の学生です (以前はテキサス A&M 大学で 1 年間学びました)。華中科技大学を卒業し、学士号を取得しています。彼の研究対象は、コンピューター ビジョンとディープラーニングです。現在、Yifan Jiang は、テキサス大学オースティン校の電気・コンピュータ工学部の助教授である Zhangyang Wang の指導の下、ニューラル アーキテクチャ検索、ビデオ理解、高度な表現学習の分野で主に研究を行っています。

Yifan Jiang は学部在学中に ByteDance AI Lab でインターンシップをしました。彼はこの夏、Google Research でインターンシップを行う予定です。

第一著者のホームページ: https://yifanjiang.net/

<<:  正規化を放棄することで、ディープラーニングモデルの精度は前例のないレベルに到達しました

>>:  教師なしトレーニング用のスタック型オートエンコーダは時代遅れですか? ML博士が8つのオートエンコーダを比較

ブログ    

推薦する

...

ディープラーニングに関しては、こちらをお読みください

編集者注: この記事の著者は、USTC のジュニアクラスの卒業生で投資家の Wang Chuan で...

ついに誰かが「組み込み人工知能」を明らかにした

組み込み人工知能とは、組み込み環境で人工知能を実行することです。アルゴリズムモデルは以前と同じですが...

AAAI2018にはアリババからの11の論文が収録され、6人の著者がメインカンファレンスでプレゼンテーションを行うよう招待されました。

2018年の初め、アリババは人工知能の分野での最新の成果を発表しました。人工知能に関するトップ学術...

自動運転のためのニューラルネットワークとディープラーニング

先進運転支援システム (ADAS) は、道路の安全性と旅行体験に対するドライバーと乗客のより高い要求...

人工知能は職場のつながりとコラボレーションを変革できる

世界の人工知能(AI)市場は2027年までに2,670億ドルに達すると予想されています。しかし、テク...

モデル融合、ハイブリッド専門家、小規模LLM、2024年のLLMの発展方向を理解するためのいくつかの論文

過去2023年間で、大規模言語モデル(LLM)は潜在力と複雑さの両面で急速に成長しました。 2024...

7 つの重要な要素: 優れた機械学習アルゴリズムを選択するには?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

AIのための大規模ストレージインフラストラクチャの要件

大規模な人工知能 (AI) により、容量とパフォーマンスの面でストレージ インフラストラクチャの水準...

マイクロソフト、生成型 AI に関する初のキャリア認定を開始

Microsoft は、人工知能に対する最近の関心と熱意に応えるために、新しいタイプのトレーニングと...

企業におけるAIの応用は成熟段階に入ったのでしょうか?

マッキンゼーは、AI が多くの業務活動を自動化するという見通しに楽観的である一方で、あらゆる規模の自...

モバイルアプリの開発とビジネスにおける人工知能の役割は何ですか?

人工知能の誕生により、モバイル アプリケーションに大きな可能性をもたらすまったく新しい時代が到来しま...

...