ついに誰かが様々なStyleGANの大きな概要を作成した

ついに誰かが様々なStyleGANの大きな概要を作成した

[[435127]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

StyleGAN は、さまざまな画像処理および編集タスクで驚くほど優れたパフォーマンスを発揮します。

しかし、システムを変更して同じ仕事をするために再トレーニングするのは面倒です。

最後に、誰かが詳しく調べて次のことを発見しました。

実際、事前トレーニングと潜在空間のちょっとした操作だけで、StyleGAN はパノラマ生成、単一画像からの生成、特徴補間、画像間の変換など、さまざまなタスクを直接実行できます。

さらに驚くべきことは、これらの「タスク」におけるパフォーマンスが、どの SOTA プレーヤーよりも劣っていないことです。

著者はこの機会を利用して包括的な要約を作成し、論文を執筆しました。関連する議論は Reddit で直接700 回以上閲覧されました。

ネットユーザーたちは「この要約は本当にすごい!」と叫んだ。

必要なもの: 事前トレーニング + ちょっとした空間操作

方法は非常に簡単です。一つずつ見ていきましょう。

前提: fi∈RB×C×H×W は StyleGAN の i 番目の層の中間特徴を表します。

1. 空間操作により直感的でリアルな画像を実現

StyleGAN は完全に畳み込み型であるため、fi の空間次元を調整して、出力画像に対応する空間変化を誘発することができます。

シンプルな空間操作 (パディングやサイズ変更など) を使用すると、より直感的でリアルな画像を生成できます。

たとえば、次の図では、茂みや木を複製して背景を拡大していますが、これにより、テクスチャのぼやけなどのアーティファクトが発生する元のサイズ変更と比較して、フィーチャ空間でよりリアルなテクスチャを維持できます。

2. 特徴補間

StyleGAN中間層のコラージュは画像情報の混合を実現できますが、つなぎ合わせる2つの画像があまりにも異なる場合には効果が良くないことが多いです。

ただし、特徴補間を使用すると問題はありません。

具体的な操作方法:StyleGANの各レイヤーでは、異なる潜在ノイズを使用してfAiとfBiを生成します。次に、次の式を使用して 2 つをスムーズに混合し、同じ操作のために次の畳み込み層に渡します。

ここで、α∈[0, 1]B×C×H×Wはマスクであり、水平混合に使用すると、マスクは左から右に向かって増加します。

対応するモデルとの定性的および定量的比較:

この特徴補間法では 2 つの画像をシームレスにブレンドできますが、Suzuki らの結果では明らかなアーティファクトが発生します。

ユーザー調査でも、87.6% が Suzuki らの方法と比較してこの方法を好みました。

ユーザー調査には 40 人が参加し、各人は異なる方法で 25 組の画像を比較する必要がありました。

3. 1枚の画像から生成する

異なる画像間の特徴を補間するだけでなく、単一の画像内でも適用できます。

仕組み: 一部のフィーチャ レイヤーで、関連するパッチを選択し、他の領域とブレンドして空間的に複製します。シフト演算子 Shift (·) を使用します。

これは SinGAN と同じ機能ですが、SinGAN ではサンプリングが行われるのに対し、この方法では特徴補間のためのパッチを手動で選択するだけで済みます。

SinGANとの定性的および定量的比較:

この方法で生成される画像はより多様でリアルです。SinGAN は教会の構造を「意味のある」方法で変更できず、雲や風景のリアルさも劣ります。

ユーザー調査では、83.3% の人がこの方法で生成された新しい画像を好みました。

4. GAN反転の改善

GAN 反転の目的は、W+ 空間でスタイル コードを見つけ、それを通じて特定のターゲット イメージに類似したイメージを合成することです。

Wulff らのモデルでは、単純な非線形変換の下で、W+ 空間をガウス分布を使用してモデル化できると想定しています。しかし、属性転送設定では、ソース画像と参照画像を反転する必要があり、満足のいくものではありません。

最近の研究では、σ を使用した顔操作の方が W+ を使用した場合よりもパフォーマンスが優れていることが示されています。

しかし著者らは、変換なしのσ空間もガウス分布としてモデル化できることを発見した。

同じガウス事前分布が、 GAN 反転中ではなく、この空間に適用されます。

効果比較:

この方法により、画像の再構成と編集性が大幅に向上します。

5. 画像から画像への翻訳

σ 空間の上部部分の効果を利用して、著者らは、画像間の変換中に σ を生成するアフィン変換レイヤーを固定することを提案しています。この単純な変更により、画像変換のセマンティクスをより適切に保持できます (下の図 d の口の形に注目してください)。

さらに、著者らは次のことを発見しました。

(1)すべての空間次元において定数αを用いて連続的な並進運動を行うことができる。
(2)特徴補間を行う領域を選択して局所画像変換を行う。
(3)改良されたGAN反転技術を使用して、実際の顔の顔編集と変換を実行します。

これにより、より良い結果が得られます。

6. パノラマ生成

作者は、図に示すように、2 つの画像の混合 (スパン) を「織り合わせる」ことでパノラマを生成します。

このプロセスを繰り返すことで、任意の長さのパノラマ画像を生成できます。

さらに、この方法は、一度に 2 つの画像を混合することに限定されず、水平方向のみの生成にも限定されません。

例:

7. 属性転送

任意の人間のポーズの画像の属性転送における特徴補間を改善するために、著者らはソース画像と参照画像の間でポーズの位置合わせ、具体的には W+ 空間スタイル コードの最初の 2048 次元の位置合わせを実行することを選択しました。

次に、特徴補間を適用して、選択した特徴をソース イメージからターゲット イメージに転送できます。

既存の方法と比較して:

Collins らの方法では、詳細属性が正確に転送されず、Suzuki らによって生成された画像は、ポーズが一致しない場合には十分に現実的ではありません。

そして著者のアプローチは正確かつ本物です。

現実感と正確さに基づいたユーザーの選択結果も、この方法の優位性をさらに証明しました。

ps. はっきりと異なる目を持つ顔の 2 つの半分をシームレスにブレンドするなど、任意の領域に転送を実行することもできます。

上記は、特定のアーキテクチャやトレーニングパラダイムを使用せずに、StyleGAN モデルの潜在空間でいくつかの操作と微調整を実行することで、他の画像処理タスクと同等以上のパフォーマンスを実現する具体的な方法です。

どう思いますか?他に追加したいことはありますか?

論文の宛先:
https://arxiv.org/abs/2111.01619

プロジェクトアドレス:
​​​ https://github.com/mchong6/SOAT​​

​​

<<:  IoTとAI:輸送管理の変革

>>:  RELX: 回答者の95%がAI人材の採用は課題であると考えている

ブログ    
ブログ    
ブログ    

推薦する

2021年に注目すべき人工知能のトレンド

ワクチン開発からオンラインショッピング、農作物の栽培まで、人工知能技術はますます活用されるようになり...

「新しいインフラ」に求められるAI人材のギャップをどう埋めるか

「新インフラ」がホットワードとなり、その重要な構成要素として人工知能に大きな期待が寄せられている。 ...

...

...

ネットワークディスク上の大きなモデルを使うのはとても気持ちがいいです!隠された写真は3秒で発見され、親戚や友人全員が衝撃を受けた

AIの助けを借りて、自分が会社の重役になれる日が来るとは思ってもいませんでした!同僚のクローゼットの...

シリコンバレーのAI界で注目の記事:ジャスパーとVCはAIGCブームの最大の敗者となり、潮が引いた後に初めて誰が裸で泳いでいるかがわかる

この夏、人工知能起業家サム・ホーガンが書いた記事がシリコンバレー中で話題になった。現在、AI と大規...

賈陽青の新たな起業:AIGCプロンプトツールのリリース、SDXLを詳細にプレイするのに役立ついくつかの言葉

プロンプトの単語の書き方がわからなくても問題ありません。AIがお手伝いします。 PromptLLM ...

OpenAI研究者:データが不十分な場合に教師あり学習を実現する方法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

警告! 「リップリーディング」キーでデータを盗む、AIは本当に怖い

コンピューターに頼って悪者を即座に見つけることができれば素晴らしいのですが、問題は AI システムが...

AI の力: Docker による機械学習アプリケーションの導入とスケーラビリティの簡素化

翻訳者 |李睿レビュー | Chonglou近年、機械学習の応用が爆発的に増加しており、堅牢でスケー...

20,000語の記事を処理できる、初の商用32kコンテキストオープンソースモデル「Giraffe」が登場

注意メカニズムに依存する大規模言語モデル (LLM) は通常、トレーニング中に固定のコンテキスト長を...

アルゴリズムのアルゴリズム: すべての機械学習アルゴリズムはニューラルネットワークとして表現できる

機械学習におけるすべての研究は、ニューラル ネットワークの作成とともに 1950 年代の初期の研究以...

ICLR2021 対照学習 NLP 論文進捗レビュー

みなさんこんにちは。私はDiaobaiです。今回は、ICLR2021のNLP分野の論文を6本選んで解...

iQIYI機械学習プラットフォーム構築実践

機械学習プラットフォームを構築する以前、iQiyi にはすでに比較的成熟したディープラーニング プラ...