ついに誰かが様々なStyleGANの大きな概要を作成した

[[435127]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

StyleGAN は、さまざまな画像処理および編集タスクで驚くほど優れたパフォーマンスを発揮します。

しかし、システムを変更して同じ仕事をするために再トレーニングするのは面倒です。

最後に、誰かが詳しく調べて次のことを発見しました。

実際、事前トレーニングと潜在空間のちょっとした操作だけで、StyleGAN はパノラマ生成、単一画像からの生成、特徴補間、画像間の変換など、さまざまなタスクを直接実行できます。

さらに驚くべきことは、これらの「タスク」におけるパフォーマンスが、どの SOTA プレーヤーよりも劣っていないことです。

著者はこの機会を利用して包括的な要約を作成し、論文を執筆しました。関連する議論は Reddit で直接700 回以上閲覧されました。

ネットユーザーたちは「この要約は本当にすごい！」と叫んだ。

必要なもの: 事前トレーニング + ちょっとした空間操作

方法は非常に簡単です。一つずつ見ていきましょう。

前提: fi∈RB×C×H×W は StyleGAN の i 番目の層の中間特徴を表します。

1. 空間操作により直感的でリアルな画像を実現

StyleGAN は完全に畳み込み型であるため、fi の空間次元を調整して、出力画像に対応する空間変化を誘発することができます。

シンプルな空間操作 (パディングやサイズ変更など) を使用すると、より直感的でリアルな画像を生成できます。

たとえば、次の図では、茂みや木を複製して背景を拡大していますが、これにより、テクスチャのぼやけなどのアーティファクトが発生する元のサイズ変更と比較して、フィーチャ空間でよりリアルなテクスチャを維持できます。

2. 特徴補間

StyleGAN中間層のコラージュは画像情報の混合を実現できますが、つなぎ合わせる2つの画像があまりにも異なる場合には効果が良くないことが多いです。

ただし、特徴補間を使用すると問題はありません。

具体的な操作方法：StyleGANの各レイヤーでは、異なる潜在ノイズを使用してfAiとfBiを生成します。次に、次の式を使用して 2 つをスムーズに混合し、同じ操作のために次の畳み込み層に渡します。

ここで、α∈[0, 1]B×C×H×Wはマスクであり、水平混合に使用すると、マスクは左から右に向かって増加します。

対応するモデルとの定性的および定量的比較:

この特徴補間法では 2 つの画像をシームレスにブレンドできますが、Suzuki らの結果では明らかなアーティファクトが発生します。

ユーザー調査でも、87.6% が Suzuki らの方法と比較してこの方法を好みました。

ユーザー調査には 40 人が参加し、各人は異なる方法で 25 組の画像を比較する必要がありました。

3. 1枚の画像から生成する

異なる画像間の特徴を補間するだけでなく、単一の画像内でも適用できます。

仕組み: 一部のフィーチャレイヤーで、関連するパッチを選択し、他の領域とブレンドして空間的に複製します。シフト演算子 Shift (·) を使用します。

これは SinGAN と同じ機能ですが、SinGAN ではサンプリングが行われるのに対し、この方法では特徴補間のためのパッチを手動で選択するだけで済みます。

SinGANとの定性的および定量的比較:

この方法で生成される画像はより多様でリアルです。SinGAN は教会の構造を「意味のある」方法で変更できず、雲や風景のリアルさも劣ります。

ユーザー調査では、83.3% の人がこの方法で生成された新しい画像を好みました。

4. GAN反転の改善

GAN 反転の目的は、W+ 空間でスタイルコードを見つけ、それを通じて特定のターゲットイメージに類似したイメージを合成することです。

Wulff らのモデルでは、単純な非線形変換の下で、W+ 空間をガウス分布を使用してモデル化できると想定しています。しかし、属性転送設定では、ソース画像と参照画像を反転する必要があり、満足のいくものではありません。

最近の研究では、σ を使用した顔操作の方が W+ を使用した場合よりもパフォーマンスが優れていることが示されています。

しかし著者らは、変換なしのσ空間もガウス分布としてモデル化できることを発見した。

同じガウス事前分布が、 GAN 反転中ではなく、この空間に適用されます。

効果比較:

この方法により、画像の再構成と編集性が大幅に向上します。

5. 画像から画像への翻訳

σ 空間の上部部分の効果を利用して、著者らは、画像間の変換中に σ を生成するアフィン変換レイヤーを固定することを提案しています。この単純な変更により、画像変換のセマンティクスをより適切に保持できます (下の図 d の口の形に注目してください)。

さらに、著者らは次のことを発見しました。

（１）すべての空間次元において定数αを用いて連続的な並進運動を行うことができる。
（２）特徴補間を行う領域を選択して局所画像変換を行う。
（３）改良されたGAN反転技術を使用して、実際の顔の顔編集と変換を実行します。

これにより、より良い結果が得られます。

6. パノラマ生成

作者は、図に示すように、2 つの画像の混合 (スパン) を「織り合わせる」ことでパノラマを生成します。

このプロセスを繰り返すことで、任意の長さのパノラマ画像を生成できます。

さらに、この方法は、一度に 2 つの画像を混合することに限定されず、水平方向のみの生成にも限定されません。

例:

7. 属性転送

任意の人間のポーズの画像の属性転送における特徴補間を改善するために、著者らはソース画像と参照画像の間でポーズの位置合わせ、具体的には W+ 空間スタイルコードの最初の 2048 次元の位置合わせを実行することを選択しました。

次に、特徴補間を適用して、選択した特徴をソースイメージからターゲットイメージに転送できます。

既存の方法と比較して：

Collins らの方法では、詳細属性が正確に転送されず、Suzuki らによって生成された画像は、ポーズが一致しない場合には十分に現実的ではありません。

そして著者のアプローチは正確かつ本物です。

現実感と正確さに基づいたユーザーの選択結果も、この方法の優位性をさらに証明しました。

ps. はっきりと異なる目を持つ顔の 2 つの半分をシームレスにブレンドするなど、任意の領域に転送を実行することもできます。

上記は、特定のアーキテクチャやトレーニングパラダイムを使用せずに、StyleGAN モデルの潜在空間でいくつかの操作と微調整を実行することで、他の画像処理タスクと同等以上のパフォーマンスを実現する具体的な方法です。

どう思いますか？他に追加したいことはありますか?

論文の宛先:
https://arxiv.org/abs/2111.01619

プロジェクトアドレス:
https://github.com/mchong6/SOAT

<<: IoTとAI：輸送管理の変革

>>: RELX: 回答者の95%がAI人材の採用は課題であると考えている

Nova One Advisor: 世界の医療画像 AI 市場の収益は 2027 年に 200 億米ドルに達する見込み

ついに誰かが様々なStyleGANの大きな概要を作成した

必要なもの: 事前トレーニング + ちょっとした空間操作

Nova One Advisor: 世界の医療画像 AI 市場の収益は 2027 年に 200 億米ドルに達する見込み

GPT-4 Turboがリリースされ、APIがよりコスト効率化され、128Kコンテキストウィンドウが新時代をリード

ディープラーニング可視化ツールの包括的なレビュー（リソース付き）

アマゾンが注文梱包ロボットを導入、数千人の従業員が職を失う可能性も

オンラインクレジットは消費者保護において「難しい問題」でしょうか? AIアプリケーションは消費者の権利を保護する

滴滴出行のスマート交通建設における3つの短期目標：信号機の改善、バスシステムのオンライン化、予測スケジュール

Googleなどが「AIタスクの難しさ」を明らかに：ImageNetなどの限界のあるベンチマークは「世界全体」を表現できない博物館のようなもの

このスタートアップは、アイドル状態のGPUを分散ネットワークに接続することで、AIモデルのトレーニングコストを90%削減できると主張している。

業界の未来を牽引する8つのデジタル変革トレンド

推薦する

次世代ビジネスインテリジェンスのトレンドと機会

機械学習研究の10年

アイデアこそが王様！メンサ国際元会長が2021年の人工知能の応用を総括

TimePillars: 200メートルを超える小さなターゲットの検出能力の向上

アンサンブル法の簡単な分析

機械読解：人工知能技術の重要な分野の一つ

ビッグデータに圧倒された米国の諜報機関は人工知能に期待をかけている

カルパシーはOpenAIの内部闘争中にビデオを録画しました：大規模言語モデル入門がオンラインです

GPT4 はロボットにペンをスムーズに回転させる方法を教えます。

Google の優れた NLP 事前トレーニングモデルはオープンソースで、BERT に勝る

2011 コンピュータソフトウェア試験プログラマー: アルゴリズム分析の基礎学習

Javaソートアルゴリズムの概要（IV）：シェルソート

ChatGPTはオンラインモードを緊急にシャットダウンし、有料のウェブページに無料でアクセスできることが一度明らかになった。