この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 StyleGAN は、さまざまな画像処理および編集タスクで驚くほど優れたパフォーマンスを発揮します。 しかし、システムを変更して同じ仕事をするために再トレーニングするのは面倒です。 最後に、誰かが詳しく調べて次のことを発見しました。 実際、事前トレーニングと潜在空間のちょっとした操作だけで、StyleGAN はパノラマ生成、単一画像からの生成、特徴補間、画像間の変換など、さまざまなタスクを直接実行できます。 さらに驚くべきことは、これらの「タスク」におけるパフォーマンスが、どの SOTA プレーヤーよりも劣っていないことです。 著者はこの機会を利用して包括的な要約を作成し、論文を執筆しました。関連する議論は Reddit で直接700 回以上閲覧されました。 ネットユーザーたちは「この要約は本当にすごい!」と叫んだ。 必要なもの: 事前トレーニング + ちょっとした空間操作方法は非常に簡単です。一つずつ見ていきましょう。 前提: fi∈RB×C×H×W は StyleGAN の i 番目の層の中間特徴を表します。 1. 空間操作により直感的でリアルな画像を実現 StyleGAN は完全に畳み込み型であるため、fi の空間次元を調整して、出力画像に対応する空間変化を誘発することができます。 シンプルな空間操作 (パディングやサイズ変更など) を使用すると、より直感的でリアルな画像を生成できます。 たとえば、次の図では、茂みや木を複製して背景を拡大していますが、これにより、テクスチャのぼやけなどのアーティファクトが発生する元のサイズ変更と比較して、フィーチャ空間でよりリアルなテクスチャを維持できます。 2. 特徴補間 StyleGAN中間層のコラージュは画像情報の混合を実現できますが、つなぎ合わせる2つの画像があまりにも異なる場合には効果が良くないことが多いです。 ただし、特徴補間を使用すると問題はありません。 具体的な操作方法:StyleGANの各レイヤーでは、異なる潜在ノイズを使用してfAiとfBiを生成します。次に、次の式を使用して 2 つをスムーズに混合し、同じ操作のために次の畳み込み層に渡します。 ここで、α∈[0, 1]B×C×H×Wはマスクであり、水平混合に使用すると、マスクは左から右に向かって増加します。 対応するモデルとの定性的および定量的比較: この特徴補間法では 2 つの画像をシームレスにブレンドできますが、Suzuki らの結果では明らかなアーティファクトが発生します。 ユーザー調査でも、87.6% が Suzuki らの方法と比較してこの方法を好みました。 ユーザー調査には 40 人が参加し、各人は異なる方法で 25 組の画像を比較する必要がありました。 3. 1枚の画像から生成する 異なる画像間の特徴を補間するだけでなく、単一の画像内でも適用できます。 仕組み: 一部のフィーチャ レイヤーで、関連するパッチを選択し、他の領域とブレンドして空間的に複製します。シフト演算子 Shift (·) を使用します。 これは SinGAN と同じ機能ですが、SinGAN ではサンプリングが行われるのに対し、この方法では特徴補間のためのパッチを手動で選択するだけで済みます。 SinGANとの定性的および定量的比較: この方法で生成される画像はより多様でリアルです。SinGAN は教会の構造を「意味のある」方法で変更できず、雲や風景のリアルさも劣ります。 ユーザー調査では、83.3% の人がこの方法で生成された新しい画像を好みました。 4. GAN反転の改善 GAN 反転の目的は、W+ 空間でスタイル コードを見つけ、それを通じて特定のターゲット イメージに類似したイメージを合成することです。 Wulff らのモデルでは、単純な非線形変換の下で、W+ 空間をガウス分布を使用してモデル化できると想定しています。しかし、属性転送設定では、ソース画像と参照画像を反転する必要があり、満足のいくものではありません。 最近の研究では、σ を使用した顔操作の方が W+ を使用した場合よりもパフォーマンスが優れていることが示されています。 しかし著者らは、変換なしのσ空間もガウス分布としてモデル化できることを発見した。 同じガウス事前分布が、 GAN 反転中ではなく、この空間に適用されます。 効果比較: この方法により、画像の再構成と編集性が大幅に向上します。 5. 画像から画像への翻訳 σ 空間の上部部分の効果を利用して、著者らは、画像間の変換中に σ を生成するアフィン変換レイヤーを固定することを提案しています。この単純な変更により、画像変換のセマンティクスをより適切に保持できます (下の図 d の口の形に注目してください)。 さらに、著者らは次のことを発見しました。 (1)すべての空間次元において定数αを用いて連続的な並進運動を行うことができる。 これにより、より良い結果が得られます。 6. パノラマ生成 作者は、図に示すように、2 つの画像の混合 (スパン) を「織り合わせる」ことでパノラマを生成します。 このプロセスを繰り返すことで、任意の長さのパノラマ画像を生成できます。 さらに、この方法は、一度に 2 つの画像を混合することに限定されず、水平方向のみの生成にも限定されません。 例: 7. 属性転送 任意の人間のポーズの画像の属性転送における特徴補間を改善するために、著者らはソース画像と参照画像の間でポーズの位置合わせ、具体的には W+ 空間スタイル コードの最初の 2048 次元の位置合わせを実行することを選択しました。 次に、特徴補間を適用して、選択した特徴をソース イメージからターゲット イメージに転送できます。 既存の方法と比較して: Collins らの方法では、詳細属性が正確に転送されず、Suzuki らによって生成された画像は、ポーズが一致しない場合には十分に現実的ではありません。 そして著者のアプローチは正確かつ本物です。 現実感と正確さに基づいたユーザーの選択結果も、この方法の優位性をさらに証明しました。 ps. はっきりと異なる目を持つ顔の 2 つの半分をシームレスにブレンドするなど、任意の領域に転送を実行することもできます。 上記は、特定のアーキテクチャやトレーニングパラダイムを使用せずに、StyleGAN モデルの潜在空間でいくつかの操作と微調整を実行することで、他の画像処理タスクと同等以上のパフォーマンスを実現する具体的な方法です。 どう思いますか?他に追加したいことはありますか? 論文の宛先: プロジェクトアドレス: |
>>: RELX: 回答者の95%がAI人材の採用は課題であると考えている
人工知能 (AI) は高等教育に大きな進歩を遂げており、何らかの形で AI を導入した教育機関は、学...
老朽化するインフラ、コスト圧力、変動する利益率、規制の監視などにより、より効率的で強力なメンテナンス...
▲ 画像出典:マッキンゼーこのレポートで、マッキンゼーは、AIが人間の仕事に取って代わる時期が早まっ...
月収7億元でもGPTのトレーニングへの巨額の投資を賄うことはできません。これはOpenAIのCEO、...
[[374480]] 12月31日、AI研究所は2020年のAIの進歩トップ10を発表しました。新年...
ここ数年、自動運転車に対する熱狂が高まっています。これは確かに合理的です。自動運転車は、燃費の向上、...
機械学習の手法は、生命、物理学、社会経済などの複雑なシステムにますます応用されています。特定のタスク...
スタックは、特別な順序付けがされたテーブルです。挿入および削除操作はスタックの先頭で実行され、先入れ...
18 世紀半ば以降、3 度の産業革命により、蒸気駆動の機械生産から電気駆動の機械生産へと、人類社会に...
現在、ニューラル ネットワーク コードの単体テストに関する特に包括的なオンライン チュートリアルはあ...
ディープラーニングの父ヒントン氏:次世代ニューラルネットワーク SIGIRは、情報検索の分野における...
より鮮明な写真を撮るには、カメラ レンズの優先フォーカスを使用して同じ写真を再度撮影するか、ディープ...