このベクターニューラルスタイルのブラシを使用すると、GANなしで美しい絵画を生成できます

CVPR 2021で発表された論文の中で、NetEase Fuxiとミシガン大学の研究者は、制御可能なスタイルで鮮やかでリアルな絵画を生成できる画像から絵画への変換方法を提案しました。このメソッドの実装コードは現在オープンソースになっています。

論文の宛先:
出典：http://arxiv.org/abs/2011.08114

Githubアドレス:
https://github.com/jiupinjia/stylized-neural-painting

ピクセル単位の予測フレームワークでペイントを生成する従来のスタイル転送方法とは異なり、この方法では、ベクター空間で物理的に意味のあるシーケンスブラシパラメータを生成し、レンダリングにさらに使用できます。ブラシ自体は微分不可能であるため、本研究ではブラシの動作をシミュレートし、ブラシ予測問題をパラメータ空間での検索問題に変換して、レンダリングされた出力と入力画像間の類似性を最大化する新しいニューラルレンダラーを設計しました。この研究では、探索プロセスにおけるゼロ勾配問題を明らかにし、最適輸送の観点からこの問題の解決策を提案します。

さらに、この研究では、従来のニューラルレンダラーにおけるパラメータ結合の問題も明らかになり、レンダリングネットワークが再設計されました。新しいネットワークはラスタライズネットワークとシェーディングネットワークで構成されており、形状と色をより適切に分離できます。実験では、本研究で提案された方法が、グローバルおよびローカルテクスチャレベルでより高いリアリティを持つことが示されました。さらに、この方法は、ニューラルスタイル転送フレームワークの下で共同で最適化され、他の絵画の視覚効果をさらに転送することもできます。

図1：この研究では、リアルな絵画を生成できるブラシベースのレンダリング手法を提案しています。画像内の描画はベクター形式で生成され、さらに最適化してさまざまなスタイルでレンダリングできます。

ひまわりの絵を生成します。

この研究の主な貢献は次のとおりです。

ブラシ予測問題をパラメータ検索問題に変換する、新しいブラシベースの画像から絵画への変換方法が提案されています。この方法は、ニューラルスタイル転送フレームワークの下でさらに共同で最適化され、様式化された効果を実現することもできます。

パラメータ探索におけるゼロ勾配問題を明らかにし、ブラシ最適化問題を最適輸送の観点から考察する。この研究では、ブラシの収束とペイント効果を改善するために微分可能な伝達損失関数を導入しました。

2 パスレンダリングパイプライン (ラスタライズ + シェーディング) で構成される新しいニューラルレンダリングフレームワークが設計されています。新しいレンダラーはブラシの形状と色の分離をより適切に処理でき、そのパフォーマンスは以前のニューラルレンダラーよりも優れています。

ニューラルスタイルブラシ

この研究は主に 3 つの機能モジュールで構成されています。1) 入力ブラシパラメータに基づいてブラシイメージを生成できるニューラルレンダラー、2) 複数のブラシを組み合わせることができる微分可能なブラシミキサー、3) 入力イメージと出力イメージの類似性を測定するモジュールです。

Neural Style Brush は、芸術的な絵画のパラメータ化の問題を解決します。このメソッドは、空白のキャンバス h_0 を指定すると、ブラシをキャンバスに徐々に重ねていきます。たとえば、ステップ t では、トレーニング済みのニューラルレンダラーG がブラシパラメーターのセットX_tを前景画像 s_t と対応する透明マスクにレンダリングします。次に、このメソッドはソフトブレンディングを使用して、現在のキャンバス、新しく追加されたブラシ、および対応するマスクを重ね合わせ、プロセス全体が微分可能であることを確認します。

で。最後に、この方法はTステップのすべてのブラシパラメータをまとめて収集し、自己教師方式でブラシパラメータの最適解を検索します。つまり、最終的なレンダリング出力 h_T は、入力画像に可能な限り類似している必要があります。

ここで、はブラシパラメータからレンダリングキャンバスへの再帰マッピングを表します。すべてのTステップのブラシパラメータのセットを表します。

が絵画 h_T と入力画像間の類似性を測定するために使用される損失関数であると仮定すると、この方法はパラメータ空間内のすべての入力ブラシを直接最適化し、類似性損失関数を最小化し、勾配降下法を使用してブラシパラメータを更新します。

ここで、は事前定義された学習率です。

図 2: この研究は空白のキャンバスから始まり、ソフトブレンディングを使用してブラシを重ねながら、ブラシごとにレンダリングしました。この方法では、勾配降下法を使用して、生成されたペイントが入力画像に可能な限り類似するように、最適なブラシパラメーターのセットを検索します。図中の黒い矢印は順方向伝播を表し、赤い矢印は勾配逆方向伝播を表します。

ニューラルレンダラー

Neural Style Brush のコアモジュールは Neural Renderer です。これまでのニューラルレンダラーは、比較的単純なレンダリングシーンでしか動作できませんでしたが、遷移色やブラシテクスチャなどのより複雑なレンダリングシーンに遭遇すると、上記のレンダラーでは結合されたブラシの形状と色をうまく表現することが困難になります。この研究では、従来のレンダリングパイプラインを活用し、色/形状/材質の結合問題を適切に解決できるデュアルチャネルニューラルレンダラーを設計します。

図 3: この研究では、シェーディングネットワーク G_s とラスタライゼーションネットワーク Gr_r で構成される 2 チャネルニューラルレンダラーを設計しました。これにより、入力ブラシパラメータセットをラスタライズされた前景画像と対応する透明マスクにレンダリングできます。

新しいニューラルレンダラーは、シェーディングネットワーク G_s とラスタライゼーションネットワーク G_r の 2 つのサブネットワークで構成され、入力ブラシパラメーターXは、色、形状、透明度の 3 つのグループに分かれています。カラーリングネットワーク G_s は、積み重ねられた転置畳み込み層のセットで構成され、入力色と形状パラメータから信頼性の高い前景色を持つブラシを生成するために使用されます。ラスタライゼーションネットワーク G_r は、位置エンコーダー + ピクセルデコーダーの形式で設計されており、色情報は無視されますが、シャープなエッジを持つブラシのアウトラインを生成できます。最後に、輪郭画像に応じてカラー画像をマスクすることでブラシの前景画像 s が得られ、入力された透明度を使用して輪郭画像をスケーリングすることで透明マスクが得られます。

この研究では、標準的なピクセル単位の回帰損失関数を使用して、上記のレンダラーをトレーニングしました。

ここで、およびは、グラフィックスエンジンによってレンダリングされる前景イメージと透明マスクの true 値を表します。ブラシパラメータ空間からランダムにサンプリングされたブラシパラメータを表します。

ピクセルの類似性とゼロ勾配問題

ニューラルスタイルのブラシペイントの鍵は、類似性の定義にあります。たとえば、ピクセルごとの合計損失関数を直接使用して、レンダリング結果と入力画像間の類似性を定義できます。ただし、ニューラルスタイルのブラシはピクセル空間でのみ最適化されるわけではなく、ブラシパラメータをさらに最適化する必要があります。現時点では、ピクセルごとの損失関数では、勾配の有効な下降を常に保証できるわけではありません。特に、レンダリングされたブラシとその実際の値が重ならない場合は、ゼログラデーションの問題が発生します。本研究ではさらに、図 4 と 5 に示すように、この問題を解決するために最適な処理損失関数を導入しました。

図 4: 簡単な例で、ブラシパラメータを最適化するときにピクセル単位の損失関数にゼロ勾配問題が発生する可能性がある理由を説明できます ()。

図 4(a) に示すように、正方形のブラシA をターゲットBの方向に沿って移動する場合、ピクセルごとの勾配は常に一定です。特に、 AとBに交差がない場合は、図 4(b) に示すように、勾配はゼロになります。対照的に、図4(c)に示すように、本研究で提案した最適輸送損失関数は上記の問題を持たず、 AとB間の物理的な距離をうまく記述することができます。

図 5: ブラシを初期値からターゲット位置にプッシュする際のピクセル単位の損失関数 (最初の行) と最適なトランスポート損失関数 (2 番目の行) の比較。

最適なトランスポート損失関数を使用すると、ブラシはターゲット位置にうまく収束できますが、ピクセルごとの損失関数はゼロ勾配問題のために収束に失敗します。

最適輸送損失関数

この研究では、キャンバスと入力画像間の類似度尺度として最小転送作業（つまり、ワッサースタイン距離）を定義します。与えられたキャンバス h と入力画像に対して、それらの正規化されたピクセル値が確率周辺関数として定義されます。結合確率行列を表します。ここで、(i,j) 番目の要素は h 内の i 番目のピクセルと h 内の j 番目のピクセルの結合確率を表し、n は画像内のピクセル数を表します。 D はコスト行列を表し、その (i,j) 番目の要素は h の i 番目のピクセルと h の j 番目のピクセル間のユークリッド距離を表します。したがって、行列Dには、質量単位を h 内のある場所から h 内の別の場所に移動するために必要な労働コストがリストされます。離散的なケースでは、古典的な最適輸送距離は線形最適化問題として表現することができ、

この研究では、研究者らは、古典的な最適輸送距離である有名なシンクホーン距離の平滑化バージョンを提供しました。この距離は数学的に優れた特性を持ち、元のバージョンと比較して計算コストを大幅に削減できます。ラグランジュ乗数と追加のエントロピー制約を導入すると、上記の最適化問題は次のようにさらに記述できます。

上記の形式に基づいて、最適な輸送損失関数をパラメータ検索プロセスに簡単に統合し、他の損失関数と共同で最適化することができます。したがって、ニューラルスタイルブラシの合計類似度損失関数は次のように定義されます。

2 つの目的関数のバランスをとるために使用されます。

図 7: 上の図はブラシごとのペイント結果を示しています。最初の行はマーカーペンに基づいて生成され、2 番目の行は油絵ブラシに基づいて生成されています。右側の画像は、最適化プロセス中の損失関数曲線を示しています。

ニューラルスタイル転送による共同最適化

ニューラルスタイルブラシはパラメーター検索パラダイムに基づいて実装されているため、この方法はニューラルスタイル転送フレームワークに自然に適合します。ニューラルスタイル転送は、画像ピクセルを更新することでコンテンツの損失とスタイルの損失を最小限に抑えるように設計されているため、研究者は、スタイル損失関数をニューラルスタイルブラシにさらに組み込み、様式化された出力を実現しました。拡張された類似性測定関数は次のように定義できます。

ここで、は類似度損失関数であり、本研究ではGatysらと同じ形式、つまりVGG-19によって抽出された特徴に基づいてグラム行列を計算する形式を採用しています。

実験

様式化された絵画生成の実験

ジョイントロス関数の設計により、ニューラルスタイルブラシはリアルなアートペインティングを生成できるだけでなく、様式化されたレンダリング結果も生成できます。さらに、ブラシパラメータには明確な物理的な意味があるため、出力をスタイル設定するときに、スタイル設定の範囲 (色またはマテリアル) をさらに制御できます。

図8: (a)-(c)はニューラルスタイルブラシによるペイント結果を示しています。 (d) は非常に抽象的な漫画キャラクターの肖像画を示しています。

図 9: ニューラルスタイルブラシに基づくスタイル転送の結果。

比較実験

これまでのペイントパラメータ化方法は主に「Learning-to-Paint」アルゴリズムなどの強化学習に依存していましたが、ニューラルスタイルブラシはニューラルレンダラーを導入することでブラシの非差別化の問題を解決しました。したがって、Neural Style Brush は、RL ベースの方法よりもリアルな結果を生成できます。

図10: ニューラルスタイルブラシと学習ペイントアルゴリズムの比較

研究者らは、従来の方法との比較に加え、手作業による絵画とも比較し、良好な生成結果を達成しました。

図11: アーティスト（アダム・リスター）の描画結果と自動生成された結果