このベクターニューラルスタイルのブラシを使用すると、GANなしで美しい絵画を生成できます

このベクターニューラルスタイルのブラシを使用すると、GANなしで美しい絵画を生成できます

CVPR 2021で発表された論文の中で、NetEase Fuxiとミシガン大学の研究者は、制御可能なスタイルで鮮やかでリアルな絵画を生成できる画像から絵画への変換方法を提案しました。このメソッドの実装コードは現在オープンソースになっています。

論文の宛先:
出典:http://arxiv.org/abs/2011.08114

Githubアドレス:
https://github.com/jiupinjia/stylized-neural-painting

ピクセル単位の予測フレームワークでペイントを生成する従来のスタイル転送方法とは異なり、この方法では、ベクター空間で物理的に意味のあるシーケンス ブラシ パラメータを生成し、レンダリングにさらに使用できます。ブラシ自体は微分不可能であるため、本研究ではブラシの動作をシミュレートし、ブラシ予測問題をパラメータ空間での検索問題に変換して、レンダリングされた出力と入力画像間の類似性を最大化する新しいニューラル レンダラーを設計しました。この研究では、探索プロセスにおけるゼロ勾配問題を明らかにし、最適輸送の観点からこの問題の解決策を提案します。

さらに、この研究では、従来のニューラル レンダラーにおけるパラメータ結合の問題も明らかになり、レンダリング ネットワークが再設計されました。新しいネットワークはラスタライズ ネットワークとシェーディング ネットワークで構成されており、形状と色をより適切に分離できます。実験では、本研究で提案された方法が、グローバルおよびローカルテクスチャレベルでより高いリアリティを持つことが示されました。さらに、この方法は、ニューラル スタイル転送フレームワークの下で共同で最適化され、他の絵画の視覚効果をさらに転送することもできます。

図1:この研究では、リアルな絵画を生成できるブラシベースのレンダリング手法を提案しています。画像内の描画はベクター形式で生成され、さらに最適化してさまざまなスタイルでレンダリングできます。

ひまわりの絵を生成します。

この研究の主な貢献は次のとおりです。

ブラシ予測問題をパラメータ検索問題に変換する、新しいブラシベースの画像から絵画への変換方法が提案されています。この方法は、ニューラル スタイル転送フレームワークの下でさらに共同で最適化され、様式化された効果を実現することもできます。

パラメータ探索におけるゼロ勾配問題を明らかにし、ブラシ最適化問題を最適輸送の観点から考察する。この研究では、ブラシの収束とペイント効果を改善するために微分可能な伝達損失関数を導入しました。

2 パス レンダリング パイプライン (ラスタライズ + シェーディング) で構成される新しいニューラル レンダリング フレームワークが設計されています。新しいレンダラーはブラシの形状と色の分離をより適切に処理でき、そのパフォーマンスは以前のニューラル レンダラーよりも優れています。

ニューラルスタイルブラシ

この研究は主に 3 つの機能モジュールで構成されています。1) 入力ブラシ パラメータに基づいてブラシ イメージを生成できるニューラル レンダラー、2) 複数のブラシを組み合わせることができる微分可能なブラシ ミキサー、3) 入力イメージと出力イメージの類似性を測定するモジュールです。

Neural Style Brush は、芸術的な絵画のパラメータ化の問題を解決します。このメソッドは、空白のキャンバス h_0 を指定すると、ブラシをキャンバスに徐々に重ねていきます。たとえば、ステップ t では、トレーニング済みのニューラル レンダラーG がブラシ パラメーターのセットX_tを前景画像 s_t と対応する透明マスクにレンダリングします。次に、このメソッドはソフト ブレンディングを使用して、現在のキャンバス、新しく追加されたブラシ、および対応するマスクを重ね合わせ、プロセス全体が微分可能であることを確認します。

で。最後に、この方法はTステップのすべてのブラシ パラメータをまとめて収集し、自己教師方式でブラシ パラメータの最適解を検索します。つまり、最終的なレンダリング出力 h_T は、入力画像に可能な限り類似している必要があります。

ここで、はブラシ パラメータからレンダリング キャンバスへの再帰マッピングを表します。すべてのTステップのブラシ パラメータのセットを表します。

が絵画 h_T と入力画像間の類似性を測定するために使用される損失関数であると仮定すると、この方法はパラメータ空間内のすべての入力ブラシを直接最適化し、類似性損失関数を最小化し、勾配降下法を使用してブラシパラメータを更新します。

ここで、は事前定義された学習率です。

図 2: この研究は空白のキャンバスから始まり、ソフトブレンディングを使用してブラシを重ねながら、ブラシごとにレンダリングしました。この方法では、勾配降下法を使用して、生成されたペイントが入力画像に可能な限り類似するように、最適なブラシ パラメーターのセットを検索します。図中の黒い矢印は順方向伝播を表し、赤い矢印は勾配逆方向伝播を表します。

ニューラルレンダラー

Neural Style Brush のコア モジュールは Neural Renderer です。これまでのニューラル レンダラーは、比較的単純なレンダリング シーンでしか動作できませんでしたが、遷移色やブラシ テクスチャなどのより複雑なレンダリング シーンに遭遇すると、上記のレンダラーでは結合されたブラシの形状と色をうまく表現することが困難になります。この研究では、従来のレンダリング パイプラインを活用し、色/形状/材質の結合問題を適切に解決できるデュアル チャネル ニューラル レンダラーを設計します。

図 3: この研究では、シェーディング ネットワーク G_s とラスタライゼーション ネットワーク Gr_r で構成される 2 チャネル ニューラル レンダラーを設計しました。これにより、入力ブラシ パラメータ セットをラスタライズされた前景画像と対応する透明マスクにレンダリングできます。

新しいニューラル レンダラーは、シェーディング ネットワーク G_s とラスタライゼーション ネットワーク G_r の 2 つのサブネットワークで構成され、入力ブラシ パラメーターXは、色、形状、透明度の 3 つのグループに分かれています。カラーリング ネットワーク G_s は、積み重ねられた転置畳み込み層のセットで構成され、入力色と形状パラメータから信頼性の高い前景色を持つブラシを生成するために使用されます。ラスタライゼーション ネットワーク G_r は、位置エンコーダー + ピクセル デコーダーの形式で設計されており、色情報は無視されますが、シャープなエッジを持つブラシのアウトラインを生成できます。最後に、輪郭画像に応じてカラー画像をマスクすることでブラシの前景画像 s が得られ、入力された透明度を使用して輪郭画像をスケーリングすることで透明マスクが得られます。

この研究では、標準的なピクセル単位の回帰損失関数を使用して、上記のレンダラーをトレーニングしました。

ここで、 および は、グラフィックス エンジンによってレンダリングされる前景イメージと透明マスクの true 値を表します。ブラシ パラメータ空間からランダムにサンプリングされたブラシ パラメータを表します。

ピクセルの類似性とゼロ勾配問題

ニューラル スタイルのブラシ ペイントの鍵は、類似性の定義にあります。たとえば、ピクセルごとの合計損失関数を直接使用して、レンダリング結果と入力画像間の類似性を定義できます。ただし、ニューラル スタイルのブラシはピクセル空間でのみ最適化されるわけではなく、ブラシ パラメータをさらに最適化する必要があります。現時点では、ピクセルごとの損失関数では、勾配の有効な下降を常に保証できるわけではありません。特に、レンダリングされたブラシとその実際の値が重ならない場合は、ゼログラデーションの問題が発生します。本研究ではさらに、図 4 と 5 に示すように、この問題を解決するために最適な処理損失関数を導入しました。

図 4: 簡単な例で、ブラシ パラメータを最適化するときにピクセル単位の損失関数にゼロ勾配問題が発生する可能性がある理由を説明できます ()。

図 4(a) に示すように、正方形のブラシA をターゲットBの方向に沿って移動する場合、ピクセルごとの勾配は常に一定です。特に、 ABに交差がない場合は、図 4(b) に示すように、勾配はゼロになります。対照的に、図4(c)に示すように、本研究で提案した最適輸送損失関数は上記の問題を持たず、 AB間の物理的な距離をうまく記述することができます。

図 5: ブラシを初期値からターゲット位置にプッシュする際のピクセル単位の損失関数 (最初の行) と最適なトランスポート損失関数 (2 番目の行) の比較。

最適なトランスポート損失関数を使用すると、ブラシはターゲット位置にうまく収束できますが、ピクセルごとの損失関数はゼロ勾配問題のために収束に失敗します。

最適輸送損失関数

この研究では、キャンバスと入力画像間の類似度尺度として最小転送作業(つまり、ワッサースタイン距離)を定義します。与えられたキャンバス h と入力画像に対して、それらの正規化されたピクセル値が確率周辺関数として定義されます。結合確率行列を表します。ここで、(i,j) 番目の要素は h 内の i 番目のピクセルと h 内の j 番目のピクセルの結合確率を表し、n は画像内のピクセル数を表します。 D はコスト行列を表し、その (i,j) 番目の要素は h の i 番目のピクセルと h の j 番目のピクセル間のユークリッド距離を表します。したがって、行列Dには、質量単位を h 内のある場所から h 内の別の場所に移動するために必要な労働コストがリストされます。離散的なケースでは、古典的な最適輸送距離は線形最適化問題として表現することができ、

この研究では、研究者らは、古典的な最適輸送距離である有名なシンクホーン距離の平滑化バージョンを提供しました。この距離は数学的に優れた特性を持ち、元のバージョンと比較して計算コストを大幅に削減できます。ラグランジュ乗数と追加のエントロピー制約を導入すると、上記の最適化問題は次のようにさらに記述できます。

上記の形式に基づいて、最適な輸送損失関数をパラメータ検索プロセスに簡単に統合し、他の損失関数と共同で最適化することができます。したがって、ニューラル スタイル ブラシの合計類似度損失関数は次のように定義されます。

2 つの目的関数のバランスをとるために使用されます。

図 7: 上の図はブラシごとのペイント結果を示しています。最初の行はマーカー ペンに基づいて生成され、2 番目の行は油絵ブラシに基づいて生成されています。右側の画像は、最適化プロセス中の損失関数曲線を示しています。

ニューラルスタイル転送による共同最適化

ニューラル スタイル ブラシはパラメーター検索パラダイムに基づいて実装されているため、この方法はニューラル スタイル転送フレームワークに自然に適合します。ニューラル スタイル転送は、画像ピクセルを更新することでコンテンツの損失とスタイルの損失を最小限に抑えるように設計されているため、研究者は、スタイル損失関数をニューラル スタイル ブラシにさらに組み込み、様式化された出力を実現しました。拡張された類似性測定関数は次のように定義できます。

ここで、は類似度損失関数であり、本研究ではGatysらと同じ形式、つまりVGG-19によって抽出された特徴に基づいてグラム行列を計算する形式を採用しています。

実験

様式化された絵画生成の実験

ジョイントロス関数の設計により、ニューラル スタイル ブラシはリアルなアート ペインティングを生成できるだけでなく、様式化されたレンダリング結果も生成できます。さらに、ブラシ パラメータには明確な物理的な意味があるため、出力をスタイル設定するときに、スタイル設定の範囲 (色またはマテリアル) をさらに制御できます。

図8: (a)-(c)はニューラルスタイルブラシによるペイント結果を示しています。 (d) は非常に抽象的な漫画キャラクターの肖像画を示しています。

図 9: ニューラル スタイル ブラシに基づくスタイル転送の結果。

比較実験

これまでのペイントパラメータ化方法は主に「Learning-to-Paint」アルゴリズムなどの強化学習に依存していましたが、ニューラル スタイル ブラシはニューラル レンダラーを導入することでブラシの非差別化​​の問題を解決しました。したがって、Neural Style Brush は、RL ベースの方法よりもリアルな結果を生成できます。

図10: ニューラルスタイルブラシと学習ペイントアルゴリズムの比較

研究者らは、従来の方法との比較に加え、手作業による絵画とも比較し、良好な生成結果を達成しました。

図11: アーティスト(アダム・リスター)の描画結果と自動生成された結果

制御された実験

研究者らは、伝達損失関数とデュアルチャネルニューラルレンダラーの役割についてもそれぞれ研究した。

図 12: 最適な輸送損失関数を使用する前と後の結果の比較。最適な転送損失関数は、特にブラシの初期位置がターゲット領域と重ならない場合、画像内のより多くの詳細を効果的に復元できます。

図 13: さまざまなニューラル レンダラー (DCGAN-G、UNet、PxlShuffleNet を含む) の検証セットの精度。本研究で提案されたデュアルチャネルニューラルレンダラーは、検証セットの精度を効果的に向上させ、収束速度を加速することができます。

図14: 異なるニューラルレンダラーでレンダリングされた視覚化結果の比較

<<:  MIT は Google と提携して 7 台のマルチタスク ロボットをトレーニングし、9,600 のタスクで 89% の成功率を達成しました。

>>:  ドローンは何に使えるのでしょうか?これらの使い方は本当に素晴らしいです!

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

中国の建設ロボット軍団がやってくる!

[[408565]]香港のサウスチャイナ・モーニング・ポストに6月29日に掲載された記事「中国の道...

コストを 95% 削減した ChatGPT の代替品を作成しましょう! OpenAIのハードコアアップデートが来月リリースされ、ビジュアルAPIが登場

世界中の開発者は長い間、OpenAI モデルの価格に悩まされてきました。ロイター通信は、11月6日に...

...

...

糖尿病網膜症のスクリーニングの改善におけるAIの役割

糖尿病は網膜症を引き起こす可能性があり、これは失明につながる合併症です。しかし、良いニュースとしては...

運営:申し訳ありませんが、当社は責任を負いかねます

[51CTO.com より引用] 運用保守というと、多くの人が無意識のうちに運用保守担当者を「スケー...

人工知能は非常に人気があります。PULSE は低品質のモザイク画像を保存し、数秒で高解像度の画像に変換できます。

[51CTO.com オリジナル記事] モザイクとはどういう意味ですか?従来のモザイクは、主に映画...

ロボットの台頭:伝統産業を変革する新技術

アルゴリズムの時代が到来しました。 Google、Amazon、AppleなどのIT大手が開発した、...

完全なルーティングアルゴリズムの設計目標の分析

ルーティング アルゴリズムには通常、次の 1 つ以上の設計目標があります。最適化:最適化とは、メトリ...

...

...

機械学習について知っておくべき6つの革命的な教訓

私たちは、ロボット工学、スマート家電、スマート小売店、自動運転車技術などによって推進される新しい時代...

...

量子コンピュータ、モノのインターネット、サイバーセキュリティの相互作用

量子コンピュータは多くの産業の運営方法を変えるでしょう。量子コンピューティングは社会に大きな影響を与...

ロビン・リー:百度はすでに独自のハイエンドチップを製造する能力がある

「中国の改革開放40年はIT産業の爆発的な成長をもたらしたが、ハイエンドチップは常に輸入に依存してき...