中国チームは、自分たちが作るペイントトランスフォーマーを提案した。ネットユーザー:これもニューラルネットワークの使用が必要です

中国チームは、自分たちが作るペイントトランスフォーマーを提案した。ネットユーザー:これもニューラルネットワークの使用が必要です

ニューラル ネットワークが優れた画家であることは周知の事実です。スケッチを風景画に変えたり、異なるスタイルの 2 つの絵画間でスタイルを転送したりできます。

しかし、この種の作業はエンドツーエンドであるため、ニューラル ネットワークがどのように画像を描くかはわかりません。

ニューラル ペインティングが誕生しました。これは、特定の画像に対して一連のストロークを生成し、ニューラル ネットワークを使用して非フォトリアリスティックに再現するプロセスを指します。

強化学習ベースのエージェントは、このタスクのストロークシーケンスを徐々に生成できますが、安定したエージェントをトレーニングするのは簡単ではありません。

一方、ストローク最適化法では、より広い検索空間でストロークパラメータのセットを繰り返し検索する必要があります。この非効率的な検索により、強化学習ベースの方法の一般化と実用性が制限されることは明らかです。

ICCV 2021 で公開された記事では、このタスクをセット予測問題として説明し、フィードフォワード ネットワークを使用して一連のストロークのパラメーターを予測する、新しい Transformer ベースのフレームワーク (記事では Paint Transformer と名付けられています) を提案しました。

このようにして、提案されたモデルは、一連のストロークを並列に生成し、ほぼリアルタイムでサイズ 512 x 512 の最終的な絵画を得ることができます。

機械に描画方法を教えることは、新しい研究テーマではありません。従来の方法では、通常、ヒューリスティックな描画戦略を設計するか、貪欲にストロークを選択して、ターゲット画像との差異を段階的に減らします。

しかし、近年のニューラル ネットワークにおける RNN と強化学習の台頭により、従来の方法の一般化パフォーマンスは比較にならないほど低下しています。

提案されたモデルは、ニューラル ペインティングを段階的なストローク予測プロセスとして説明します。

各ステップでは、複数のストロークを並行して予測し、フィードフォワード方式で現在のキャンバスとターゲット イメージの差を最小限に抑えることができます。

ペイント トランスフォーマーは、ストローク プレディクターとストローク レンダラーの 2 つのモジュールで構成されています。ターゲット イメージと中間キャンバス イメージが指定されると、ストローク予測子は、現在のストロークのセットを決定するための一連のパラメーターを生成します。

次に、ストローク レンダラーは Sr 内の各ストロークのストローク イメージを生成し、それをキャンバスに描画して予測イメージを生成します。

Paint Transformer では、Stroker Predictor のみにトレーニング可能なパラメーターが含まれますが、Stroker Renderer はパラメーターがなく微分化可能なモジュールです。

ストローク予測子をトレーニングするために、ランダム合成ストロークを使用した新しい自己トレーニング パイプラインが提案されています。トレーニング中の各反復では、まず前景ストローク セットと背景ストローク セットがランダムにサンプリングされます。

次に、ストローク レンダラーを入力として受け取り、Sf を Ic にレンダリングしてターゲット イメージを生成するストローク レンダラーを使用してキャンバス イメージを生成します。

最後に、ストローク予測子はストローク セット Sr を予測し、Sr と Ic を入力として予測画像 Ir を生成します。

教師ありトレーニングに使用されるストロークはランダムに合成されるため、既製のデータセットに依存せずに無制限のトレーニング データを生成できることに注意することが重要です。

ストロークを予測する際には、直線ストロークが主に考慮され、形状パラメータと色パラメータを使用してさまざまな直線を表すことができます。ストロークの形状パラメータには、中心点の座標 x と y、高さ h、幅 w、回転角度 θ が含まれます。ストロークのカラーパラメータには、r、g、b で表される RGB 値が含まれます。

自己トレーニング パイプラインの主な利点は、画像レベルとストローク レベルの両方で、グラウンド トゥルースと予測の差を同時に最小限に抑えることができることです。損失関数は、主にピクセル損失、ストローク間の差の測定、ストローク損失の 3 つの部分で構成されます。

1. ピクセル損失。ニューラル ペインティングの直感的な目標は、ターゲット イメージを再構築することです。したがって、ピクセル損失により、画像レベルでの不正確な予測が不利になります。

2. ストローク距離。ストロークレベルでは、ストローク間の違いを測定するための適切な指標を定義することが重要です。

3. ストローク損失: トレーニング中、有効な真のストロークの数は変化します。 DETR モデルによれば、最小のストローク レベルのマッチング コストを生成するストローク配置を使用して最終損失を計算し、ハンガリー アルゴリズムを使用して最適な二部マッチングを計算します。

研究者たちは、人間の画家を模倣するために、推論プロセス中に絵画の結果を生成する粗から細までのアルゴリズムを設計しました。 H×W サイズの実画像が与えられると、Paint Transformer は K スケールで粗いものから細かいものの順に操作します。絵画の各スケールは、前のスケールの結果によって決まります。

ターゲット イメージと現在のキャンバスは、重複しない複数の P×P ブロックに分割され、ストローク予測機能に入力されます。

私たちのアプローチは、最先端の 2 つのストロークベースの描画生成方法と比較されます。最適化ベースの方法 (Optim) と比較して、Paint Transformer はより魅力的で斬新な結果を生成できます。

具体的には、テクスチャのない大きな画像領域では、私たちの方法は、比較的少ない、より大きなストロークで人間のような絵画効果を生成できます。

小さくテクスチャが豊富な画像領域では、Paint Transformer はコンテンツの構造を維持しながら、よりシャープなテクスチャを持つ絵画を作成できます。

さらにストロークを増やして Optim+MS を実装しても、上記の問題は依然として存在します。

シャープなブラシを使用すると、RL ベースの方法と比較して、より鮮明な結果を生成できます。同時に、RL の結果はややぼやけており、芸術的な品質に欠け、元の画像とあまりにも似ています。

定量的な比較では、ニューラルペインティングの目的の1つが元の画像を再構築することであるため、ピクセル損失と知覚損失が評価指標として直接使用されます。

実画像については、風景画像 100 枚、WikiArt のアート画像 100 枚、FFHQ のポートレート画像 100 枚がランダムに選択され、評価されます。実験結果は、以前の定性分析と一致しています。

(1)ペイントトランスフォーマーは鮮やかなブラシテクスチャを持ち、オプティムよりもオリジナルコンテンツをより良くレンダリングできる。

(2)コンテンツの忠実度は最高だが、コンテンツの明瞭度は劣る。

次に、ストローク予測のパフォーマンスを比較するために、合成されたストローク画像を Paint Transformer と Optim に入力し、生成されたストロークを Sec と同じメトリックを使用して評価します。結果は、提案された方法がストロークをうまく予測でき、他の方法よりも優れていることを示しています。

パフォーマンス実験の結果は、この方法が優れたレンダリング パフォーマンスと低いトレーニングおよび推論コストを備えていることを示しています。単一の Nvidia 2080Ti GPU を使用してトレーニングまたは推論時間を測定すると、Paint Transformer はフィードフォワード方式で一連のストロークを並列に生成するため、Optim ベースラインよりも大幅に高速に実行され、RL ベースのベースライン モデルよりもわずかに高速に実行されます。

トレーニングプロセスに関しては、総トレーニング時間の観点から見ると、ストローク予測パラメータのトレーニングには数時間しかかかりません。さらに、モデルフリーのストローク レンダラーとデータフリーのストローク プレディクターは効率的で使いやすいです。

現在、コードとモデルは GitHub に送信されています。

この論文のもう一つの重要な貢献は、データセットの提供です。 Paint Transformer のトレーニングに利用できるデータセットがないため、研究者は、優れた一般化機能を備えながら、既成のデータセットなしでトレーニングできるように、自己トレーニング パイプラインを設計しました。

しかし、Reddit のネットユーザーはこれに反対しているようで、このような単純なタスクには機械学習技術はまったく必要ないと考えています。

あるネットユーザーは、以前にもこれをやったことがあると返信し、これに似たようなことをするのにたった 50 行の Scala コードしかかからなかったと答えました。

また、なぜニューラル ネットワークをこれに使用する必要があるのか​​理解できないと言う人もいます。

これについてどう思いますか?

<<:  RedditユーザーがAppleのCSAMツールをリバースエンジニアリングし、アルゴリズムがすでに存在していることを発見

>>:  多関節ロボットの主な分類、利点、欠点は何ですか?

ブログ    
ブログ    
ブログ    

推薦する

人工知能と自然言語処理技術が産業のアップグレードエンジンを牽引

人工知能は将来の技術開発の最前線分野として、ディープラーニング、レコメンデーションエンジン、コンピュ...

...

AI と Wi-Fi 6: 家庭内 Wi-Fi の革命を推進

固定ネットワークが F5G (第 5 世代) 時代に入るにつれ、家庭用 Wi-Fi テクノロジも、新...

AI | 機械知能が人間に代わって行う 5 つのこと

[[322374]]人間の認知能力のあらゆる特性を見てみましょう。まず、Fleishman の 21...

AIが世界を侵略する中、プログラマーは2040年になってもコードを書き続けることができるでしょうか?

アルファ囲碁が中国の囲碁の天才柯潔に3連勝した後、ロボット脅威論がますます広まりました。電話接客、デ...

...

...

...

...

AIとIoTが持続可能で人間中心の建物をどのようにサポートするか

企業の世界における人工知能の利点は何でしょうか?企業分野における AI の主な利点の 1 つは、プロ...

...

月給5万ドルでこのホットなAI分野をマスターするには、これらの9冊の本を読むだけで十分です

はじめに:国内の求人検索サイトのデータによると、2019年現在、上海の自然言語処理(NLP)関連職種...