中国チームは、自分たちが作るペイントトランスフォーマーを提案した。ネットユーザー：これもニューラルネットワークの使用が必要です

ニューラルネットワークが優れた画家であることは周知の事実です。スケッチを風景画に変えたり、異なるスタイルの 2 つの絵画間でスタイルを転送したりできます。

しかし、この種の作業はエンドツーエンドであるため、ニューラルネットワークがどのように画像を描くかはわかりません。

ニューラルペインティングが誕生しました。これは、特定の画像に対して一連のストロークを生成し、ニューラルネットワークを使用して非フォトリアリスティックに再現するプロセスを指します。

強化学習ベースのエージェントは、このタスクのストロークシーケンスを徐々に生成できますが、安定したエージェントをトレーニングするのは簡単ではありません。

一方、ストローク最適化法では、より広い検索空間でストロークパラメータのセットを繰り返し検索する必要があります。この非効率的な検索により、強化学習ベースの方法の一般化と実用性が制限されることは明らかです。

ICCV 2021 で公開された記事では、このタスクをセット予測問題として説明し、フィードフォワードネットワークを使用して一連のストロークのパラメーターを予測する、新しい Transformer ベースのフレームワーク (記事では Paint Transformer と名付けられています) を提案しました。

このようにして、提案されたモデルは、一連のストロークを並列に生成し、ほぼリアルタイムでサイズ 512 x 512 の最終的な絵画を得ることができます。

機械に描画方法を教えることは、新しい研究テーマではありません。従来の方法では、通常、ヒューリスティックな描画戦略を設計するか、貪欲にストロークを選択して、ターゲット画像との差異を段階的に減らします。

しかし、近年のニューラルネットワークにおける RNN と強化学習の台頭により、従来の方法の一般化パフォーマンスは比較にならないほど低下しています。

提案されたモデルは、ニューラルペインティングを段階的なストローク予測プロセスとして説明します。

各ステップでは、複数のストロークを並行して予測し、フィードフォワード方式で現在のキャンバスとターゲットイメージの差を最小限に抑えることができます。

ペイントトランスフォーマーは、ストロークプレディクターとストロークレンダラーの 2 つのモジュールで構成されています。ターゲットイメージと中間キャンバスイメージが指定されると、ストローク予測子は、現在のストロークのセットを決定するための一連のパラメーターを生成します。

次に、ストロークレンダラーは Sr 内の各ストロークのストロークイメージを生成し、それをキャンバスに描画して予測イメージを生成します。

Paint Transformer では、Stroker Predictor のみにトレーニング可能なパラメーターが含まれますが、Stroker Renderer はパラメーターがなく微分化可能なモジュールです。

ストローク予測子をトレーニングするために、ランダム合成ストロークを使用した新しい自己トレーニングパイプラインが提案されています。トレーニング中の各反復では、まず前景ストロークセットと背景ストロークセットがランダムにサンプリングされます。

次に、ストロークレンダラーを入力として受け取り、Sf を Ic にレンダリングしてターゲットイメージを生成するストロークレンダラーを使用してキャンバスイメージを生成します。

最後に、ストローク予測子はストロークセット Sr を予測し、Sr と Ic を入力として予測画像 Ir を生成します。

教師ありトレーニングに使用されるストロークはランダムに合成されるため、既製のデータセットに依存せずに無制限のトレーニングデータを生成できることに注意することが重要です。

ストロークを予測する際には、直線ストロークが主に考慮され、形状パラメータと色パラメータを使用してさまざまな直線を表すことができます。ストロークの形状パラメータには、中心点の座標 x と y、高さ h、幅 w、回転角度 θ が含まれます。ストロークのカラーパラメータには、r、g、b で表される RGB 値が含まれます。

自己トレーニングパイプラインの主な利点は、画像レベルとストロークレベルの両方で、グラウンドトゥルースと予測の差を同時に最小限に抑えることができることです。損失関数は、主にピクセル損失、ストローク間の差の測定、ストローク損失の 3 つの部分で構成されます。

1. ピクセル損失。ニューラルペインティングの直感的な目標は、ターゲットイメージを再構築することです。したがって、ピクセル損失により、画像レベルでの不正確な予測が不利になります。

2. ストローク距離。ストロークレベルでは、ストローク間の違いを測定するための適切な指標を定義することが重要です。

3. ストローク損失: トレーニング中、有効な真のストロークの数は変化します。 DETR モデルによれば、最小のストロークレベルのマッチングコストを生成するストローク配置を使用して最終損失を計算し、ハンガリーアルゴリズムを使用して最適な二部マッチングを計算します。

研究者たちは、人間の画家を模倣するために、推論プロセス中に絵画の結果を生成する粗から細までのアルゴリズムを設計しました。 H×W サイズの実画像が与えられると、Paint Transformer は K スケールで粗いものから細かいものの順に操作します。絵画の各スケールは、前のスケールの結果によって決まります。

ターゲットイメージと現在のキャンバスは、重複しない複数の P×P ブロックに分割され、ストローク予測機能に入力されます。

私たちのアプローチは、最先端の 2 つのストロークベースの描画生成方法と比較されます。最適化ベースの方法 (Optim) と比較して、Paint Transformer はより魅力的で斬新な結果を生成できます。

具体的には、テクスチャのない大きな画像領域では、私たちの方法は、比較的少ない、より大きなストロークで人間のような絵画効果を生成できます。

小さくテクスチャが豊富な画像領域では、Paint Transformer はコンテンツの構造を維持しながら、よりシャープなテクスチャを持つ絵画を作成できます。

さらにストロークを増やして Optim+MS を実装しても、上記の問題は依然として存在します。

シャープなブラシを使用すると、RL ベースの方法と比較して、より鮮明な結果を生成できます。同時に、RL の結果はややぼやけており、芸術的な品質に欠け、元の画像とあまりにも似ています。

定量的な比較では、ニューラルペインティングの目的の1つが元の画像を再構築することであるため、ピクセル損失と知覚損失が評価指標として直接使用されます。

実画像については、風景画像 100 枚、WikiArt のアート画像 100 枚、FFHQ のポートレート画像 100 枚がランダムに選択され、評価されます。実験結果は、以前の定性分析と一致しています。

（１）ペイントトランスフォーマーは鮮やかなブラシテクスチャを持ち、オプティムよりもオリジナルコンテンツをより良くレンダリングできる。

（２）コンテンツの忠実度は最高だが、コンテンツの明瞭度は劣る。

次に、ストローク予測のパフォーマンスを比較するために、合成されたストローク画像を Paint Transformer と Optim に入力し、生成されたストロークを Sec と同じメトリックを使用して評価します。結果は、提案された方法がストロークをうまく予測でき、他の方法よりも優れていることを示しています。

パフォーマンス実験の結果は、この方法が優れたレンダリングパフォーマンスと低いトレーニングおよび推論コストを備えていることを示しています。単一の Nvidia 2080Ti GPU を使用してトレーニングまたは推論時間を測定すると、Paint Transformer はフィードフォワード方式で一連のストロークを並列に生成するため、Optim ベースラインよりも大幅に高速に実行され、RL ベースのベースラインモデルよりもわずかに高速に実行されます。

トレーニングプロセスに関しては、総トレーニング時間の観点から見ると、ストローク予測パラメータのトレーニングには数時間しかかかりません。さらに、モデルフリーのストロークレンダラーとデータフリーのストロークプレディクターは効率的で使いやすいです。

現在、コードとモデルは GitHub に送信されています。

この論文のもう一つの重要な貢献は、データセットの提供です。 Paint Transformer のトレーニングに利用できるデータセットがないため、研究者は、優れた一般化機能を備えながら、既成のデータセットなしでトレーニングできるように、自己トレーニングパイプラインを設計しました。

しかし、Reddit のネットユーザーはこれに反対しているようで、このような単純なタスクには機械学習技術はまったく必要ないと考えています。

あるネットユーザーは、以前にもこれをやったことがあると返信し、これに似たようなことをするのにたった 50 行の Scala コードしかかからなかったと答えました。

また、なぜニューラルネットワークをこれに使用する必要があるのか理解できないと言う人もいます。

これについてどう思いますか？

<<: RedditユーザーがAppleのCSAMツールをリバースエンジニアリングし、アルゴリズムがすでに存在していることを発見

>>: 多関節ロボットの主な分類、利点、欠点は何ですか?

中国チームは、自分たちが作るペイントトランスフォーマーを提案した。ネットユーザー：これもニューラルネットワークの使用が必要です

たった2枚の写真でAIは完全なモーションプロセスを生成できる

2023 年のエンタープライズ AI トレンドトップ 10

AIが写真を見て場所を推測、その精度は90%以上！スタンフォードの最新のPIGEONモデル：予測誤差の40％は25キロメートル未満

WOT2018 アルゴリズムモデルフォーラム: データが氾濫する中、アルゴリズムを使用してボトルネックを打破する方法

2019年にRedditの機械学習セクションで人気のプロジェクト17選：最新のコードとリソースがすべて利用可能

人工知能が企業のバックオフィスへの参入を加速

中国のこの場所で：人工知能の新たな革命が起こる - 中国におけるAIの現状分析

顔認識のゴッドファーザー、李自青氏：技術革新が業界の未来を力づける

Puyuanはインテリジェントなビジネスプロセスを推進：「BPM+RPA」が進行中で、企業のデジタル変革を実現

人工知能（AI）がサプライチェーンに導入されると

推薦する

2020 年の最後の 1 か月間に発生した 1,694 件の AI インシデントを包括的にレビューします。ハイライトは何ですか?

パイプラインロボットは都市の安全を守り、夏の雷雨も恐れない

小売業界におけるロボットの応用は何ですか?

AIが書いたコンテンツは判別が難しく、言語の専門家でさえ無力である

スタンフォード大学の新刊「Decision Algorithms」が発売され、400ページを超える全文PDFが無料でダウンロードできます！

AI による顔を変える動画が何百万人ものユーザーを獲得。たった 1 ステップで楽しさから恐怖感まで

中国と米国の人工知能の格差はどれほど大きいか：米国の人材総数は中国の約20倍

5つの主要な知能分野における知識グラフの応用の目録

製造業におけるAI: インテリジェントロボットには次の4つの機能が必要です

人工知能の専門家：ディープラーニングは行き止まりではない

独自の顔ぼかしツールを構築する方法

AIは人間の目で世界を見ることを学習し、人間の瞳孔の微妙なズームをシミュレートすることさえできる。

小さなターゲットを検出するためのディープラーニングの一般的な方法