AIが油絵の描き方を教えます。どんなスタイルでも習得でき、ストロークのシーケンスも数秒で表示されます。

AIが油絵の描き方を教えます。どんなスタイルでも習得でき、ストロークのシーケンスも数秒で表示されます。

[[417713]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AIはすでに油絵の描き方を教えることができます。

任意の画像を入力すると、数秒以内にストロークのシーケンスが表示されます。

たとえば、世界的に有名な絵画「モナ・リザ」。

あるいはリアルな鳥。

雰囲気を盛り上げる川灯籠もあります。

つまり、どんなスタイルでもコントロールできるのです。

このテクニックは、21 時間以内に Reddit で 600 件以上のいいねを獲得しました。

どうやって作られたのですか?

フィードフォワードネットワークによるストロークの予測

ニューラル ペインティングは、与えられた画像に対して一連のストロークを生成し、ニューラル ネットワークを使用して絵画のような方法でリアルな再現プロセスを実行するプロセスです。

研究チームは、フィードフォワード ネットワークを使用してストロークのパラメーターを予測する、Paint Transformer と呼ばれるトランスフォーマー ベースのフレームワークを提案しました。

現在、Paint Transformer をトレーニングするためのデータセットがないため、研究者はオブジェクト検出にヒントを得た自己トレーニング パイプラインを設計しました。

モデル全体は、ストローク予測モジュールとストローク レンダラーの 2 つのモジュールで構成されています。

ストローク予測子は、ターゲット イメージと中間キャンバス イメージが指定されると、現在のストローク セットを決定するための一連のパラメーターを生成します。

予測子は、特徴埋め込み用の 2 つの CNN ネットワークと、パラメータ予測用のトランスフォーマーで構成されます。

次に、ストローク レンダラーはストローク セット内の各ストロークのストローク イメージを生成し、キャンバスに描画して、サイズが512 x 512の結果イメージを生成します。

DETR (Object Detection with Transformer) に基づいて、ストロークを保持する必要があるかどうかを予測するためのバイナリ ニューロンが追加されます。

これにより、既存のデータセットがなくてもトレーニングが可能になり、優れた一般化機能を実現できます。

実験では、このアプローチは、トレーニングと推論のコストが低く、従来の方法よりも優れたペイント パフォーマンスを実現することが示されています。

Baidu NDUチームによって作成

この技術は、百度、南京大学、ラトガース大学が共同で開発した。

コードはオープンソース化され、Yike フォトアルバム アプリに適用されました。

論文の宛先:
https://arxiv.org/abs/2108.03798
GitHubのURL:
https://github.com/wzmsltw/PaintTransformer

<<:  人工知能によって破壊される可能性のある7つの業界

>>:  人工知能が高齢者の日常生活に影響を与えないようにする

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ドローンは人気があり、3つの主要なアプリケーションが農家の役に立つ

今日は二十四節気の一つ、白露節気です。白露節気の季節には、我が国のほとんどの地域が秋の収穫期に入り、...

また一人の科学者が学界に復帰、AI産業の発展は冷え込みつつあるのか?

最近、一部メディアは、アント・ファイナンシャルの元副社長兼主任データサイエンティストである斉元氏が復...

畳み込みニューラルネットワークのパフォーマンス最適化

導入畳み込みはニューラル ネットワークのコア計算の 1 つです。コンピューター ビジョンにおける畳み...

シリコンバレーのAI界で注目の記事:ジャスパーとVCはAIGCブームの最大の敗者となり、潮が引いた後に初めて誰が裸で泳いでいるかがわかる

この夏、人工知能起業家サム・ホーガンが書いた記事がシリコンバレー中で話題になった。現在、AI と大規...

無意味または有害なボットトラフィックは年間最大2億5000万ドルのコストがかかる

Cyber​​news によると、ますます多くの企業が、検出がますます困難になっている悪意のあるボッ...

小売業と教育における感情認識に焦点を当てていますが、Mizao.com はどのように違うのでしょうか?

[51CTO.com からのオリジナル記事] 喜び、悲しみ、恐怖、平静、怒り、驚き、軽蔑、嫌悪など...

...

自然言語処理 (NLP) とは何ですか?

[[399636]] 【51CTO.com クイック翻訳】自然言語処理 (NLP) の定義自然言語...

ヘルスケアにおけるロボット工学の新展開

ロボット工学は考えられるあらゆる分野に応用できます。教育、旅行、防衛など、あらゆる分野でロボット工学...

無料の Python 機械学習コース パート 3: 多項式回帰

多項式回帰は線形回帰の改良版です。線形回帰を知っていれば、簡単に理解できるでしょう。そうでない場合は...

ほとんどの企業はユーザーの同意を得ずに顔認識機能を使用している

顔認証機能の利用にあたり、利用者の同意を得ていない企業が半数近くあるというデータもある。ビッグデータ...

ハイブリッドエキスパートの限界を押し上げる: わずか 0.32% のパラメータ更新でモデルを微調整

ご存知のとおり、大規模なモデルのトレーニングにはコストがかかりますが、事前トレーニング済みのモデルを...

自動運転は衛生分野に適用され、問題点に直接対処し、将来性が期待できる

自動運転技術の開発は加速しており、商業的な検討も日々増加しています。現段階では、業界では貨物輸送と旅...

これらの業界をリードする大型モデルはすべて1つの会社によって「買収」されました

GPT-4 のリリースは AI の歴史に残る大きな出来事であることは間違いありません。しかし、時が経...