AdobeなどがAIを活用しアニメキャラクターのポーズ移行を実現する新タイプの「パペットアニメーション」を提案

AdobeなどがAIを活用しアニメキャラクターのポーズ移行を実現する新タイプの「パペットアニメーション」を提案

人形アニメーションの制作は、クリエイターの手描きに頼るアニメーションと比べると、非常に手間のかかる作業です。ひとつのアクションをいくつかのつなぎに分解し、それをコマごとに撮影し、連続して映写してフィルムに仕上げる必要があります。最近、Adobeとコーネル大学は、人形アニメーションの制作方法に似た、少数の漫画キャラクターのサンプルに基づいて新しいキャラクターの動きを生成できる「デフォルメパペットテンプレート」と呼ばれるアニメーション制作方法を提案しました。

最近、Adobe とコーネル大学の研究者が、学習ベースのアニメーション制作方法を提案しました。これは、漫画キャラクターの少数の画像サンプルに基づいて新しいアニメーションを生成できるというものです。

従来のアニメーション制作では、各フレームは作成者によって手作業で描かれるため、入力画像には共通の構造、登録、またはラベルがありません。研究者らは、アニメキャラクターの動きの変化を階層的な 2.5D テンプレート メッシュの変形として解釈し、テンプレートとターゲット イメージに一致するメッシュ変形を予測することを学習する新しいアーキテクチャを設計し、多様なキャラクターの動きから共通の低次元構造を抽象化しました。研究者たちは、微分可能レンダリングとメッシュ対応モデルを組み合わせて、トレーニングに利用できる漫画キャラクター画像が少数しかない場合でも、ユニバーサルテンプレートを調整しました。

漫画のキャラクターは、動きに加えて、影、平面外の動き、グラフィック アート効果によって外観が微妙に異なることもあります。研究者たちは、画像変換ネットワークを使用してこれらの微妙な変化を捉え、メッシュのレンダリング結果を改善しました。彼らはまた、より高品質な漫画キャラクターの新しいアニメーションを生成するためのエンドツーエンドのモデルを構築しました。このモデルは、中間フレームを合成し、データ駆動型の変形を作成するために使用できます。そのテンプレートフィッティングステップは、画像登録を検出する現在の汎用技術よりもはるかに優れています。

Adobe の新しい方法を使用して生成された画像の 1024 × 1024 バージョンの例。

漫画キャラクターアニメーション制作の難しさ

従来のキャラクターアニメーションの制作プロセスはかなり面倒で、複数のクリエイターの共同作業が必要であり、アクションの各フレームを非常に注意深く描画する必要があります。

[[278987]]

宮崎駿監督は『風立ちぬ 1000日の創作』の中で、この数秒の映像を完成させるのに1年3か月かかったことを明かした。

人間は複数のアクション シーケンスを観察すると、そのキャラクターが他のポーズでどのように見えるかを詳細に想像するのは簡単ですが、アルゴリズムにとってはそう簡単ではありません。関節、芸術的効果、視点の変化などにより、画像の外観に微妙な違いが多数生じ、基礎となるキャラクター構造を抽出する複雑さが大幅に増大します。人間の自然な画像では、共通の構造を抽出するために大量の注釈やデータに頼ることができますが、トポロジー、ジオメトリ、および描画スタイルがそれほど一貫していないため、この方法は漫画のキャラクターには適していません。

Adobeのソリューション

この問題を解決するために、Adobe は「変形可能な人形テンプレート」を利用して、少数の画像サンプルに基づいてアニメーション キャラクターの新しい外観を生成する方法を提案しました。

研究者らはまず、すべてのキャラクターのポーズは変形テンプレートをワーピングすることで生成できると仮定し、変形ネットワークと、ネットワークエンコード画像およびデコードテンプレートの変形パラメータを開発しました。これらのパラメータは、微分可能レンダリング層で使用され、入力フレームに一致する画像をレンダリングします。再構築損失はすべてのステージを通じて逆伝播され、すべてのトレーニング フレームのテンプレートを登録する方法を学習できます。

ただし、レンダリングされた結果のポーズは妥当なものの、参照入力を歪ませるだけで、影や芸術的効果などの要因によって生じる外観のわずかな違いを捉えていないため、作成者が描いた画像に比べるとやや劣ります。レンダリング結果の視覚的品質をさらに向上させるために、研究者らは画像変換ネットワークを使用して最終的な外観を合成しました。

この研究では、学界や産業界で一般的に使用されている階層化された 2.5D 変形可能モデルを使用し、それをさまざまな従来の手描きアニメーション スタイルと組み合わせました。これにより、多くの専門知識を必要とする 3D モデリング テンプレートを使用するよりも、ユーザーにとってはるかに簡単になります。ユーザーが人形を生成する場合は、単一のフレームを選択し、前景のキャラクターを複数のボディ コンポーネントに分割します。その後、標準の三角測量ツールを使用してメッシュに変換できます。

研究者らは、トレーニングとテストを 70% 対 30% の割合で分割し、6 つのアニメキャラクター作成タスクで新しい手法を評価しました。

まず、モデルが入力フレームをどの程度正確に再構築するかを評価し、その出力が現在の最先端のオプティカルフローおよびオートエンコーダ技術よりも正確であることを確認します。

次に、登録されたテンプレートによって推定された登録品質が評価され、画像登録方法よりも優れていることがわかりました。

最後に、私たちのモデルは、トレーニング中に取得されたキャラクターの外観によって合成アニメーション フレームが決定されるデータ駆動型アニメーションに使用できることを実証します。研究者らは、中間フレームを合成し、ユーザーが指定した変形に基づいてアニメーション化し、妥当な変形を持つキャラクターの新しい画像を生成するプロトタイプ アプリケーションを構築しました。コンピュータ グラフィックスにおける従来のエネルギーベースの最適化手法と比較して、このデータ駆動型のアプローチでは、よりリアルでアーティストの描画スタイルに近いキャラクターのポーズが生成されます。

方法

この研究の目的は、ラベルのない画像のコレクションから漫画のキャラクターを生成するための変形モデルを学習することです。まず、ユーザーは参照フレームをセグメント化して、階層的に変形可能なテンプレート人形を作成します。次に、2 段階のニューラル ネットワークをトレーニングします。最初の段階では、人形テンプレートを変形してキャラクターの外観を再設計する方法を学習し、変形した人形を入力シーケンスの各フレームに一致させます。2 番目の段階では、変形した人形のレンダリング結果を改善し、前の 2D 変形段階では表現できなかったテクスチャの変更とモーション効果を実現します。

階層的変形人形

図1: 変形した人形。 a) 体の部位ごとに個別のメッシュを作成し、関節をマークします (画像内の円を参照)。b) これらのメッシュを接続すると、最終メッシュの UV 画像にセグメンテーション テクスチャ マップの変換バージョンが含まれます。

3D モデリングとは異なり、階層型 2D パペットは、経験の浅いユーザーでも簡単に使用できます。まず、ユーザーは参照フレームを選択し、さまざまな体の部位のアウトラインとその順序を指定します。次に、標準の三角測量アルゴリズムを使用して各部位のメッシュを生成し、2 つの部位の重なり合う領域の重心にジョイント ポイントを作成します。その後、中間点メッシュの細分化を実行して、詳細を調整し、より細かいメッシュを取得します。

変形ネットワーク

変形ネットワーク テンプレートができたら、ターゲット キャラクター イメージの新しいポーズに合わせてテンプレートを変形する方法を学習できます。

図 2 はトレーニング アーキテクチャを示しています。

図 2: トレーニング アーキテクチャ。エンコーダー/デコーダー ネットワークはメッシュの変形を学習し、条件付き生成敵対的ネットワークはレンダリングされた画像を改善してテクスチャの変化を捉えます。

変形ネットワークの入力は、初期メッシュと新しいポーズを持つターゲット キャラクター イメージを参照します。エンコーダー/デコーダー ネットワークは、ボトルネック レイヤーの畳み込みフィルターを介してターゲット イメージをエンコードし、完全に接続されたレイヤーを介して頂点位置オフセットにデコードします。これにより、ネットワークは入力画像内のポーズを認識し、そのポーズを生成するための適切なテンプレート変形を推測できるようになります。

外見改善ネットワーク

変形ネットワークはほとんどの関節をキャプチャできますが、上記の手順では実現できない微妙な外観の変更 (芸術的なスタイル、影の効果、平面外の動きなど) がまだいくつかあります。

そこで研究者らは、変形した画像をさらに改良するために「外観改善ネットワーク」を立ち上げました。アーキテクチャとトレーニング手順は、条件付き生成的敵対的ネットワークに似ています。ジェネレーターはレンダリングされた画像を微調整して、より自然で適切なものにします。

実験結果と応用

図3:Adobe法による入力画像、レンダリング、最終結果、PWC-Net [55]とDAE [52]の結果。 (入力画像の最初の 3 つのキャラクターは Zuzana Studena によって描かれ、4 番目のキャラクターは Adob​​e Character Animator によって描かれました。)

表 1: ターゲット画像と生成された画像間の平均 L2 距離。この表は、PWC-Net [55]と変形オートエンコーダ[52]を使用したAdobe法のレンダリング画像と生成画像の比較結果を示しています。最後の列には、6 つの異なる文字の平均 L2 距離が表示されます。

[[278989]]

図 4: 1024 × 1024 画像としてレンダリングされた Adob​​e メソッドの出力の例。

<<:  無料の機械学習ベンチマークツール:主要なデータセットを統合し、GitHubに接続して使用する

>>:  AIの中心的な難しさの1つ:感情分析の一般的な種類と課題

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

メタバースの時代が来ます。準備はできていますか?

人類の進化の歴史を振り返ると、時代のあらゆる変化は不可逆的であることに気づくのは難しくありません。な...

フェイフェイ・リーのチームはディープラーニングの「遊び場」を作った。AIも独自に進化しており、考えてみると恐ろしいことだ。

[[427578]]動物の知能は、環境と相互作用するにつれて、その体の形に合わせて進化します。例え...

...

...

インターネットの未来のために: AI が生み出すものと破壊するもの

編集者注: この記事はNetEase Intelligenceからのものです。翻訳|: NetEas...

...

ライブチャットとチャットボット: どちらの顧客サービス方法が優れているのでしょうか?

[[267030]] [51CTO.com クイック翻訳] ビジネスの世界は大きな変化を遂げてきま...

Xunlei 創設者 Cheng Hao: 人工知能起業における 6 つの核心課題

編集者注:この記事はWeChatの公開アカウントHaoge Says(ID:haogetalks)か...

ソフトマックスを放棄した初の大規模線形アテンショントランスフォーマーモデル: 1750億のパラメータ、より優れた速度と精度

最近、上海人工知能研究所とOpenNLPLabの研究チームが、ソフトマックスベースの注意メカニズムを...

機械学習の基礎知識がゼロでも、TensorFlow で画像認識システムを構築する方法をお教えします (パート 2)

[[182024]]これは Wolfgang Beyer によるブログ投稿です。この論文では、Te...

糖尿病網膜症のスクリーニングの改善におけるAIの役割

糖尿病は網膜症を引き起こす可能性があり、これは失明につながる合併症です。しかし、良いニュースとしては...

ByteDanceが大規模モデルトレーニングフレームワークveGiantModelをオープンソース化、パフォーマンスが最大6.9倍向上

最近、ByteDanceの応用機械学習チームは、veGiantModelという大規模モデルトレーニン...

1枚の写真を2分で3Dに変換します。テクスチャ品質とマルチビューの一貫性:新しいSOTA|北京大学が制作

写真を 3D に変換するのにかかる時間はわずか2 分です。さまざまな視点から見て、質感の品質と一貫性...

超高性能+究極のアプリケーション、Powerleader AIサーバーがインテリジェントな開発を促進

現在、クラウドコンピューティングやAIなどの技術の出現により、データセンター設計の構造的変化が進み、...

2021 年の人工知能、データ サイエンス、機械学習のトレンドの概要

人工知能とデータサイエンス、機械学習のトレンドとデータ分析AIはますますあらゆるビジネス戦略の一部に...