AdobeなどがAIを活用しアニメキャラクターのポーズ移行を実現する新タイプの「パペットアニメーション」を提案

人形アニメーションの制作は、クリエイターの手描きに頼るアニメーションと比べると、非常に手間のかかる作業です。ひとつのアクションをいくつかのつなぎに分解し、それをコマごとに撮影し、連続して映写してフィルムに仕上げる必要があります。最近、Adobeとコーネル大学は、人形アニメーションの制作方法に似た、少数の漫画キャラクターのサンプルに基づいて新しいキャラクターの動きを生成できる「デフォルメパペットテンプレート」と呼ばれるアニメーション制作方法を提案しました。

最近、Adobe とコーネル大学の研究者が、学習ベースのアニメーション制作方法を提案しました。これは、漫画キャラクターの少数の画像サンプルに基づいて新しいアニメーションを生成できるというものです。

従来のアニメーション制作では、各フレームは作成者によって手作業で描かれるため、入力画像には共通の構造、登録、またはラベルがありません。研究者らは、アニメキャラクターの動きの変化を階層的な 2.5D テンプレートメッシュの変形として解釈し、テンプレートとターゲットイメージに一致するメッシュ変形を予測することを学習する新しいアーキテクチャを設計し、多様なキャラクターの動きから共通の低次元構造を抽象化しました。研究者たちは、微分可能レンダリングとメッシュ対応モデルを組み合わせて、トレーニングに利用できる漫画キャラクター画像が少数しかない場合でも、ユニバーサルテンプレートを調整しました。

漫画のキャラクターは、動きに加えて、影、平面外の動き、グラフィックアート効果によって外観が微妙に異なることもあります。研究者たちは、画像変換ネットワークを使用してこれらの微妙な変化を捉え、メッシュのレンダリング結果を改善しました。彼らはまた、より高品質な漫画キャラクターの新しいアニメーションを生成するためのエンドツーエンドのモデルを構築しました。このモデルは、中間フレームを合成し、データ駆動型の変形を作成するために使用できます。そのテンプレートフィッティングステップは、画像登録を検出する現在の汎用技術よりもはるかに優れています。

Adobe の新しい方法を使用して生成された画像の 1024 × 1024 バージョンの例。

漫画キャラクターアニメーション制作の難しさ

従来のキャラクターアニメーションの制作プロセスはかなり面倒で、複数のクリエイターの共同作業が必要であり、アクションの各フレームを非常に注意深く描画する必要があります。

[[278987]]

宮崎駿監督は『風立ちぬ 1000日の創作』の中で、この数秒の映像を完成させるのに1年3か月かかったことを明かした。

人間は複数のアクションシーケンスを観察すると、そのキャラクターが他のポーズでどのように見えるかを詳細に想像するのは簡単ですが、アルゴリズムにとってはそう簡単ではありません。関節、芸術的効果、視点の変化などにより、画像の外観に微妙な違いが多数生じ、基礎となるキャラクター構造を抽出する複雑さが大幅に増大します。人間の自然な画像では、共通の構造を抽出するために大量の注釈やデータに頼ることができますが、トポロジー、ジオメトリ、および描画スタイルがそれほど一貫していないため、この方法は漫画のキャラクターには適していません。

Adobeのソリューション

この問題を解決するために、Adobe は「変形可能な人形テンプレート」を利用して、少数の画像サンプルに基づいてアニメーションキャラクターの新しい外観を生成する方法を提案しました。

研究者らはまず、すべてのキャラクターのポーズは変形テンプレートをワーピングすることで生成できると仮定し、変形ネットワークと、ネットワークエンコード画像およびデコードテンプレートの変形パラメータを開発しました。これらのパラメータは、微分可能レンダリング層で使用され、入力フレームに一致する画像をレンダリングします。再構築損失はすべてのステージを通じて逆伝播され、すべてのトレーニングフレームのテンプレートを登録する方法を学習できます。

ただし、レンダリングされた結果のポーズは妥当なものの、参照入力を歪ませるだけで、影や芸術的効果などの要因によって生じる外観のわずかな違いを捉えていないため、作成者が描いた画像に比べるとやや劣ります。レンダリング結果の視覚的品質をさらに向上させるために、研究者らは画像変換ネットワークを使用して最終的な外観を合成しました。

この研究では、学界や産業界で一般的に使用されている階層化された 2.5D 変形可能モデルを使用し、それをさまざまな従来の手描きアニメーションスタイルと組み合わせました。これにより、多くの専門知識を必要とする 3D モデリングテンプレートを使用するよりも、ユーザーにとってはるかに簡単になります。ユーザーが人形を生成する場合は、単一のフレームを選択し、前景のキャラクターを複数のボディコンポーネントに分割します。その後、標準の三角測量ツールを使用してメッシュに変換できます。

研究者らは、トレーニングとテストを 70% 対 30% の割合で分割し、6 つのアニメキャラクター作成タスクで新しい手法を評価しました。

まず、モデルが入力フレームをどの程度正確に再構築するかを評価し、その出力が現在の最先端のオプティカルフローおよびオートエンコーダ技術よりも正確であることを確認します。

次に、登録されたテンプレートによって推定された登録品質が評価され、画像登録方法よりも優れていることがわかりました。

最後に、私たちのモデルは、トレーニング中に取得されたキャラクターの外観によって合成アニメーションフレームが決定されるデータ駆動型アニメーションに使用できることを実証します。研究者らは、中間フレームを合成し、ユーザーが指定した変形に基づいてアニメーション化し、妥当な変形を持つキャラクターの新しい画像を生成するプロトタイプアプリケーションを構築しました。コンピュータグラフィックスにおける従来のエネルギーベースの最適化手法と比較して、このデータ駆動型のアプローチでは、よりリアルでアーティストの描画スタイルに近いキャラクターのポーズが生成されます。

方法

この研究の目的は、ラベルのない画像のコレクションから漫画のキャラクターを生成するための変形モデルを学習することです。まず、ユーザーは参照フレームをセグメント化して、階層的に変形可能なテンプレート人形を作成します。次に、2 段階のニューラルネットワークをトレーニングします。最初の段階では、人形テンプレートを変形してキャラクターの外観を再設計する方法を学習し、変形した人形を入力シーケンスの各フレームに一致させます。2 番目の段階では、変形した人形のレンダリング結果を改善し、前の 2D 変形段階では表現できなかったテクスチャの変更とモーション効果を実現します。

階層的変形人形

図1: 変形した人形。 a) 体の部位ごとに個別のメッシュを作成し、関節をマークします (画像内の円を参照)。b) これらのメッシュを接続すると、最終メッシュの UV 画像にセグメンテーションテクスチャマップの変換バージョンが含まれます。

3D モデリングとは異なり、階層型 2D パペットは、経験の浅いユーザーでも簡単に使用できます。まず、ユーザーは参照フレームを選択し、さまざまな体の部位のアウトラインとその順序を指定します。次に、標準の三角測量アルゴリズムを使用して各部位のメッシュを生成し、2 つの部位の重なり合う領域の重心にジョイントポイントを作成します。その後、中間点メッシュの細分化を実行して、詳細を調整し、より細かいメッシュを取得します。

変形ネットワーク

変形ネットワークテンプレートができたら、ターゲットキャラクターイメージの新しいポーズに合わせてテンプレートを変形する方法を学習できます。

図 2 はトレーニングアーキテクチャを示しています。

図 2: トレーニングアーキテクチャ。エンコーダー/デコーダーネットワークはメッシュの変形を学習し、条件付き生成敵対的ネットワークはレンダリングされた画像を改善してテクスチャの変化を捉えます。

変形ネットワークの入力は、初期メッシュと新しいポーズを持つターゲットキャラクターイメージを参照します。エンコーダー/デコーダーネットワークは、ボトルネックレイヤーの畳み込みフィルターを介してターゲットイメージをエンコードし、完全に接続されたレイヤーを介して頂点位置オフセットにデコードします。これにより、ネットワークは入力画像内のポーズを認識し、そのポーズを生成するための適切なテンプレート変形を推測できるようになります。

外見改善ネットワーク

変形ネットワークはほとんどの関節をキャプチャできますが、上記の手順では実現できない微妙な外観の変更 (芸術的なスタイル、影の効果、平面外の動きなど) がまだいくつかあります。

そこで研究者らは、変形した画像をさらに改良するために「外観改善ネットワーク」を立ち上げました。アーキテクチャとトレーニング手順は、条件付き生成的敵対的ネットワークに似ています。ジェネレーターはレンダリングされた画像を微調整して、より自然で適切なものにします。

実験結果と応用

図3:Adobe法による入力画像、レンダリング、最終結果、PWC-Net [55]とDAE [52]の結果。 (入力画像の最初の 3 つのキャラクターは Zuzana Studena によって描かれ、4 番目のキャラクターは Adobe Character Animator によって描かれました。)

表 1: ターゲット画像と生成された画像間の平均 L2 距離。この表は、PWC-Net [55]と変形オートエンコーダ[52]を使用したAdobe法のレンダリング画像と生成画像の比較結果を示しています。最後の列には、6 つの異なる文字の平均 L2 距離が表示されます。

[[278989]]

図 4: 1024 × 1024 画像としてレンダリングされた Adobe メソッドの出力の例。

<<: 無料の機械学習ベンチマークツール：主要なデータセットを統合し、GitHubに接続して使用する

>>: AIの中心的な難しさの1つ：感情分析の一般的な種類と課題