顔認識はアニメーションには効果がない、ディズニーはアニメーション専用の顔認識ライブラリを作成

アニメーションといえば、1923年に設立された企業帝国、ディズニー。アニメーション会社としてスタートしたディズニーは、今日まで世界中でアニメーション映画の発展をリードしてきました。

あらゆるアニメーション映画の背後には、何百人もの人々の努力と汗があります。最初のコンピュータ 3D アニメーション「トイストーリー」のリリース以来、ディズニーはデジタルアニメーション制作の道を歩み始めました。 CGIやAI技術の発展により、ディズニーのアニメーション映画の制作やアーカイブ化の方法も大きく変化しました。

世界的に人気の「ズートピア」は制作に5年かかった

現在、ディズニーは、最先端の技術を駆使してコンテンツ制作の方法を変え、舞台裏の映画製作者の負担を軽減しているコンピューター科学者も多数採用している。

100 年の歴史を持つ映画界の巨人はどのようにデジタルコンテンツを管理しているのでしょうか?

ウォルト・ディズニー・アニメーション・スタジオには、アーティスト、監督、脚本家、プロデューサー、技術チームなど、25か国から約800人の従業員がいるとみられる。

映画を作るには、インスピレーションの創出から、ストーリーのアウトラインの作成、脚本の草稿作成、美術デザイン、キャラクターデザイン、吹き替え、アニメーション効果、特殊効果の制作、編集、ポストプロダクションなど、多くの複雑なプロセスを経る必要があります。

2021年3月現在、アニメーション映画の制作のみを専門とするウォルト・ディズニー・アニメーション・スタジオは、59本の長編アニメーションを制作・公開しており、これらの映画に登場するアニメキャラクターの数は数百、数千に上ります。

[[386736]]

歴史上のアニメキャラクターの関連マテリアルデータは、続編、イースターエッグ、リファレンスデザインで頻繁に使用されます。

アニメーターが続編を制作している場合や、特定のキャラクターを参照したい場合、特定のキャラクター、シーン、またはオブジェクトを見つけるために、膨大なコンテンツのアーカイブを検索する必要があります。これを実現するには、多くの場合、何時間もビデオを視聴し、必要なクリップを自分の目で選択する必要があります。

この問題を解決するために、ディズニーは2016年に「コンテンツゲノム」と呼ばれるAIプロジェクトを開始しました。これは、アニメーターがアニメーション内の顔（人物または物体）を迅速かつ正確に識別できるようにするためのディズニーデジタルコンテンツアーカイブを作成することを目指しています。

アニメーション特有の顔認識アルゴリズムのトレーニング

コンテンツライブラリをデジタル化する最初のステップは、過去の作品のコンテンツを検出してマークし、制作者とユーザーによる検索を容易にすることです。

顔認識技術はすでに比較的成熟していますが、同じ方法をアニメーションの顔認識に使用できるでしょうか?

実験の結果、Content Genome 技術チームは、これが特定の状況でのみ可能であることを発見しました。

彼らは『エレナ・オブ・アバロン』と『ライオン・ガード』という2つのアニメ映画を選び、いくつかのサンプルに手作業で注釈を付け、映画の何百ものフレームの顔を四角でマークした。チームは、この手動で注釈が付けられたデータセットを通じて、HOG + SVM パイプラインに基づく顔認識技術が、アニメーション化された顔 (特に人間のような顔や動物の顔) ではパフォーマンスが低いことを確認しました。

[[386737]]

アニメキャラクターの顔に手動で注釈を付ける

分析の結果、チームは、HOG+SVM などの手法は色、明るさ、テクスチャの変化に対して堅牢であることを確認しましたが、使用されるモデルは人間の比率 (つまり、2 つの目、鼻、口) を持つアニメキャラクターにしか一致できませんでした。

さらに、アニメーション化されたコンテンツの背景には通常、平坦な部分があり、詳細が少ないため、Faster-RCNN モデルは、シンプルな背景に対して目立つものをアニメーション化された顔として誤って識別します。

[[386738]]

「カーズ」では、2 人の「レース」の主人公の顔は比較的抽象的であり、従来の顔認識技術では検出および識別できません。

そのため、研究チームは顔に関するより抽象的な概念を学習できる技術が必要だと判断しました。

チームはモデルのトレーニングに PyTorch を使用することを選択しました。チームは、PyTorch を使用すると、最先端の事前トレーニング済みモデルにアクセスしてトレーニングのニーズを満たし、アーカイブプロセスをより効率的にすることができると述べています。

トレーニングプロセス中に、チームはデータセット内にモデルをトレーニングするのに十分な正のサンプルはあったものの、負のサンプルが不足していることを発見しました。彼らは、アニメーション化された顔は含まれていないが、アニメーション化された特徴を持つ追加の画像で、最初のデータセットを拡張することにしました。

これを技術的に実現するために、彼らは Torchvision の Faster-RCNN 実装を拡張し、トレーニング中に注釈なしでネガティブサンプルをロードできるようにしました。

これは、Torchvision コア開発者の指導の下、チームが Torchvision 0.6 用に作成した新機能でもあります。データセットに負の例を追加すると、推論時の誤検知が大幅に減少し、優れた結果が得られます。

PyTorchを使用してビデオを処理すると効率が10倍向上します

アニメキャラクターの顔認識を実現した後、チームの次の目標はビデオ分析プロセスを高速化することであり、PyTorch を適用することで他のタスクを効果的に並列化して高速化できます。

チームは、ビデオの読み取りとデコードにも時間がかかることを紹介し、カスタムの PyTorch IterableDataset と PyTorch の DataLoader を組み合わせて、並列 CPU を使用してビデオのさまざまな部分を読み取ることができるようにしました。

ビデオから抽出された I フレームは異なるチャンクに分割され、各 CPU ワーカーは異なるチャンクを読み取ります。

このビデオの読み取り方法はすでに非常に高速ですが、チームは 1 回の読み取りですべての計算を完了することも試みました。そこで、彼らはパイプラインの大部分を PyTorch で実装し、GPU 実行を検討しました。各フレームは GPU に 1 回だけ送信され、その後すべてのアルゴリズムが各バッチに適用され、CPU と GPU 間の通信が最小限に抑えられます。

チームはまた、ニューラルネットワークを使用せず、主に色空間変換、ヒストグラム、特異値分解 (SVD) などの操作を実行するショット検出器などのより従来的なアルゴリズムを実装するために PyTorch を使用しました。 PyTorch により、チームは最小限のコストで計算を GPU にオフロードし、複数のアルゴリズム間で共有される中間結果を簡単にリサイクルできるようになりました。

チームは PyTorch を使用して CPU 部分を GPU にオフロードし、DataLoader を使用してビデオの読み取りを高速化することで、ハードウェアを最大限に活用し、最終的に処理時間を 10 分の 1 に短縮しました。

チームの開発者は、IterableDataset、DataLoader、Torchvision などの PyTorch のコアコンポーネントを使用すると、運用環境でのデータ読み込みとアルゴリズムの効率を向上できると結論付けました。推論からモデルトレーニングリソース、完全なパイプライン最適化ツールセットまで、チームは PyTorch の使用をますます選択しています。

<<: これらの仕事は今後5年以内に機械に置き換えられる可能性があり、8500万人が解雇される危険にさらされている。

>>: 2021年のスマートシティの変革と再構築のトレンド