顔認識はアニメーションには効果がない、ディズニーはアニメーション専用の顔認識ライブラリを作成

顔認識はアニメーションには効果がない、ディズニーはアニメーション専用の顔認識ライブラリを作成

アニメーションといえば、1923年に設立された企業帝国、ディズニー。アニメーション会社としてスタートしたディズニーは、今日まで世界中でアニメーション映画の発展をリードしてきました。

あらゆるアニメーション映画の背後には、何百人もの人々の努力と汗があります。最初のコンピュータ 3D アニメーション「トイ ストーリー」のリリース以来、ディズニーはデジタル アニメーション制作の道を歩み始めました。 CGIやAI技術の発展により、ディズニーのアニメーション映画の制作やアーカイブ化の方法も大きく変化しました。

世界的に人気の「ズートピア」は制作に5年かかった

現在、ディズニーは、最先端の技術を駆使してコンテンツ制作の方法を変え、舞台裏の映画製作者の負担を軽減しているコンピューター科学者も多数採用している。

100 年の歴史を持つ映画界の巨人はどのようにデジタル コンテンツを管理しているのでしょうか?

ウォルト・ディズニー・アニメーション・スタジオには、アーティスト、監督、脚本家、プロデューサー、技術チームなど、25か国から約800人の従業員がいるとみられる。

映画を作るには、インスピレーションの創出から、ストーリーのアウトラインの作成、脚本の草稿作成、美術デザイン、キャラクターデザイン、吹き替え、アニメーション効果、特殊効果の制作、編集、ポストプロダクションなど、多くの複雑なプロセスを経る必要があります。

2021年3月現在、アニメーション映画の制作のみを専門とするウォルト・ディズニー・アニメーション・スタジオは、59本の長編アニメーションを制作・公開しており、これらの映画に登場するアニメキャラクターの数は数百、数千に上ります。

[[386736]]

歴史上のアニメキャラクターの関連マテリアルデータは、続編、イースターエッグ、リファレンスデザインで頻繁に使用されます。

アニメーターが続編を制作している場合や、特定のキャラクターを参照したい場合、特定のキャラクター、シーン、またはオブジェクトを見つけるために、膨大なコンテンツのアーカイブを検索する必要があります。これを実現するには、多くの場合、何時間もビデオを視聴し、必要なクリップを自分の目で選択する必要があります。

この問題を解決するために、ディズニーは2016年に「コンテンツゲノム」と呼ばれるAIプロジェクトを開始しました。これは、アニメーターがアニメーション内の顔(人物または物体)を迅速かつ正確に識別できるようにするためのディズニーデジタルコンテンツアーカイブを作成することを目指しています。

アニメーション特有の顔認識アルゴリズムのトレーニング

コンテンツ ライブラリをデジタル化する最初のステップは、過去の作品のコンテンツを検出してマークし、制作者とユーザーによる検索を容易にすることです。

顔認識技術はすでに比較的成熟していますが、同じ方法をアニメーションの顔認識に使用できるでしょうか?

実験の結果、Content Genome 技術チームは、これが特定の状況でのみ可能であることを発見しました。

彼らは『エレナ・オブ・アバロン』と『ライオン・ガード』という2つのアニメ映画を選び、いくつかのサンプルに手作業で注釈を付け、映画の何百ものフレームの顔を四角でマークした。チームは、この手動で注釈が付けられたデータセットを通じて、HOG + SVM パイプラインに基づく顔認識技術が、アニメーション化された顔 (特に人間のような顔や動物の顔) ではパフォーマンスが低いことを確認しました。

[[386737]]

アニメキャラクターの顔に手動で注釈を付ける

分析の結果、チームは、HOG+SVM などの手法は色、明るさ、テクスチャの変化に対して堅牢であることを確認しましたが、使用されるモデルは人間の比率 (つまり、2 つの目、鼻、口) を持つアニメキャラクターにしか一致できませんでした。

さらに、アニメーション化されたコンテンツの背景には通常、平坦な部分があり、詳細が少ないため、Faster-RCNN モデルは、シンプルな背景に対して目立つものをアニメーション化された顔として誤って識別します。

[[386738]]

「カーズ」では、2 人の「レース」の主人公の顔は比較的抽象的であり、従来の顔認識技術では検出および識別できません。

そのため、研究チームは顔に関するより抽象的な概念を学習できる技術が必要だと判断しました。

チームはモデルのトレーニングに PyTorch を使用することを選択しました。チームは、PyTorch を使用すると、最先端の事前トレーニング済みモデルにアクセスしてトレーニングのニーズを満たし、アーカイブ プロセスをより効率的にすることができると述べています。

トレーニング プロセス中に、チームはデータセット内にモデルをトレーニングするのに十分な正のサンプルはあったものの、負のサンプルが不足していることを発見しました。彼らは、アニメーション化された顔は含まれていないが、アニメーション化された特徴を持つ追加の画像で、最初のデータセットを拡張することにしました。

これを技術的に実現するために、彼らは Torchvision の Faster-RCNN 実装を拡張し、トレーニング中に注釈なしでネガティブ サンプルをロードできるようにしました。

これは、Torchvision コア開発者の指導の下、チームが Torchvision 0.6 用に作成した新機能でもあります。 データセットに負の例を追加すると、推論時の誤検知が大幅に減少し、優れた結果が得られます。

PyTorchを使用してビデオを処理すると効率が10倍向上します

アニメキャラクターの顔認識を実現した後、チームの次の目標はビデオ分析プロセスを高速化することであり、PyTorch を適用することで他のタスクを効果的に並列化して高速化できます。

チームは、ビデオの読み取りとデコードにも時間がかかることを紹介し、カスタムの PyTorch IterableDataset と PyTorch の DataLoader を組み合わせて、並列 CPU を使用してビデオのさまざまな部分を読み取ることができるようにしました。

ビデオから抽出された I フレームは異なるチャンクに分割され、各 CPU ワーカーは異なるチャンクを読み取ります。

このビデオの読み取り方法はすでに非常に高速ですが、チームは 1 回の読み取りですべての計算を完了することも試みました。そこで、彼らはパイプラインの大部分を PyTorch で実装し、GPU 実行を検討しました。各フレームは GPU に 1 回だけ送信され、その後すべてのアルゴリズムが各バッチに適用され、CPU と GPU 間の通信が最小限に抑えられます。

チームはまた、ニューラル ネットワークを使用せず、主に色空間変換、ヒストグラム、特異値分解 (SVD) などの操作を実行するショット検出器などのより従来的なアルゴリズムを実装するために PyTorch を使用しました。 PyTorch により、チームは最小限のコストで計算を GPU にオフロードし、複数のアルゴリズム間で共有される中間結果を簡単にリサイクルできるようになりました。

チームは PyTorch を使用して CPU 部分を GPU にオフロードし、DataLoader を使用してビデオの読み取りを高速化することで、ハードウェアを最大限に活用し、最終的に処理時間を 10 分の 1 に短縮しました。

チームの開発者は、IterableDataset、DataLoader、Torchvision などの PyTorch のコア コンポーネントを使用すると、運用環境でのデータ読み込みとアルゴリズムの効率を向上できると結論付けました。推論からモデル トレーニング リソース、完全なパイプライン最適化ツールセットまで、チームは PyTorch の使用をますます選択しています。

<<:  これらの仕事は今後5年以内に機械に置き換えられる可能性があり、8500万人が解雇される危険にさらされている。

>>:  2021年のスマートシティの変革と再構築のトレンド

ブログ    
ブログ    

推薦する

...

ディープラーニングと従来の機械学習のメリットとデメリット!

過去数年間、ディープラーニングは、従来の機械学習を凌駕し、ほとんどの AI 型の問題に対する頼りにな...

Meta主任AI研究者ヤン・リクン氏:今日のAIは愚かであり、規制当局は我々に干渉すべきではない

ソーシャルメディアFacebookの親会社Metaの主任人工知能研究者ヤン・ルカン氏は10月20日、...

...

警察が採用したボストン・ダイナミクスの犬たちは、感情のない「監視ツール」になるのだろうか?

[[384524]]ニューヨークのマンハッタン北部のアパートで男性2人が人質に取られている。その数...

ビッグデータ、クラウドコンピューティング、人工知能が統合され、セキュリティ分野に応用されている

過去2年間、安全都市、インテリジェント交通、スノーブライトプロジェクトの継続的な発展と深化に伴い、ビ...

...

人工知能の最初のグループが解雇された

全世界を置き換えると叫んだ人工知能は、ついに失業という苦境に陥った。スウェーデンのオンライン銀行であ...

交通における人工知能: スマートソリューションによる交通革命

人工知能 (AI) は世界中の産業に変化をもたらしており、交通も例外ではありません。テクノロジーが進...

Goの暗号化と復号化アルゴリズムの概要

[[343693]]序文実際の開発では、暗号化と復号化が広く使用されています。一般的に使用される暗号...

従来のポートレートプレイヤー向けに AI を新たなレベルに引き上げる方法

これからは、集合写真を撮るときに端に立って歪んでしまうことを心配する必要はありません。現在、このハー...

再び攻撃! AI+教育に注力する学百軍は、年間10億元という小さな目標を設定

「今年末までに、学覇君は年間売上高10億元を確保するという小さな目標を達成する予定です」と張凱蕾氏は...

星が輝くとき - WOT グローバル テクノロジー イノベーション カンファレンス 2021 が間もなく開催されます

【51CTO.comオリジナル記事】​​​ 100年前、シュテファン・ツヴァイクは彼の有名な著作「星...

ドローンは都市の発展を助け、6つの側面でインテリジェントな変化をもたらす

近年、国民の高品質・高水準の都市生活への絶え間ない追求に応えるため、スマートシティ建設が大きな注目を...

リスク管理シナリオの全プロセスモデルの構築と適用

オンライン マイクロクレジットの一般的なリスク管理シナリオは、融資前、融資中、融資後の段階に分けられ...