顔認識はアニメーションには効果がない、ディズニーはアニメーション専用の顔認識ライブラリを作成

顔認識はアニメーションには効果がない、ディズニーはアニメーション専用の顔認識ライブラリを作成

アニメーションといえば、1923年に設立された企業帝国、ディズニー。アニメーション会社としてスタートしたディズニーは、今日まで世界中でアニメーション映画の発展をリードしてきました。

あらゆるアニメーション映画の背後には、何百人もの人々の努力と汗があります。最初のコンピュータ 3D アニメーション「トイ ストーリー」のリリース以来、ディズニーはデジタル アニメーション制作の道を歩み始めました。 CGIやAI技術の発展により、ディズニーのアニメーション映画の制作やアーカイブ化の方法も大きく変化しました。

世界的に人気の「ズートピア」は制作に5年かかった

現在、ディズニーは、最先端の技術を駆使してコンテンツ制作の方法を変え、舞台裏の映画製作者の負担を軽減しているコンピューター科学者も多数採用している。

100 年の歴史を持つ映画界の巨人はどのようにデジタル コンテンツを管理しているのでしょうか?

ウォルト・ディズニー・アニメーション・スタジオには、アーティスト、監督、脚本家、プロデューサー、技術チームなど、25か国から約800人の従業員がいるとみられる。

映画を作るには、インスピレーションの創出から、ストーリーのアウトラインの作成、脚本の草稿作成、美術デザイン、キャラクターデザイン、吹き替え、アニメーション効果、特殊効果の制作、編集、ポストプロダクションなど、多くの複雑なプロセスを経る必要があります。

2021年3月現在、アニメーション映画の制作のみを専門とするウォルト・ディズニー・アニメーション・スタジオは、59本の長編アニメーションを制作・公開しており、これらの映画に登場するアニメキャラクターの数は数百、数千に上ります。

[[386736]]

歴史上のアニメキャラクターの関連マテリアルデータは、続編、イースターエッグ、リファレンスデザインで頻繁に使用されます。

アニメーターが続編を制作している場合や、特定のキャラクターを参照したい場合、特定のキャラクター、シーン、またはオブジェクトを見つけるために、膨大なコンテンツのアーカイブを検索する必要があります。これを実現するには、多くの場合、何時間もビデオを視聴し、必要なクリップを自分の目で選択する必要があります。

この問題を解決するために、ディズニーは2016年に「コンテンツゲノム」と呼ばれるAIプロジェクトを開始しました。これは、アニメーターがアニメーション内の顔(人物または物体)を迅速かつ正確に識別できるようにするためのディズニーデジタルコンテンツアーカイブを作成することを目指しています。

アニメーション特有の顔認識アルゴリズムのトレーニング

コンテンツ ライブラリをデジタル化する最初のステップは、過去の作品のコンテンツを検出してマークし、制作者とユーザーによる検索を容易にすることです。

顔認識技術はすでに比較的成熟していますが、同じ方法をアニメーションの顔認識に使用できるでしょうか?

実験の結果、Content Genome 技術チームは、これが特定の状況でのみ可能であることを発見しました。

彼らは『エレナ・オブ・アバロン』と『ライオン・ガード』という2つのアニメ映画を選び、いくつかのサンプルに手作業で注釈を付け、映画の何百ものフレームの顔を四角でマークした。チームは、この手動で注釈が付けられたデータセットを通じて、HOG + SVM パイプラインに基づく顔認識技術が、アニメーション化された顔 (特に人間のような顔や動物の顔) ではパフォーマンスが低いことを確認しました。

[[386737]]

アニメキャラクターの顔に手動で注釈を付ける

分析の結果、チームは、HOG+SVM などの手法は色、明るさ、テクスチャの変化に対して堅牢であることを確認しましたが、使用されるモデルは人間の比率 (つまり、2 つの目、鼻、口) を持つアニメキャラクターにしか一致できませんでした。

さらに、アニメーション化されたコンテンツの背景には通常、平坦な部分があり、詳細が少ないため、Faster-RCNN モデルは、シンプルな背景に対して目立つものをアニメーション化された顔として誤って識別します。

[[386738]]

「カーズ」では、2 人の「レース」の主人公の顔は比較的抽象的であり、従来の顔認識技術では検出および識別できません。

そのため、研究チームは顔に関するより抽象的な概念を学習できる技術が必要だと判断しました。

チームはモデルのトレーニングに PyTorch を使用することを選択しました。チームは、PyTorch を使用すると、最先端の事前トレーニング済みモデルにアクセスしてトレーニングのニーズを満たし、アーカイブ プロセスをより効率的にすることができると述べています。

トレーニング プロセス中に、チームはデータセット内にモデルをトレーニングするのに十分な正のサンプルはあったものの、負のサンプルが不足していることを発見しました。彼らは、アニメーション化された顔は含まれていないが、アニメーション化された特徴を持つ追加の画像で、最初のデータセットを拡張することにしました。

これを技術的に実現するために、彼らは Torchvision の Faster-RCNN 実装を拡張し、トレーニング中に注釈なしでネガティブ サンプルをロードできるようにしました。

これは、Torchvision コア開発者の指導の下、チームが Torchvision 0.6 用に作成した新機能でもあります。 データセットに負の例を追加すると、推論時の誤検知が大幅に減少し、優れた結果が得られます。

PyTorchを使用してビデオを処理すると効率が10倍向上します

アニメキャラクターの顔認識を実現した後、チームの次の目標はビデオ分析プロセスを高速化することであり、PyTorch を適用することで他のタスクを効果的に並列化して高速化できます。

チームは、ビデオの読み取りとデコードにも時間がかかることを紹介し、カスタムの PyTorch IterableDataset と PyTorch の DataLoader を組み合わせて、並列 CPU を使用してビデオのさまざまな部分を読み取ることができるようにしました。

ビデオから抽出された I フレームは異なるチャンクに分割され、各 CPU ワーカーは異なるチャンクを読み取ります。

このビデオの読み取り方法はすでに非常に高速ですが、チームは 1 回の読み取りですべての計算を完了することも試みました。そこで、彼らはパイプラインの大部分を PyTorch で実装し、GPU 実行を検討しました。各フレームは GPU に 1 回だけ送信され、その後すべてのアルゴリズムが各バッチに適用され、CPU と GPU 間の通信が最小限に抑えられます。

チームはまた、ニューラル ネットワークを使用せず、主に色空間変換、ヒストグラム、特異値分解 (SVD) などの操作を実行するショット検出器などのより従来的なアルゴリズムを実装するために PyTorch を使用しました。 PyTorch により、チームは最小限のコストで計算を GPU にオフロードし、複数のアルゴリズム間で共有される中間結果を簡単にリサイクルできるようになりました。

チームは PyTorch を使用して CPU 部分を GPU にオフロードし、DataLoader を使用してビデオの読み取りを高速化することで、ハードウェアを最大限に活用し、最終的に処理時間を 10 分の 1 に短縮しました。

チームの開発者は、IterableDataset、DataLoader、Torchvision などの PyTorch のコア コンポーネントを使用すると、運用環境でのデータ読み込みとアルゴリズムの効率を向上できると結論付けました。推論からモデル トレーニング リソース、完全なパイプライン最適化ツールセットまで、チームは PyTorch の使用をますます選択しています。

<<:  これらの仕事は今後5年以内に機械に置き換えられる可能性があり、8500万人が解雇される危険にさらされている。

>>:  2021年のスマートシティの変革と再構築のトレンド

ブログ    

推薦する

Tmall のプログラマーがハイエンド アルゴリズムを使用して女の子を探す

問題は、アリ・タブロイド紙の公開記事によると: [[93064]] #p#これは本当の、そして少し悲...

文部科学省が文書を発表:AI、アルゴリズム等が2018年度から高等学校の教育課程に取り入れられる!

教育部はこのほど記者会見を開き、「高等学校一般教育課程計画及び中国語等教科教育課程基準(2017年版...

マイクロソフトが人工知能の小規模スタートアップBonsaiを買収

海外メディアの報道によると、マイクロソフトは水曜日、小規模な人工知能スタートアップ企業であるボンサイ...

OpenAI、Google、Microsoftなどが1000万ドルのAI安全基金を設立

Google、Microsoft、OpenAI、Anthropicは共同声明を発表し、アメリカのシン...

...

遅めのエクスタシー!動画の動きがどんなに大きくても、写真はスムーズに主役の代わりを務めることができる|Meta & シンガポール国立大学

最後に家族は喜びました。今では、ビデオの主人公をたった 1 枚の写真に置き換えることができ、その効果...

Baidu Brain の「EasyDL Classic Edition」はあなたを魅了しました。実際の業界アプリケーションを手に入れましたか?

既存のビジネスやソリューションをベースに、企業は AI 機能を導入することで、どのようにすれば効率性...

ハルビン工業大学は、象の鼻と同じくらい柔軟な人工筋肉を備えた柔軟なロボットを開発しました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

YOLOより高速な180万画素超軽量物体検出モデルNanoDet

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

自動運転車は歩行者に意図を伝えることができるか?

広い道路を安全に横断するかどうかを判断するには、歩行者と運転者の間の社会的合図とコミュニケーションが...

第12回TOP100グローバルソフトウェアケーススタディサミットが北京で開催されました。

デジタル化とインテリジェンスの融合によってもたらされた競争の時代において、企業はサイクルを安全に乗り...

...

水滴事件の裏側:スマート監視下では逃げ場はなく、カモフラージュやマスク着用も無意味!

[[213371]]はじめに:90年代生まれの少女が突然現れ、水滴カメラ生放送プラットフォームを批...

...

2021年の3つの主要なAIトレンド:IoT、データ駆動型の意思決定、サイバーセキュリティ

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...