AI ビデオ カットアウトの威力: 映画レベルの効果を実現するのに「グリーン スクリーン」は不要

AI ビデオ カットアウトの威力: 映画レベルの効果を実現するのに「グリーン スクリーン」は不要

今朝早く、ネットユーザーが私に人気の AI プロジェクトを勧めてくれました。

世界中を旅して、アンジェラベイビーがもっとテレビシリーズを撮影できるようになると聞きました。

何が起こっているのか? ?

よく見てみると、これは早朝から GitHub のホットリストに載っていた AI ビデオ切り抜きツールであることがわかりました。

公式紹介によると、この AI アーティファクトにより、ビデオ処理が非常にシンプルかつプロフェッショナルになり、「グリーン スクリーン」を必要とせずにリアルでシームレスな合成効果を実現できます。

やはり、労働者が「世界を旅する」ことを可能にするのはAIだけですね(涙)。

実は動画切り抜きAIは数多く存在していますが、これは本当にすごいです。まずはデモ版を見てみましょう。

道路背景と海背景の動画のうち、どちらがAIで合成されたものかわかりますか?

髪をアップにしても欠点は見当たりませんでした。

そして狂ったように踊っても合成効果には影響しません。

後ろの切り抜き部分も細かく見てみましょう。髪の毛が忠実に再現されているだけでなく、浮いている髪の毛まで再現されています…

ダイナミックエフェクトでも同様で、頭を激しく振ることで詳細をリアルタイムでキャプチャできます。

この超強力な AI 切り抜きツールは、香港城市大学と SenseTime の共同研究チームによって開発されたもので、論文の第一著者は Zhang Hanke という博士課程の学生です。

次に、その背後にある技術的な原理を見てみましょう。

MODネット

重要なのは、この AI が軽量のターゲット分解ネットワーク MODNet (Matting Objective Decomposition Network) を使用しており背景が異なる単一の入力画像から動的なポートレートをスムーズに処理できることです。

簡単に言えば、ビデオからポートレートを切り取る機能です。

一部の映画やテレビ番組、特に時代劇では、登場人物の背景を後処理する必要があることはよく知られています。リアルな合成効果を実現するために、撮影時の背景には「グリーンスクリーン」が使用されるのが一般的です。グリーンスクリーンを使用すると、高品質のアルファマスクを作成して、画像やビデオから人物をリアルタイムで抽出できるためです。

さらに、グリーン スクリーンがない場合、事前定義されたトライマップが自然照明アルゴリズムへの入力として使用される場合でも、一般的に使用される技術的手段は照明処理です。このアプローチでは、決定された(不透明)前景、決定された(透明)背景、およびその間の不明な(不透明)領域からなる、ほぼ 3 次元のマップが生成されます。

3D マップに人間による注釈を使用するとコストがかかるだけでなく、深度カメラを使用すると精度が低下する可能性もあります。そこで、上記の欠点を解決するために、研究者はターゲット分解ネットワーク MODNet を提案しました。

図に示すように、MODNet は相互に依存する 3 つのブランチ (S、D、F) で構成されています。これらはそれぞれ、低解像度ブランチを通じて人間の意味 (SP) を予測し、高解像度ブランチを通じて垂直境界の詳細 (DP) に焦点を当て、最後に融合ブランチを通じてアルファマット (αp) を予測します。

詳細は以下の通りです。

  • セマンティクス推定:MobileNetV2[35]アーキテクチャは、エンコーダ(MODNetの低解像度ブランチ)を通じて高レベルのセマンティクスを抽出するために使用されます。

  • 詳細予測: 前景ポートレートの周囲の遷移領域を処理し、I、S(I)、S の低レベルの特徴を入力として受け取ります。同時に、畳み込み層の数、チャネル数、入力解像度が最適化されました。

  • セマンティック詳細融合: セマンティクスと詳細を融合する CNN モジュール。S(I) をアップサンプリングしてその形状を D(I, S(I)) と一致させ、次に S(I) と D(I, S(I)) を連結して最終的な αp を予測します。

さらに、本研究では、上記の基礎フレームワークに基づいて、自己監督戦略SOC(Sub-Objectives Consistency)とフレーム遅延処理方式OFD(One-Frame Delay)も提案しました。

その中で、SOC 戦略は、ラベルなしデータを処理する際に MODNet アーキテクチャの出力サブゴール間の一貫性を確保できます。OFD メソッドは、ポートレート マッティング ビデオ タスクを実行する際に、スムーズなビデオ シーケンス内のアルファ マスクを予測できます。以下のように表示されます。

実験的評価

実験評価を行う前に、研究者らは写真ポートレートのベンチマーク データセット PPM-100 (写真ポートレートマッティング) を作成しました。

さまざまな背景の細かく注釈が付けられた肖像画画像 100 枚が含まれています。サンプルの多様性を確保するために、PPM-100 では、人体全体が含まれているかどうか、画像の背景がぼかされているかどうか、他のオブジェクトが含まれているかどうかなど、サンプルの種類のバランスをとるためのいくつかの分類ルールも定義されています。図に示すように:

PPM-100 のサンプル画像には、豊かな背景とキャラクターのポーズが描かれています。したがって、より包括的なベンチマークと見なすことができます。

それでは実験結果を見てみましょう。

この図は、MODNet が MSE (平均二乗誤差) と MAD (平均) の両方で Trimap を使用しない他の方法よりも優れていることを示しています。そのパフォーマンスは Trimap を使用した DIM ほど良くはありませんが、MODNet を Trimap ベースの方法に変更すると、つまり Trimap を入力として受け取ると、Trimap ベースの DIM よりもパフォーマンスが向上し、MODNet の構造システムが優れていることが再び示されます。

さらに、研究者らは、モデルのサイズと実行効率の面での MODNet の利点をさらに実証しました。

このうち、モデルサイズはパラメータの総数で測定され、実行効率は NVIDIA GTX1080 Ti GPU 上の PPM-100 を超える平均参照時間で反映されます (入力画像は 512×512 にトリミングされます)。結果は以下のようになります。

上図は、MODNet の推論時間が 15.8ms (63fps) であり、FDMPA (31fps) の 2 倍であることを示しています。 MODNet は FDMPA よりもわずかに多くのパラメータを持っていますが、パフォーマンスは大幅に優れています。

モデルにはより大きな特徴マップや、注意メカニズムなどの時間のかかるメカニズムがある可能性があるため、パラメータが少ないことが推論速度の高速化を意味するわけではないことに注意することが重要です。

要約すると、MODNet は、シンプルで高速かつ効果的なリアルタイムのポートレート切り抜き処理方法を提案します。この方法は、RGB 画像のみを入力として受け取り、シーンの変化に応じてアルファ マスクの予測を実現します。さらに、提案された SOC と OFD により、MODNet は実際のアプリケーションにおけるドメイン シフト問題の影響を受けにくくなります。

残念ながら、この方法では、複雑な衣服やぼやけた動きのビデオなどのコンテンツがトレーニング データセットに含まれていないため、これらのビデオを処理できません。次の段階では、研究者は追加のサブ目標(オプティカルフロー推定など)を追加することで、モーションブラーによるビデオのカットアウトの問題を解決しようとします。

<<:  快手とインテルが提携し、KGNN プラットフォームでの大規模リアルタイム動的グラフトレーニングの効率を向上

>>:  データセンターにおけるAIの役割の拡大

ブログ    
ブログ    
ブログ    

推薦する

人工知能市場の需要と応用

「人工知能」は3年連続で政府活動報告に盛り込まれており、2019年にはビッグデータ、人工知能などの研...

インダストリー4.0: AIを活用した障害検出

[[359728]] AI の向上とマシン ビジョン制御の向上を組み合わせることで、スマート製造業界...

音声認識技術は急速に発展しており、その規模は今後5年間で300億近くに達するだろう。

現在、科学技術の発展に伴い、人工知能産業は急速に成長し、あらゆる分野の変革における重要な要素となって...

ネットユーザーたちは、顔認識技術の何が難しいのかと冗談を言っている。

今朝、ジャック・マーは自身の微博に「ドイツで開かれたCEBITカンファレンスの開幕式が終わったばかり...

テクノロジー市場: エッジデバイスで利用可能なエッジAIソリューション

エッジコンピューティングと人工知能の組み合わせにより、エッジ AI は現在のテクノロジー市場における...

...

Python が Java や C/C++ に勝って機械学習に最適な言語である理由!

Python は、1989 年にオランダ人の Guido van Rossum によって発明され、...

百度のCTO王海鋒が言語と知識の完全なレイアウトを説明する

自然言語理解(NLP)は「人工知能の最高傑作」として知られており、これは言語や知識などの認知面におけ...

マルチモーダル LLM 幻覚問題が 30% 減少しました!業界初の「キツツキ」無重力トレーニング法が誕生

大規模なマルチモーダル モデルの「幻覚」問題を解決するために、まだ命令の微調整を使用していますか?例...

清華大学の孫茂松教授は、新しい微調整フレームワークCPTを提案し、精度を17.3%向上させた。

[[428133]]事前トレーニング済みモデルは、コンピューター ビジョンと言語の両方で顕著な結果...

医療における人工知能: COVID-Net プラットフォームを使用してコロナウイルスを診断する方法

COVID-NetとオープンソースのAIベースのプラットフォームは、コロナウイルスの発生によって引き...

文字列マッチングのためのボイヤー・ムーアアルゴリズム

前回の記事では、KMPアルゴリズムを紹介しました。ただし、これは最も効率的なアルゴリズムではなく、実...

年次レビュー:人工知能業界は2021年後半に突入

[[443324]] 2015年に人工知能が普及して以来、人工知能業界は7年間の発展を経て後半期に突...

AI スタートアップはどうすれば成功できるのでしょうか?ガートナー:「以下の点が不可欠」

[[430175]]デジタル変革の波を受けて、さまざまな新興技術が急速に応用され、普及してきました...

2024 年の CIO の 14 の優先事項とトレンド

GenAI は 2024 年の最大のテクノロジー トレンドとなり、新しいツールのレビュー、インフラス...