単一のGPUで毎秒30フレームの4Kを実現し、リアルタイムのビデオカットアウトとアップグレードにより髪の毛のディテールを完全に再現します。

リアルタイムで実行され、単一の NVIDIA RTX 2080 TI GPU を使用して HD 60fps と 4K 30fps を実現する、「世界全体をグリーンスクリーンにする」切り抜き方法である Background Matting のバージョン 2.0 がリリースされ、より自然で高速なリアルタイムの背景置き換え効果をユーザーに提供します。

背景の置き換えは映画の特殊効果の重要な部分であり、Zoom、Google Meet、Microsoft Teams などのビデオ会議ツールで広く使用されています。背景の置き換えは、エンターテイメント性を高めるだけでなく、特にユーザーがビデオ会議中に自分の場所や環境などの詳細を他のユーザーと共有したくない場合に、プライバシー保護を強化することができます。重要な課題があります。ビデオ会議ツールのユーザーは、映画の特殊効果の背景を置き換えるために使用されるグリーンスクリーンやその他の物理的条件にアクセスできないことがよくあります。

ユーザーが背景を簡単に置き換えられるように、研究者たちは一連の切り抜き方法を開発しました。今年4月、ワシントン大学の研究者らは、グリーンスクリーンの前で撮影しなくてもビデオの背景を完璧に変換し、全世界をグリーンスクリーンにすることができる背景マット処理法を提案した。しかし、この研究はリアルタイムで実行できず、低解像度（512×512）で低フレームレートでしか背景の置き換えを処理できないため、改善の余地が大きく残されています。

8 か月後、研究者らは背景マットバージョン 2.0 をリリースしました。これは、4k (3840×2160) および HD (1920×1080) 画像でそれぞれ 30fps と 60fps で SOTA 結果を達成する、完全に自動化されたリアルタイムの高解像度マットメソッドであると述べています。

まずはエフェクト表示シーンをいくつか見てみましょう。

[[358147]]

非常に自然でスムーズな背景の置き換え。

この男性は散らかった部屋の背景を雪景色に置き換えました。

ただし、この方法にも欠点があります。下の画像では、置き換えられた背景にはっきりとした影があります。

Background Matting 2.0 ではどのような改善が行われていますか?

Background Matting 2.0 はバージョン 1.0 と比べてどのような技術的改善が加えられていますか?周知のとおり、高解像度の人物ビデオのリアルタイムマット処理を実行するニューラルネットワークの設計は、髪の毛などの細かいディテールが特に重要な場合には、極めて困難です。バージョン 1.0 では、解像度 512×512、フレームレート 8fps でのみ背景の置き換えを実現できます。 4K や HD などの高解像度画像でディープネットワークをトレーニングすると、非常に時間がかかり、大量のメモリが必要になる場合があります。さらに、一般化を実現するには、高品質のアルファマットを備えた大量の画像が必要ですが、公開されているデータセットも限られています。

手作業で作成された多数の前景マスクを含む高品質のデータセットを収集することは困難であるため、この研究では、さまざまな特性を持つ一連のデータセットを通じてネットワークをトレーニングしたいと考えています。この目的のために、彼らは VideoMatte240K と PhotoMatte13K/85 という 2 つのデータセットを作成しました。どちらのデータセットにも、高解像度の前景マスクと、クロマキーソフトウェアを使用して抽出された前景レイヤーが含まれています。研究者たちはまず、非常に多様な人間のポーズを含む前景マスクの大規模なデータセットでネットワークをトレーニングして堅牢な事前学習を行い、次に、手作業で作成された公開データセットでトレーニングを継続して、きめ細かい詳細を学習します。

さらに、高解像度の画像をリアルタイムで処理できるネットワークを設計するために、研究者らは、画像内の比較的少数の領域でしかきめ細かい改良が必要ではないことを観察しました。そこで彼らは、低解像度で前景マスクと前景レイヤーを予測し、エラー予測マップを取得する（高解像度の改良が必要な画像領域を決定する）ためのベースネットワークを提案しました。次に、リファインメントネットワークは、低解像度の結果と元の画像を入力として受け取り、選択した領域に高解像度の出力を生成します。

結果は、Background Matting 2.0 バージョンが、難しい現実のビデオやキャラクター画像シーンで SOTA リアルタイム背景マット結果を達成することを示しています。研究者らは、VideoMatte240K および PhotoMatte85 データセットとモデル実装コードも公開する予定です。

論文アドレス: https://arxiv.org/pdf/2012.07810.pdf
プロジェクトのホームページ: https://grail.cs.washington.edu/projects/background-matting-v2/

データセット

この研究では、研究者が作成した新しいデータセットや公開データセットなど、複数のデータセットが使用されました。

公開データセット

Adobe Image Matting (AIM) データセットには、平均解像度が約 1000×1000 の 269 個の人間のトレーニングサンプルと 11 個のテストサンプルが含まれています。この研究では、Distinctions646 データセットの人間のみのサブセットも使用しました。このサブセットには、平均解像度が約 1700×2000 の 362 個のトレーニングサンプルと 11 個のテストサンプルが含まれています。これらのデータセット内のマスクはすべて手動で作成されるため、高品質です。しかし、トレーニングサンプルの数が少ないため、多様な人間のポーズや高解像度画像の細部を学習することは不可能であるため、研究者らは2つの新しいデータセットを作成した。

新しいデータセット VideoMatte240K と PhotoMatte13K/85

VideoMatte240K データセット: 研究者は 484 本の高解像度グリーンスクリーンビデオ (そのうち 384 本は 4K 解像度、100 本は HD 解像度) を収集し、クロマキーツール Adobe After Effects を使用して 240,709 個の異なる前景マスクと前景フレームを生成しました。

PhotoMatte13K/85 データセット: 研究者は、スタジオ品質の照明とカメラを使用してグリーンスクリーンの前で撮影された 13,665 枚の画像を収集し、手動調整とエラー修復を伴うクロマキーアルゴリズムを使用してマスクを抽出しました。

次の図は、これら 2 つのデータセットのサンプル例を示しています。

方法

画像 I とキャプチャされた背景 B が与えられると、提案された方法は前景マスク α と前景 F を予測できます。

具体的には、この方法は、I'= αF + (1−α)B'（B'は新しい背景）を介して新しい背景に基づいて合成を実行します。この方法は、フォアグラウンドを直接解くのではなく、フォアグラウンド残差 F^R = F − I を解きます。次に、F は、入力画像 I に F^R を追加することによって復元されます: F = max(min(F^R + I, 1), 0)。研究者らは、この定式化により学習が改善され、アップサンプリングによって低解像度の前景残差を高解像度の入力画像に適用できるようになることを発見した。

高解像度画像のマッティングは、ディープネットワークを使用すると大量の計算とメモリ消費につながるため、非常に困難です。図 4 に示すように、人間のマスクは通常非常にまばらで、大きなピクセル領域は背景 (α = 0) または前景 (α = 1) に属し、より細かいディテール (髪の毛、メガネ、人間の輪郭など) が含まれる領域はごくわずかです。そのため、本研究では、高解像度画像上で直接実行されるネットワークを設計する代わりに、低解像度画像上で実行されるネットワークと、以前のネットワークのエラー予測マップに基づいて画像パッチを選択し、元の解像度でこれらの画像パッチ上でのみ実行されるネットワークの 2 つのネットワークを提案しました。

アーキテクチャは、基本ネットワーク G_base とリファインメントネットワーク G_refine で構成されます。

この方法では、元の画像 I とキャプチャされた背景画像 B が与えられ、まず画像 I と B を係数 c でダウンサンプリングして、I_c と B_c を取得します。次に、ベースネットワーク G_base は I_c と B_c を入力として受け取り、粗粒度前景マスク α_c、前景残差 F^R_c、エラー予測マップ E_c、および隠れた特徴 H_c を予測します。次に、改良ネットワークG_refineはH_c、I、Bを使用して、予測誤差E_cが大きい領域のα_cとF^R_cを改良し、元の解像度のマスクαと前景残差F^Rを取得します。

このモデルは完全な畳み込みモデルであり、任意のサイズとアスペクト比の画像を処理できます。

アーキテクチャ図。

ベースネットワーク

この方法の基本ネットワークは、DeepLabV3 および DeepLabV3+ に触発された完全畳み込みエンコーダー/デコーダーネットワークであり、バックボーンネットワーク、ASPP、デコーダーという3 つの主要モジュールが含まれています。

研究者らはエンコーダーバックボーンネットワークとして ResNet-50 を採用しましたが、これは速度と品質のトレードオフを実現するために ResNet-101 と MobileNetV2 に置き換えることができます。

DeepLabV3 メソッドと同様に、このメソッドは、バックボーンネットワークの後に ASPP (Atrous Spatial Pyramid Pooling) モジュールを使用します。このモジュールには、それぞれ拡張率が 3、6、9 である複数の Atrous 畳み込みフィルターが含まれています。

デコーダーネットワークは、各ステップでバイリニアアップサンプリングを使用し、バックボーンネットワークからのスキップ接続と組み合わせて、3×3 畳み込み、バッチ正規化、および ReLU アクティベーション関数 (最後のレイヤーを除く) を使用します。デコーダーネットワークは、粗粒度のフォアグラウンドマスク α_c、フォアグラウンド残差 F^R_c、エラー予測マップ E_c、および 32 チャネルの隠れた特徴 H_c を出力します。 H_c に含まれるグローバルコンテキストは、リファインメントネットワークで使用されます。

精製ネットワーク

改良ネットワークの目的は、冗長な計算を削減し、高解像度の切り抜きの詳細を復元することです。ベースネットワークは画像全体に対して動作しますが、リファインメントネットワークはエラー予測マップ E_c に基づいて選択された画像パッチに対してのみ動作します。改良ネットワークは、最初の段階で元の解像度の 1/2 で改良し、次に完全な解像度で改良するという 2 つの段階で構成されます。推論中に、この方法では k 個の画像パッチを改良します。k は事前に設定することも、画像の品質と計算時間をトレードオフするしきい値に基づいて設定することもできます。

実験

この研究では、この方法を 2 つのトライマップベースの方法、つまりディープイメージマッティング、FBA マッティング (FBA)、および背景画像ベースの方法であるバックグラウンドマッティング (BGM) と比較しました。

合成データセットの評価結果

以下の表 1 は、さまざまなデータセットに対するこれらの手法の定量的な評価結果を示しています。本研究で提案された方法は、すべてのデータセットにおいて背景ベースの BGM 法よりも優れているが、手動で慎重にラベル付けされたトリマップを必要とし、本研究で提案された方法よりも遅い現在の最適なトリマップ法 FBA よりわずかに劣っていることがわかります。

実データによる評価結果

この研究では、実際のデータでこれらの方法のパフォーマンスも比較しました。下の図からわかるように、この研究方法で生成された結果は、髪の毛やエッジの点でより鮮明かつ詳細になっています。

この研究では、この方法とBGM生成の効果を評価するために40人の参加者を招待し、結果を以下の表2に示します。この方法は BGM に比べて大幅に改善されていることがわかります。参加者の 59% がアルゴリズムの方が優れていると考え、BGM の方が優れていると考えたのはわずか 23% でした。 4K 以上の解像度のサンプルでは、この方法の方が優れていると考える参加者の割合は 75% にも達しました。

パフォーマンス比較

以下の表 3 と 4 は、この方法が BGM よりも小さいが高速であることを示しています。

この方法のパラメータ数は、BGM の 55.7% にすぎません。しかし、多くのリアルタイムアプリケーションで使用できるNVIDIA RTX 2080 TI GPU を使用すると、バッチサイズ 1 で HD 60fps および 4K 30fps を実現できます。対照的に、BGM は 512×512 解像度の画像を 7.8fps でしか処理できません。

この方式のバックボーンネットワークをMobileNetV2に置き換えたところ、さらに性能が向上し、HD 100fps、4K 45fpsを実現しました。

実用

研究者たちは、この方法をZoom ビデオ会議と画像切り抜きの2 つのシナリオに適用しました。

Zoom の実装では、研究者らは、カメラ入力を傍受し、無人の背景画像を収集し、リアルタイムのビデオ切り抜きと合成を実行して、その結果を Zoom 会議に表示する Zoom プラグインを構築しました。研究者らは720pウェブカメラを使用してLinuxでテストし、問題なく動作した。

さらに、研究者らは、この方法の効果をグリーンスクリーンのクロマカットアウトの効果と比較し、次の図に示すように、照明が不均一な環境では、この方法の効果がグリーンスクリーン専用に設計された方法よりも優れていることを発見しました。

<<: マルチタスクでSOTA、UBCを実現 Googleなどが3Dポイントクラウド向けの教師なしカプセルネットワークを提案

>>: 製造業における人工知能の8つの応用シナリオ