オープンソースのビデオ切り抜き技術が人気です！背景を変える方法は、それが真実か嘘かを判断するのが非常に難しい

グリーンスクリーンは、映画やテレビドラマで画像を切り取ったり背景を変えたりするのに強力なツールですが、グリーンスクリーンの前で撮影しなくても、背景を完璧に変えることができるのでしょうか?ワシントン大学の研究者らは最近、グリーンスクリーンの前で撮影しなくてもビデオの背景を完璧に変換し、世界全体をグリーンスクリーンにすることができるという論文をアップロードしました。

著者らが提供したデモから、彼らの方法が驚くほどうまく機能していることがわかります。ビデオ内の人物が髪を激しく揺らしても、合成効果には影響しません。

さまざまなアクションを実行するときに「間違い」はありません。

被写体と背景が判別しにくく、手持ちカメラが少し揺れても、切り抜き効果は良好です。

現在、この論文はCVPR 2020 カンファレンスに採択されています。

論文リンク: https://arxiv.org/pdf/2004.00626.pdf
GitHub リンク: https://github.com/senguptaumd/Background-Matting

論文の中で、研究者らはマットを作成するための新しい方法を提案した。既存のマスキング方法のほとんどでは、背景としてグリーンスクリーンを使用するか、トライマップを手動で作成する必要があります。もちろん、三元図を必要としない自動的な方法もありますが、結果は良くないものになります。この記事で提案されているマスキング方法では、3値マップは必要ありませんが、クリッピングと背景変更の効果が優れています。

もちろん、このような良い結果を得るには条件があります。研究者は、オリジナルの画像/ビデオに加えて、人物が写っていない背景写真も追加で撮影するよう写真家に依頼しました。このプロセスは、三角図を作成するよりもはるかに時間がかかりません。研究者たちは、敵対的損失を使用してディープネットワークをトレーニングし、マスクを予測しました。彼らはまず、グラウンドトゥルースを含む合成データを使用して、教師あり損失を伴うマスクネットワークをトレーニングしました。ラベル付けせずに合成画像と実画像の間のギャップを狭めるために、研究者らは、最初のネットワークによって誘導される別のマスクネットワークと、合成画像の品質を判断する識別器をトレーニングしました。研究者たちは、この新しい方法を多くの画像やビデオでテストし、以前の SOTA よりも大幅に優れていることを発見しました。

この論文に関する議論では、vlog (クラウドツーリズム)、ビデオ会議など、多くの潜在的なアプリケーションシナリオが考えられます。

大多数の「喫煙・飲酒僧侶」にとって、次回、研究室で作業（触る）や釣り（釣る）をしている動画を上司から投稿するように求められたら、おそらく使えるだろう。

方法

システムの入力は、静止した自然の背景の前に人が立っている画像またはビデオであり、純粋な背景画像も必要です。背景画像の取得は非常に簡単で、被写体をフレーミングエリアから出させて、露出と焦点距離を固定したカメラ（スマートフォンのカメラなど）を操作して写真を撮るだけです。研究者は、手持ちカメラの場合、カメラの動きが小さいと想定し、ホモグラフィーを使用して背景を特定の入力画像に合わせました。研究者らは入力データから対象人物のソフトセグメンテーションも抽出した。ビデオ入力の場合、マスクの生成を支援するために隣接するフレームを追加できます。

図 2: 方法の概要。

Adobeデータセットの教師付きトレーニング

研究者らはまず、Adobe Matting データセット (不透明な物体の画像のみを使用する) でディープマスキングネットワークをトレーニングしました。ネットワークは、人物を含む画像 I、純粋な背景画像 B'、人物 S、および隣接フレームの時間スタック M (オプション) のソフトセグメンテーションを入力として受け取り、前景マップ F と前景マスク α を出力します。 Sを生成するために、研究者らは文字のセグメンテーション、浸食、膨張、ガウスぼかしを適用した。ビデオを処理するときに、M を I の前後の 2 つのフレームに設定します。 2つのフレーム間の間隔がTであると仮定すると、選択される隣接フレームは{I−2T、I−T、I+T、I+2T}になります。色を無視し、動きの情報に重点を置くために、画像はグレースケールに変換されました。入力にビデオがない場合、研究者は M を {I、I、I、I} に設定し、これらの画像もグレースケールに変換されます。入力セットが{I, B′, S, M}で表され、重みパラメータθが与えられたネットワークの動作は次のように表すことができます。

研究者らは、入力画像に基づいてすべての入力情報の特徴をより効果的に組み合わせるためのコンテキストスイッチングブロック（CSブロック）ネットワークを提案しました（上記の図2を参照）。たとえば、人物の一部が背景と似ている場合、ネットワークはその領域のセグメンテーションの手がかりにさらに注意を払う必要があります。ネットワークには、それぞれ 256 チャネルの特徴マップを生成する 4 つのエンコーダーがあり、1x1 畳み込み、BatchNorm、ReLU を適用して I の画像特徴と B '、S、M の画像特徴をそれぞれ組み合わせ、3 つのペアごとに 64 チャネルの特徴を生成します。最後に、1x1 畳み込み、BatchNorm、ReLU を介して、これら 3 セットの 64 チャネル機能と元の 256 チャネル機能を組み合わせ、エンコードされた機能を取得して、残差ブロックやデコーダーを含むネットワークの他の部分に渡しました。研究者たちは、上記の CS ブロックアーキテクチャが、ネットワークが Adobe データセットから実際のデータに一般化することに役立つことを観察しました。

研究者らは、教師あり損失を使用して、Adobeデータセット上でネットワークG_Adobe ≡ G(·; θ_Adobe)をトレーニングしました。

その中で、(F, α) = G(X; θ_Adobe) の勾配項 α は、モデルがより鮮明な画像を生成するように促すことができます。

ラベル付けされていない実データに対する敵対的トレーニング

研究者らが提案した CS ブロックは、データ拡張と組み合わせた後、実際の画像と Adobe データセットを使用して合成された画像との間のギャップを大幅に短縮します。ただし、この方法では実際の画像を処理するときに次のような問題が残ります。

指、腕、髪の毛の近くの背景がマスクにコピーされます。
画像の分割に失敗しました。
前景の重要な部分の色は背景色と似ています。
画像と背景の位置が合っていません。

上記の問題を解決するために、研究者はラベルのない実際のデータからモデルをトレーニングする自己教師学習法を使用することを提案しました。

この方法の主な考え方は、マスク推定における大きな誤差が、新しい背景の下で合成された画像の歪みにつながるというものです。たとえば、不良なマスクには元の画像の背景の一部が含まれている可能性があり、新しい背景と合成すると、以前の背景の一部が新しい背景にコピーされます。そこで研究者らは、マスクネットワークのパフォーマンスを向上させるために、合成画像と実際の画像を区別する敵対的識別器をトレーニングしました。

研究者らは、LS-GAN フレームワークを使用してジェネレーター G_{Real} と識別器 D をトレーニングし、次の目的関数を最小化してジェネレーターをトレーニングしました。

ここで、(F, α) = G(X; θ_{Real})であり、\bar{B}は、合成画像を生成するために識別器によって使用される与えられた背景です。研究者らはλを0.05に設定し、訓練中に2エポックごとにそれを半分に減らして、識別器が重要な役割を果たすようにした。研究者らは、モデルがより鮮明な画像を生成するよう促すために、アルファ損失関数の重みを高く設定した。

研究者は、識別器をトレーニングするために次の目的関数を使用しました。

ここで、θ_{Disc}は識別器ネットワークの重みを表し、(F, α) = G(X; θ_{Real})です。

実験結果

研究者らは、ベイジアンマッティング、コンテキスト認識マッティング、インデックスマッティング、レイトフュージョンマッティングなど、ベンチマークで優れたパフォーマンスを示したいくつかのディープマスキングアルゴリズムを含む他の方法と自分たちのアプローチを比較しました。

Adobeデータセットの結果

研究者らはまず 26,900 個のサンプルを使用して GAdobe をトレーニングし、100 個のランダムな背景に 269 個のターゲットを合成し、ネットワーク入力として背景の摂動バージョンを追加し、バッチサイズ 4、学習率 1e で Adam オプティマイザーを使用してトレーニングしました。

この実験では、次の図に示すように、Adobe Dataset 内の 220 個の合成材料の結果を比較しました。

表 1: Adobe データセットのアルファマスクエラー。値が低いほどパフォーマンスが優れていることを示します。

実データによる結果

さらに、研究者らはスマートフォンのiPhone 8を使用し、手持ちカメラと固定カメラの両方で屋内と屋外のビデオを撮影した。

図 3: (ae) は、自然な背景で手持ちカメラで撮影したビデオのアルファチャネルと前景、(e) は動的な背景での失敗例です。

さらに、研究者らはユーザーグループに対して調査を実施し、その結果にはテストビデオの総合評価が含まれていました。スコアは、提案された方法が、特にカメラで撮影されたシーンでは他の方法よりも優れていることを証明していますが、非平面の背景によって生じる視差のために、手で撮影したビデオでは依然としていくつかのマスキングエラーが発生します。

表 2: 10 本の実際のビデオ (固定カメラ) に関するユーザー調査の結果。

表 3: 10 本の実際のビデオ (ハンドヘルドカメラ) に関するユーザー調査。

オープンソースコードの使い方の紹介

環境設定

プロジェクトをローカルに複製します。

 git クローンhttps://github.com/senguptaumd/Background-Matting.git

著者が提供するコードは Python 3 環境で実行する必要があり、Pytorch=1.1.0、Tensorflow=1.14、cuda10.0 バージョンでテストされています。次に、conda 仮想環境を作成し、依存関係をインストールします。

 conda create --name バックマット python= 3.6
 conda バックマットを有効にする

CUDA 10.0 がデフォルトの cuda であることを確認してください。 CUDA 10.0 がコンピュータの /usr/local/cuda-10.0 ディレクトリにインストールされている場合は、次のコマンドを実行します。

 LD_LIBRARY_PATH=/usr/local/cuda- 10.0 /lib64 をエクスポートします
エクスポート PATH=$PATH:/usr/local/cuda- 10.0 /bin

PyTorch と Tensorflow および関連する依存関係をインストールします。

 conda インストール pytorch= 1.1 . 0 torchvision cudatoolkit= 10.0 -c pytorch
 tensorflow-gpu= 1.14.0 をpipでインストールします
pip インストール -r 要件.txt

サンプル画像で推論を実行する

（１）データの準備

キャラクターの切り抜きにグリーンスクリーン効果を実現するには、次のデータが必要です。

人物が写っている画像（拡張子 _img.png）
文字なしの背景画像（拡張子_back.png）
文字を挿入する対象の背景画像（data/backgroundフォルダに保存）

また、sample_data/ フォルダーをテストに使用し、それを参照して独自のテストデータを準備することもできます。

（２）事前学習済みモデル

著者が提供するクラウドディスクから事前トレーニング済みモデルをダウンロードし、Models/ ディレクトリに配置します。

前処理
セグメンテーション
背景マッティングには、被写体のセグメンテーションマスクが必要です。Deeplabv3+ の Tensorflow バージョンを使用します。

（３）前処理

著者は、TensorFlow バージョンの Deeplabv3+ を使用して、文字の切り抜きのセグメンテーションマスクを生成します。

cd背景マット/

git clone http://github.com/tensorflow/models.git

CDモデル/リサーチ/

PYTHONPATH をエクスポート = $PYTHONPATH:` pwd `:` pwd `/slimcd ../..

python test_segmentation_deeplab.py -iサンプルデータ/入力

もちろん、Deeplabv3+ の代わりに他の画像セグメンテーションネットワークを使用することもできます。セグメント化された結果を、拡張子が _masksDL.png のファイルとして保存します。

その後、画像の位置合わせの前処理、つまり背景を入力画像に合わせる処理を実行する必要があります。画像を撮影する際は、オートフォーカス機能と自動露出機能をオフにする必要があることに注意してください。 python test_pre_process.py -i sample_data/input を実行して画像を前処理します。背景画像を自動的に整列させ、入力画像に合わせてオフセットとゲインを調整します。

（4）肖像画の切り抜き

背景を置き換えるには、次のコードを実行します。三脚で撮影した画像の場合、-m real-fixed-cam を使用すると最良の結果が得られます。オプション -m syn-comp-adobe を使用すると、実際のデータ (最悪の結果をもたらす) ではなく、Adobe 合成データセットでトレーニングされたモデルが使用されます。

 python test_background-matting_image.py -m リアルハンドヘルド -i sample_data/input/ -o サンプル

<<: フェイフェイ・リー氏のチームは、一人暮らしの高齢者のCOVID-19症状を監視する家庭用AIシステムを開発

>>: マスク氏は有言実行だ！テスラブランドの人工呼吸器が「納品」、モデル3の部品で製造

ブログ

オープンソースのビデオ切り抜き技術が人気です！背景を変える方法は、それが真実か嘘かを判断するのが非常に難しい

スマート水利建設を加速する必要があり、ドローンが大きな推進力となる

OpenAI は機械学習をサポートするために k8s を 7,500 ノードに拡張

エッジ AI はスマートシティの持続可能な開発にどのように貢献するのでしょうか?

人工知能の急速な発展により、小売業界は第5の変革期を迎えている。

考えるべき5つのAIリスク

2021年にはAI機能を導入する企業がますます増える

「オープン性、透明性、倫理」という目標を達成するために、AIアルゴリズムが政府の規制を策定するために使用される。

推薦する

衣服にNFCを追加: 袖をかざすだけで安全に支払い

自動化から拡張現実まで: 製造業を混乱させる 12 の革新的なテクノロジートレンド

報告書によると、プログラマーの70%がプログラミングにさまざまなAIツールを使用している。

機械学習を学ぶ前に、まずは確率論の基礎知識を習得する必要があります。

GPT-4V オープンソース代替品!清華大学と浙江大学は、LLaVAやCogAgentなどのオープンソースの視覚モデルの爆発的な普及を先導した。

プログラマーはAIアルゴリズムを使用して3,000匹の新しいポケモンを生成した

人工知能の時代でも様々な外国語を学ぶことは必要なのでしょうか？

投資家心理は安定しており、人工知能への資金流入は続いている

遺伝的アルゴリズムに基づく高周波タグアンテナの最適設計

李嘉誠は率直に言った。「人工知能の時代には、これらのいくつかの業界だけが大きな成功を達成するのに役立ちます。」