この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 ふわふわの髪とハンサムな動きを見ると、グリーンスクリーンの前で大ヒット映画を撮影しているのではないかと思ってしまうだろうか? いや、いや、いや これは実はAIがビデオを使ってリアルタイムで画像を切り出す効果なのです。 リアルタイムのビデオ切り抜きが髪の毛一本一本と同じくらい詳細になるとは思ってもみませんでした。 アルファ チャネルに切り替えて、もう一度見てみましょう。言うまでもなく、鳩よ、お金をちょうだい (犬の頭)。 これは、ByteDance のインターンによる最新の研究、リアルタイムの高解像度ビデオ切り抜き方法です。 補助入力を必要とせず、 RVMと呼ばれるこの AI にビデオを投入するだけで、わずか数分でポートレートを高精度に切り抜き、背景を任意に処理できるグリーン スクリーンに置き換えることができます。 こんなにスムーズだとは信じられませんか?私たち自身もオンラインデモで試してみました。 それに対して、現在のオンライン会議ソフトウェアでは、髪の毛が顔を覆ってしまうと、人物が消えてしまいます... 髪の毛が明らかにボサボサです。 ネットユーザーが率直にこう言ったのも不思議ではない。
現在、この論文はWACV 2022に選定されています。 あなたも試してみることができます現在、RVM は GitHub でオープンソース化されており、次の 2 つの試用方法が提供されています。 それですぐに試してみました。 まずは効果を見てみましょう: あまり難しくないものから始めましょう。 絵の中の人物が基本的に動かない状況では、RVM は非常に優れたパフォーマンスを発揮し、手動の切り抜きとほとんど区別がつかないと言えます。 今では、ワン・ビンビンが「どうぶつの森」に登場しても違和感はありません。 だから、心を開くのがずっと簡単になりました... えーっと、本題に戻りましょう。キャラクターの動きがもっとドラマチックになったらどうなるでしょうか? 複数人のダンスビデオの場合も、RVM は非常に優れたパフォーマンスを発揮します。 動き回って髪の毛が飛び散ってもカットアウト効果に影響しません。 欠陥は、文字が遮られている場合にのみ表示されます。 先行方法の MODNet と比較すると、確かにかなりの進歩が見られます。 ただし、ビデオの背景が暗い場合は、RVM のパフォーマンスに影響することもわかりました。 たとえば、背景光が薄暗い場合、カットアウト効果は非常に不十分です。 ブロガーの髪の毛が完全にボサボサになっているのがわかります。 そして、身体の境界は十分に明確ではありません。 したがって、自分でビデオを撮影して試してみたい場合は、必ず明るいシーンを選択してください。 時間情報の使用では、このような「魔法」はどのようにして実現されるのでしょうか? いつものように、まずは紙を見てみましょう〜 実際、ビデオの切り抜きのためのアルゴリズムは今日では珍しくなく、そのほとんどはビデオ内の各フレームを独立した画像として扱う方法を使用して切り抜きを実現します。 これとは異なり、本論文では、研究者らはビデオの時間情報を活用した再帰アーキテクチャを構築し、時間的一貫性と切り抜き品質の大幅な改善を達成しました。 上の図からわかるように、RVM ネットワーク アーキテクチャは次の 3 つの部分で構成されています。
その中で、ループメカニズムの導入により、AIは連続したビデオストリームで自己学習し、どの情報を保持する必要があるか、どの情報を忘れてもよいかを理解できるようになります。 具体的には、再帰型デコーダーはマルチスケール ConvGRU を採用して時間情報を集約します。その定義は次のとおりです。 このエンコーダー/デコーダー ネットワークでは、AI が高解像度ビデオをダウンサンプリングし、DGF を使用して結果をアップサンプリングします。 さらに、研究者らは、カットアウトとセマンティックセグメンテーションの両方のターゲットデータセットを使用してネットワークをトレーニングするという新しいトレーニング戦略を提案しました。 これを行う利点は次のとおりです。
この調整後、RVM は以前のバージョンと比べてどのような改善が行われましたか? 効果の比較からもそれがはっきりと感じられます。 さらに、RVM は MODNet よりも軽量で高速です。 下の表からわかるように、RVM は 1080p ビデオでは最も処理速度が速く、512×288 では BGMv2 よりわずかに遅く、4K ビデオでは FGF を使用した MODNet よりわずかに遅くなります。研究者らは、これはRVMがアルファチャンネルに加えて前景も予測するためだと分析した。 より直感的なデータとしては、NVIDIA GTX 1080Ti では、RVM は 4K ビデオを 76FPS で、HD ビデオを 104FPS で処理できるということです。 第一著者 ByteDanceインターンこの論文は、筆頭著者のLin Shanchuanが ByteDance でのインターンシップ中に完成しました。 彼はワシントン大学で学士号と修士号を取得し、AdobeやFacebookなどの大手企業でインターンシップを経験しました。 2021年3月から6月まで、林山川はByteDanceでインターンをしました。 8月にマイクロソフトに入社しました。 実際、Lin Shanchuan 氏は以前、AI 切り抜き手法でCVPR 2021 最優秀学生論文賞を受賞していました。 第一著者として論文「Real-Time High-Resolution Background Matting」を発表し、Background Matting V2方式を提案した。 この方法では、4K ビデオを 30FPS で、HD ビデオを 60FPS で処理できます。 CVPR では、Background Matting シリーズの方法が複数回選択されていることは注目に値します。以前は、第 1 世代の背景マットは CVPR 2020 に含まれていました。 両論文の責任著者は、ワシントン大学の准教授である Ira Kemelmacher-Shlizerman です。彼女の研究分野には、コンピューター ビジョン、コンピューター グラフィックス、AR/VR などがあります。 なお、この論文の第二著者は、ByteDanceの研究科学者であるLinjie Yang氏です。彼は清華大学で学士号を取得し、香港中文大学で博士号を取得しました。 ちなみに、Colabで試すだけでなく、Web版でもこのAIの効果をリアルタイムで体験できます。アドレスはこちらです: https://peterl1n.github.io/RobustVideoMatting/#/demo GitHub アドレス: |
<<: トランスフォーマーは人気を失っているのか?常識的な問題を解決したい場合、ニューラルネットワークは答えではない
AI アシスタントの将来について語るとき、アイアンマン シリーズに登場する魅力的な AI アシスタン...
人工知能技術と他の技術の最大の違いは、人間の頭脳労働の一部を代替できるだけでなく、一部の分野では人間...
産業発展状況の分析特許出願件数世界第1位[[332768]]我が国は、新たな科学技術革命と産業変革の...
台湾メディアiThome.com.twによると、Googleは2018年のACMマルチメディアカンフ...
人口は飛躍的に増加しており、農業は人口を養う問題を解決する必要がある。農業をより効率的かつ持続可能な...
[[390910]]このレポートでは、将来の AI 戦争における作戦レベルの防御と攻撃の概念を提案し...
モノのインターネット、ビッグデータ、人工知能などの最先端技術と伝統的な製造業の統合はますます深まり、...
AIoT は、モノのインターネットとそれに接続されたデバイスのネットワークをクラウドから解放し、イ...
Safetensor とは何ですか? 【セーフテンソル】:https://huggingface....
年を追うごとに、機械学習用のライブラリはより高速かつ使いやすくなっています。 Python は長い間...
翻訳者 |李睿レビュー | Chonglou OpenAI が立ち上げた GPT は現在、世界で最も...
「無人運転車が次々とゆっくりと停止し、住民が乗車すると、自動的にショッピングモール、オフィス、学校な...
[[425002]]自然言語理解 (NLU) は難しい問題です。数十年前の AI の誕生から現在に至...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...