ビデオPSツール!文字の非表示と透かしの除去:CVPRで発表されたこの研究はオープンソース化されました

ビデオPSツール!文字の非表示と透かしの除去:CVPRで発表されたこの研究はオープンソース化されました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

ビデオから人物を消すのは常に難しい問題です。

結局のところ、どの有名アーティストが突然、収録番組で失敗してイメージが急落し、ポストプロダクションチームが残業を強いられ、さまざまな方法で痕跡を隠さなければならないことになるかは分からない。

例えば、あるテレビ局の春節祝賀会では、批判を受けた司会者が姿を消すことになってしまった。

[[270695]]

そして、バラエティ番組では不適切な言動をした芸能人を漫画のキャラクターに変えた。

[[270696]]

観客が間違いに気付かずに、これらの文字をすべてワンクリックで削除できる AI があれば素晴らしいでしょう。

現在、CVPR 2019 での調査により、この要求が現実のものとなりました。

『キャプテン・アメリカ3』を例に挙げましょう。空港での戦闘中、空を飛んでいる赤い男はマークされたスパイダーマンであり、クモの糸でアントマンを縛っています。

[[270697]]

今、AI が行動を起こし、スパイダーマンは姿を消し、アントマンだけが、まるでスパイダー糸に自動的に結合する能力があるかのように、クモの糸に縛られ絡みついたまま取り残されました。

[[270698]]

たとえば、「ズートピア」のウサギのジュディも赤でマークされています。氷の上を走って氷山を登っていましたが、滑りやすい氷の表面に耐えられず、水に落ちてしまいました。

AIが行動を起こした後、ジュディは氷を登る苦痛から解放され、カメラに映るのは氷の上の彼の影だけになった。

キャラクターの配置も完璧に再現されており、ウサギがカットされたことは全く分からない。まるで映画のアニメーションチームがこのショットを撮り直したかのようだ。

このようなエフェクトを見ると、上記2つの番組のポストプロダクションスタッフは泣くのではないかと思う。長時間の残業で生み出されたエフェクトが、他人のAIによって自動的に完成され、違和感もなく、登場人物が跡形もなく消えてしまうのだ。

さらに、Vlogを撮影する動画配信者もとても喜ぶと思います。ネットセレブのチェックインスポットが人でいっぱいになることを心配する必要がなくなり、AIを使って削除するだけで済むのでとても便利です。

この背後にある AI は、Flow-Guidedと呼ばれるビデオ復元アルゴリズムです。これは主に香港と香港中文大学のSenseTime共同実験室と南洋理工大学のSenseTime共同実験室からのもので、周伯蕾氏が参加し、 CVPR 2019に選ばれました。

GitHub プレビュー リンクがリリースされてからかなり経って、この研究のコードがオープンソース化されました

リリース前には、すでに 245 人の GitHub ユーザーがスターを付けて、待ち望んでいました。

そこで疑問なのは、このような活気あるシーンで、激しく運動している人物をどうして簡単に消すことができるのか、ということです。

ライトチェイサー

冒頭で述べたように、不可視性はオプティカルフローを使用して実現されます。

いわゆるオプティカルフローは次のようになります。

左側がブロック版、右側がAI完成版

実際、これは物体の運動を記述する概念であり、1950 年に James Gibson によって初めて提案されました。

観測面上の空間を移動する物体のピクセル移動の瞬間速度を指します。観察者は人間の目またはカメラになります。

カメラで撮影した映像ではフレーム間に時系列があるため、隣接する2つのフレーム間のオプティカルフローを計算して物体の動きの情報を得ることができます。

学習した情報は、ターゲットの検出やビデオの修正に使用できます。

チームは2段階のアルゴリズムを開発しました。

最初のステップは、オプティカルフローを推定することです。 2 番目のステップでは、オプティカルフローを使用して復元をガイドします。

上が1段目、下が2段目

それでは、これら 2 つのステップを詳しく見ていきましょう。

最初のステップはオプティカルフローの推定です。ビデオの特定の部分をブロックすると、AI がこの部分のオプティカルフローを完成させます。

例えば、下の写真の赤い部分がブロックされている部分です。

研究チームは、不完全なオプティカルフローを完成することを学習するために、DFC-Netと呼ばれるネットワークを設計しました。

AI トレーニング データでは、オクルージョンはランダムに生成され、完全なビデオから学習されます。

左側はランダムなオクルージョンです。右側はオクルージョン後のオプティカルフロー(単純な充填アルゴリズムで初期化)で、完了を待っています。中央は標準的な回答です。

DFC-Net には3 つのサブネットワークがあります。最初のサブネットワークは、粗いスケールでオプティカルフローを完成させる役割を担い、その結果は改良のために 2 番目のサブネットワークに引き渡されます。次に、さらに改良するために 3 番目のネットワークに渡します。

このようにして、最終的なオプティカルフローの完了結果が得られます。

2 番目のステップは、オプティカルフローに基づいてビデオを修復することです。

原理としては、あるフレームでブロックされている情報が他のフレームに存在する可能性があるということです。オプティカルフローによって提供されるモーション情報に基づいて、他のフレームの既知のピクセルを使用して、現在のフレームの未知のピクセルを埋めることができます。

もちろん、ビデオ全体には表示されていない情報もあります。この部分は、従来の画像復元ネットワークDeepfillに依存します。

原理を説明した後、アルゴリズムの有効性を総合的に見てみましょう。

完璧に消える馬術

新しい方法がどれほど優れているかを知るには、それを優れた先行方法と比較する必要があります。

対抗手段は2つあり、1つはCVPR 2018のDeepfill 、もう1つはHuangらが開発しSIGGRAPH 2016に選ばれたアルゴリズムです。

これが最初の質問です。ビデオから騎手とその馬を消してください。

Deepfill (右上) は想像力のみに頼って馬の軌跡を非常にはっきりと表現しています。Huang ら (左下) ははるかに自然ですが、灰色の残留物がまだ残っています。対照的に、新しいアルゴリズムで編集されたビデオでは、地面に影だけが残っています。

2 番目の質問もあります。ローラースケートをしている女の子の前の透かしを削除します。

[[270703]]

以下はHuang らの研究結果です。少女が透かしの元の位置をスキップしたとき、灰色の汚れがまだたくさん見えました。

この記事の主人公による修復の結果、ビデオに透かしが入っていたことがほとんど判別できなくなりました。

もちろん、これは単なる肉眼による観察の結果ではありません。この新しい AI は、YouTube-VOS と DAVIS という 2 つの主要なデータセットで、以前の AI よりも優れたスコアを獲得しました。

さらに研究者らは、人間の知覚を注意深くテストするために、番組を視聴していた30人の人々も集めた。

まず、ターゲット削除に関しては、約80%のユーザーがこの研究(青い部分)を1位にランク付けすべきだと考えています。

背景の塗りつぶしに関しては、約 70% のユーザーがこの研究の塗りつぶし効果が最高であると考えています。

香港中文大学とセンスタイムが共同制作

研究者のうち3人は香港中文大学・センスタイム共同研究室の研究者、1人は南洋理工大学の研究者である。

第一著者の Xu Rui 氏と第二著者の Li Xiaoxiao 氏は、ともに香港中文大学の SenseTime Joint Laboratory の博士号取得者です。Li Xiaoxiao 氏は、2017 年と 2018 年に、それぞれ DAVIS Challenge on Video Object Segmentation で 1 位と 2 位を獲得しました。

[[270704]]

3 番目の著者である周博雷氏は、現在、香港中文大学の情報工学部の助教授です。昨年、MIT で博士号を取得したばかりです。彼の h 指数は現在 25 にまで達しており、MSRA と Facebook から助成金を獲得しています。

Places2 と ADE20K データセットはいずれも彼が参加した作品であり、Network Dissection と Class Activation Mapping も彼の代表作です。

[[270705]]

最後の著者である Chen Change Loy 氏は、ロンドン大学クイーン・メアリー校で博士号を取得し、現在は南洋理工大学のコンピューター科学工学部の准教授を務めています。また、彼は香港中文大学の客員准教授でもあり、以前は香港中文大学のマルチメディア研究所で教鞭をとっていました。

Lv Jianqin 教授はチームを率いて、コンピューター ビジョンと画像処理に関連する多くの研究を実施しました。過去 2 年間、彼は CVPR 2019、BMVC 2019、ECCV 2018、BMVC 2018 など、いくつかのトップ カンファレンスで地域議長を務めました。また、IJCV マガジンの副編集長でもあります。

イースターエッグ

ウサギのジュディは、一生懸命練習した結果、身長の不利を優れたジャンプ力で補い、チームメイトを追い抜いたのです。

[[270706]]

しかし、彼女の力はまだ隠されていたので、彼女は再び雪水の中に溶け込んでしまいました。

[[270707]]

紙:

ディープフローガイドによるビデオ修復

徐瑞、李暁暁、周博雷、陳承鴻

https://arxiv.org/abs/1905.02884

プロジェクトのホームページ:

https://nbei.github.io/video-inpainting.html

オープンソースコード:

https://github.com/nbei/Deep-Flow-Guided-Video-Inpainting

<<:  技術革新は「プロトタイプ」で止まるわけにはいかない…

>>:  NumPy ダイアグラム、配列を視覚的に理解するためのチュートリアル

ブログ    

推薦する

人工知能をより賢くするにはどうすればいいでしょうか?オープンソースプラットフォームが必要です

[[332916]]ニーダーザクセン州オスナブリュック、2020年6月19日:メラニー・プロッパ先生...

...

Google は、ロボットにゴミを捨てることを教えることができる視覚言語アクション モデル RT-2 をリリースしました。

グーグルは7月28日、ゴミ捨てなどのタスクを理解できるようロボットを訓練するのに役立つ新しい人工知能...

SIEM&AIからSIEM@AIまで、AIが次世代のエンタープライズセキュリティの頭脳を構築

[51CTO.com からのオリジナル記事] SIEM はエンタープライズ セキュリティの中核ハブで...

AI + リアルタイム監視技術が公共サービスを改善する10の方法

石油やガスの価格変動、運用コストの増加、サイバー/物理的な脅威の増大により、公益事業会社はセキュリテ...

人工知能と機械学習がもたらす劇的な変化を示す6つの事例

[[219896]]現在、人工知能 (AI) と機械学習 (ML) ほど注目されているテクノロジーは...

画像ベースの AI プロジェクト用のデータセットを準備する 7 つのステップ

翻訳者 |陳俊レビュー | Chonglouご存知のとおり、データセットはおそらく機械学習プロジェク...

...

DeepMindの強化学習法はAIと人間のより良いコラボレーションを約束する

[[437442]] [51CTO.com クイック翻訳]囲碁からスタークラフト、Dotaまで、多く...

闇の奥:人工知能の奥にはどんな闇が隠されているのか?

4月13日、TechnologyReviewによると、ロボットが倉庫への特定のルートを取ることを決...

ビル・ゲイツ: 生成AIは限界に達した

ビル・ゲイツ氏の暴露は機械学習コミュニティで話題となっている。 「GPT-5 は GPT-4 よりそ...

機械学習トレーニングデータ戦略を開発するための 6 つのヒント

人工知能 (AI) と機械学習 (ML) は今や当たり前のものとなっています。 AI は人間の認知を...

人工知能はまだ長い道のりを歩んでいる

過去2年間で、「スマートホーム」はほぼすべての家電メーカーが必ず話題にし、自社製品になくてはならない...

知っておくべき10の機械学習アルゴリズム

機械学習は、確率論、統計、近似理論、凸解析、アルゴリズム複雑性理論など、多くの分野が関わる多分野にわ...