ビデオ通話の低品質なビデオとはおさらば: NVIDIA の新しいアルゴリズムはトラフィックを最大 90% 圧縮できます

ビデオ通話の低品質なビデオとはおさらば: NVIDIA の新しいアルゴリズムはトラフィックを最大 90% 圧縮できます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

Nvidia は、インターネット速度が遅いユーザーでも高画質通話が利用できるようにするために知恵を絞った。彼らが開発した新しい AI アルゴリズムは、ビデオ通話のトラフィックを最大 90% 圧縮できます。

他の動画と比べると、通話シーンは比較的シンプルで、基本的に人物の頭だけが動いている。そのため、アバターデータを大規模に圧縮できれば、トラフィックを大幅に節約できます。

Nvidia の新しいアルゴリズムface vid2vid はこの点から始まります。たった一枚の写真で、様々な頭部ポーズの写真を再現することが可能です。

H.264 ビデオに必要な帯域幅は、この新しいアルゴリズムの2 ~ 12 倍です。前のデモからわかるように、2 つが同じビット レートを使用する場合、H.264 ビデオはほとんど使用できなくなります。

歪みなく顔を回転させる

NVIDIA では、Pitch (ピッチ角)、Yaw (ヨー角)、Roll (ロール角) の 3 方向に任意に回転できる試用デモを提供しています。

顔を入力し、各方向に最大 30 度回転します。以下は3方向に最大角度まで回転させて生成した画像です。

従来の方法と比較すると、Nvidia の技術では、顔が大きく回転しても顔が歪むことはありません。

しかし、写真は結局のところ静止画であり、生成された顔を動画に組み込むには追加の手順が必要です。

顔動画の合成

アップロードされた鮮明な写真をソース画像として取り込み、そこから外観の特徴を取得します。次に、ビデオ内の各フレームがビデオを再構築するための基礎として使用され、そこから顔の表情や頭の姿勢などの情報が抽出されます。

表情と姿勢の 2 つのデータをキーポイントを通じてエンコードできるため、キャラクターのアイデンティティ情報とモーション情報を分離できます。ビデオを送信する場合、モーション情報のみが必要なので、トラフィックを節約できます。

ソース画像 s からは、キーポイント座標 x とヤコビ行列 J の 2 つのデータ セットが取得されます。これら 2 つのパラメータ セットは、顔の特定の特徴とは関係がなく、人物の幾何学的特徴のみを含みます。

ヤコビ行列は、アフィン変換によってキーポイントの周囲のローカル パッチを別の画像のパッチに変換する方法を表します。恒等ヤコビアンの場合は、パッチをコピーして新しい場所に貼り付けるだけです。

下の図は、最初の 5 つの重要なポイントを計算するプロセスを示しています。ソース画像とモデルによって予測された標準的なキーポイントが与えられます。

モーションビデオから推定された回転と移動がキーポイントに適用され、頭部の姿勢の変化を駆動します。すると表情の変形を感知し、目的の表情に合わせてキーポイントを調整することができます。

次に、ビデオの合成を開始します。フロー wk は、ソースとモーションのキーポイントとそれらのヤコビ行列を使用して推定され、マスク m は生成されたフローから結合されます。2 つのセットは線形に結合され、合成フロー フィールド w を生成します。

次に、顔の特徴 f を入力して出力画像 y を生成します。

この方法はビデオ通話だけでなく、他の「新しい遊び方」にも使えます。

例えば、肖像画が少し歪んでいると思ったら、修正データを手動で入力して顔をまっすぐにすることができます。

あるいは、ある人物の顔の特徴点とヤコビ行列を別の人物に使用して、顔のビデオの動きの移行を実現することもできます。

チームについて

この記事の第一著者は、NVIDIA の上級研究員である Ting-Chun Wang 氏です。

[[355324]]

この記事の責任著者は、NVIDIA の著名な研究者である Liu Mingyu 氏です。

[[355325]]

長い間 CV 分野に注目してきた方であれば、この 2 人の著者のことをよくご存知のはずです。彼らは、画像スタイルの転送、GAN などで多くの作業を行ってきました。

△ ガウガン

二人はこれまで何度もコラボレーションしてきた。例えば。教師なし画像転送ネットワーク(NIPS 2017)と、落書きから写真を生成するGauGAN(CVPR 2019)は、どちらもこの2人の手によるものです。

プロジェクトページ: https://nvlabs.github.io/face-vid2vid/

論文アドレス: https://arxiv.org/abs/2011.15126

<<:  米国が新たなオープンソースAIアルゴリズムを開発:モザイクの美しさを自動修復

>>:  強化学習アルゴリズムの分類をさまざまな観点から理解します

ブログ    
ブログ    

推薦する

人工知能が仕事を奪っていますが、将来の職場で私たちは何のために戦うのでしょうか?

病院では、人工知能 (AI) は人間の医師よりもレントゲンの分析が得意です。法律事務所では、AI は...

将来、人工知能は人間の意思決定に取って代わることができるでしょうか?

ほとんどの CIO は、AI に意思決定を任せることに消極的です。しかし、それは彼らがより優れた、よ...

近年の機械学習の奇妙な状況

翻訳者注:人工知能分野の発展は学者の貢献と切り離せないものです。しかし、研究が進むにつれて、「クリッ...

...

自己知能ネットワークに向けた大規模モデル技術の応用展望を探る

OpenAIは2022年11月に会話型大規模言語モデルChatGPTをリリースしました。これは、非常...

テクノロジーがコロナウイルスと戦う10の方法

COVID-19の流行は中国の武漢で最初に発生して以来、少なくとも100の国と地域に広がっています。...

グレートウルフホテルはAIを活用してゲストの体験とレビューを理解する

現在、ホテルやエンターテインメント業界のチェーンは、ゲストの体験やレビューをスキャンして理解するため...

神々の中年の戦いが始まった。どの国内大型モデルが華山の頂上を勝ち取ることができるのか?

2023年も半ばを過ぎた現在、ビッグモデルは爆発後のメタバースのように冷めることなく、ますます活発...

よく使われる「生成AIライブラリ」の総合ガイド

皆さんこんにちは、Luga です。今日も引き続き、人工知能 (AI) エコシステムに関連するテクノロ...

AmazonのAI研究開発はファッショントレンドをリードするために異なるアプローチを採用しています

テクノロジーサイトEngadgetが北京時間8月25日に報じたところによると、人工知能は現在、ほとん...

RadOcc: レンダリング支援蒸留によるクロスモーダル占有知識の学習

原題: Radocc: レンダリング支援蒸留によるクロスモダリティ占有知識の学習論文リンク: htt...

基数ソートのヒント 1 つ、ソート方法 2 つ、ソートアルゴリズム 3 つ

[[421174]]基数ソートコンセプト基数ソートは、整数をビットごとにソートする非比較整数ソート ...

携帯電話を使ってドライバーを監視:ドライバーレコーダーもAI技術を活用し始めている

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...