ジャクソンはダンスしながら数秒で3Dロボットに変身します!アリババに新しい仕事が誕生:誰でもビデオを置き換えることができる

ジャクソンはダンスしながら数秒で3Dロボットに変身します!アリババに新しい仕事が誕生:誰でもビデオを置き換えることができる

何が起こっているのか?

アリは新しい仕事を思いついたようです——

MotionShop では、他のシーンやキャラクターを変更することなく、ビデオ内のキャラクターを 3D 画像に置き換えることができます。

たとえば、移民労働者のピグレットは太極拳を練習しています。

これを見て、待ちきれない人もいるでしょう。現在、ModelScope コミュニティで試用できます。

HuggingFace で手配したらどうかと提案する人もいましたが、そうしないと中国語がわからない人はどうなるのでしょうか?

しかし、アリババが最近、多くの派手なことをやっていることは認めざるを得ません。

無料トライアルあり

MotionShop は現在無料トライアルが利用可能で、わずか 3 つのステップで完了します。

ビデオをアップロードし、対象オブジェクトを決定し、置き換える仮想オブジェクトを選択します。

しかし、実際にテストしてみると、いくつか注意すべき点があることがわかりました。

まず、15 秒以内のビデオをアップロードします。文字が完全で、編集できないことを確認してください。

つまり、ショット全体を 1 回の撮影で撮影する必要があり、レンズを切り替えることはできません。

次に人物を置き換えることを選択すると、オブジェクトが自動的に選択され、それがターゲット オブジェクトと一致するかどうかが確認されます。

現在、交換可能なアバターは 4 つだけです。

最後に、行列の待ち時間がかなり長いです...おそらく試す人が多すぎるからでしょう。

どうやってそれを達成するのでしょうか?

アリババの研究チームは、動画内のキャラクターを3Dの人物に置き換えるフレームワークを提案した。

フレームワーク全体は 2 つの部分で構成されます。

1. 背景ビデオシーケンスを抽出および修復するためのビデオ処理パイプライン。

2. 3D キャラクター ビデオのシーケンスを生成するためのポーズ推定およびレンダリング パイプライン。

2つのパイプラインを並列に実行し、高性能レイトレーシングレンダラーTIDEを使用することで、プロセス全体を

7つのステップに分かれています。

最初のステップは文字の検出です。テキスト情報と既存のクローズドセット検出器のトランスフォーマーベースの融合を使用して、ゼロショットのオブジェクト検出を実現します。最終的なターゲット領域は、優位性選択法によって決定されました。

2 番目のステップはセグメンテーションと追跡です。ターゲットの検出に成功した後、SAM モデルの改良とアップグレードであるビデオ オブジェクトのセグメンテーションと追跡方法を使用して、ターゲット領域をピクセル レベルで追跡します。

ステップ3、修復。ビデオの残りの領域は修復されます。これには、損傷したフロー フィールドを復元するための再帰フロー完了メソッドの使用と、画像ドメインとフィーチャ ドメインの両方でのデュアル ドメイン伝播メソッドの使用による、グローバルおよびローカルの時間的一貫性の向上が含まれます。

4番目のステップは姿勢の推定です。姿勢推定法 CVFFS は、安定した人間の姿勢を推定するために使用されます。 SMPL 人体モデルは、3 次元の人体を表現するために使用されます。

ステップ 5: 3D キャラクターを生成します。推定された形状とポーズを選択した 3D モデルに再投影します。

ステップ 6: より自然でリアルな視覚効果を実現するために、さらに光の処理とレンダリングを実行し、3D モデルを元のビデオとより統合します。たとえば、TIDE エンジンを使用して新しい 3D モデルをレンダリングします。精密なマテリアル システムと組み合わせられ、モーション ブラー、時間的アンチエイリアシング、時間的ノイズ除去などのアルゴリズムによってサポートされます。

最後に、レンダリングされたイメージが元のビデオと合成され、最終的なビデオが生成されます。

興味のある方は以下のリンクをクリックしてください:

https://modelscope.cn/studios/Damo_XR_Lab/motionshop/summary

<<:  OpenAIのアルトマン氏、ニューヨークタイムズの訴訟に反応: AIはニュース出版社からのトレーニングデータを必要としない

>>:  中国科学院は、プログラマーがバグを見つけるのを助けるために大きなモデルを使用し、102の論文を分析し、これらの解決策をまとめた。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

最も人気のある 5 つの人工知能プログラミング言語の比較。1 つだけでも学ぶ価値があります。

ほとんどのソフトウェア アプリケーション開発と同様に、開発者は複数の言語を使用して AI プロジェク...

機械学習に必要な5つのスキル

機械学習、かっこいいですね。名前からすると、ロボットが一列に並んで座って知識を学習しているように思わ...

NumPy から直接 RNN を作成するにはどうすればいいですか?

成熟した Tensorflow および PyTorch フレームワークを使用して再帰ニューラル ネッ...

...

アルゴリズムの品質を評価するにはどうすればよいでしょうか?

序文アルゴリズムの品質を評価するには、そのアルゴリズムが問題を解決できるかどうかを確認することが重要...

ディープラーニングを理解するための鍵 – 啓蒙

ニューラル ネットワークは、これまでに発明された最も美しいプログラミング パラダイムの 1 つです。...

2018 年 4 月の最も人気のある AI 機械学習プロジェクト トップ 5

データサイエンスと機械学習に関しては、GitHub と Reddit が最も人気のある 2 つのプラ...

HTTPS の暗号化アルゴリズムに関連する概念

[[176353]]暗号化はコンピュータサイエンスで広く使用されており、HTTPS は暗号化に基づい...

Appleのスマートホームアプリに新機能「クリーンエネルギークエリ」が追加

AppleのiPhone 15の発表イベントでは、同社のカーボンニュートラル化に向けた取り組みに焦点...

RPAと医療におけるインテリジェントオートメーションの台頭

デジタル変革はヘルスケアにおける大きなトレンドと考えられており、インテリジェントな自動化もその一部と...

...

バンク・オブ・アメリカ証券:ChatGPT iOSクライアントのダウンロード数は6月に38%減少

7月6日、バンク・オブ・アメリカ証券の最新調査レポートによると、人工知能はテクノロジー業界で最もホッ...

...

すべての開発者が知っておくべき 6 つの生成 AI フレームワークとツール

翻訳者 | ジン・ヤンレビュー | Chonglou生成 AI は、急速に進化するテクノロジー分野に...