人物画像のビデオレンダリングは、AR/VR、映画、医療などの分野で広く使用されています。単眼カメラからのビデオの取得は比較的容易であるため、単眼カメラから人体をレンダリングすることが常に主な研究方法となってきました。 Vid2Avatar、MonoHuman、NeuMan などの方法は素晴らしい結果を達成しました。これらの方法では、カメラビューが 1 つしかないにもかかわらず、新しい視点から人体を正確にレンダリングできます。 しかし、既存の方法のほとんどは、人体をレンダリングする際の理想的な実験シナリオ向けに設計されています。これらのシーンでは、障害物はほとんど存在せず、人体のすべての部分がすべてのフレームで完全に表示されます。しかし、これは実際のシーンとは大きく異なります。実際のシーンでは障害物が複数存在することが多く、人体が移動中に障害物に遮られることがあります。 ほとんどのニューラル レンダリング手法では、遮蔽のために現実世界のシーンを処理するのが困難ですが、主な理由の 1 つは監視の欠如です。実際のシーンでは、人体の外観、形状、姿勢に関する実際の教師ありデータを提供できないことが多いため、モデルはわずかな既存の証拠に基づいて他の情報を推測する必要がありますが、これは、特に人体の大部分が隠されている場合には非常に困難です。 多くのニューラル メソッドで採用されているポイント ベースのレンダリング スキームにより、2 つの非常に近い座標でも、一方が遮蔽され、もう一方が遮蔽されていない場合、レンダリングされた出力に大きな違いが生じる可能性があります。そのため、遮蔽されたシーンに適応しない方法では、遮蔽に遭遇したときに人間の体が不完全に表示されたり、浮遊するオブジェクトやその他の視覚的なエラーがレンダリングされたりすることがよくあります。 最近、有名な人工知能教授のフェイフェイ・リー氏がXで3D人体レンダリングの新たな進歩を発表しました。それは、遮蔽があっても人体を完全に、高い忠実度でレンダリングできるWild2Avatarと呼ばれる新しいモデルです。 Wild2Avatar は、遮蔽物のある自然界の単眼ビデオをニューラル レンダリングする方法です。研究チームは、オクルージョンを考慮したシーンのパラメータ化を提案し、シーンをオクルージョン、人体、背景の 3 つの部分に分離し、これら 3 つの部分を個別にレンダリングして、新しい最適化目標を設計しました。
方法の紹介Wild2Avatar は、遮蔽物のある自然界の単眼ビデオで、完全なジオメトリと高忠実度の外観を備えた 3D 人間をレンダリングできます。 Wild2Avatar モデルの全体的なアーキテクチャを以下の図 2 に示します。 具体的には、Wild2Avatar は遮蔽物、人体、背景を 3 つの独立したニューラル フィールドとしてモデル化し、遮蔽物に関係なく人体の鮮明な 3D 再構築を可能にします。この目的のために、本研究ではシーン自己分解技術を採用し、反転球面パラメータ化に基づくオクルージョンを考慮したシーンパラメータ化を提案した。 この研究では、反転球パラメータ化によって定義された最初の球に加えて、2 番目の内側球も導入し、カメラから内側球の端までの領域を遮蔽領域として定義しました。この領域を個別にレンダリングすることで、Wild2Avatar はオクルージョンをシーンの残りの部分からうまく分離します。 さらに、人体の高忠実度かつ完全なレンダリングを保証するために、この研究では、ピクセル測光損失、シーン分解損失、オクルージョン分離損失、および幾何学的整合性損失を組み合わせて 3 つのレンダリングを集約することを提案しました。 実験と結果データセット OcMotion: このデータセットは、人間がさまざまな物体と接触し、またこれらの物体によって部分的に遮られている屋内シーンで構成されています。研究者たちは、データセット内の 48 本のビデオから、さまざまな程度の閉塞を示す 5 本のビデオを選択しました。モデルをトレーニングするために各ビデオから 100 フレームのみを抽出し、データセットによって提供されるカメラ マトリックス、人間のポーズ、および SMPL パラメーターを使用して最適化プロセスを初期化しました。フレーム内のバイナリ人間セグメンテーションマスクは、Segment Everything (SAM) によって取得されます。 実世界のビデオ: 研究者らは、YouTube からダウンロードしたビデオと、チームが携帯電話のカメラで撮影したビデオの 2 つの実世界のビデオで追加の実験を実施しました。彼らはトレーニング用にこれら 2 つのビデオから 150 フレームを抽出し、SLAHMR を使用してカメラ マトリックス、人間の姿勢、および SMPL パラメーターを取得しました。グラウンドトゥルースポーズが提供されていないため、これらのビデオの評価では、さまざまな方法が不正確な推定に対して堅牢であることも実証されています。 遮蔽された単眼カメラのビデオの結果 図 5 は、2 つのデータセットにおける Vid2Avatar と Wild2Avatar のレンダリング結果を比較しています。 表 1 では、研究者らは 2 つの方法の定量的な結果を報告し、可視部分でのレンダリング パフォーマンスが同等であることを確認しています。ただし、Wild2Avatar は、ボディ ジオメトリと遮蔽された部分のレンダリング品質において、一貫して Vid2Avatar よりも優れていることに注意してください。 OccNeRFとの比較 研究者らは、Wild2Avatar を最近リリースされた遮蔽された人体レンダリング ソフトウェア OccNeRF と比較しました。比較結果を図6に示します。 公平な比較のために、彼らはそれぞれ 500 フレームと 100 フレームの画像で OccNeRF をトレーニングしました。暗黙的な SDF 表現がないため、OccNeRF にはフローターやアーティファクトなどの一般的な欠陥が発生します。 OccNeRF は隠れた人間の部分を復元することもできますが、人体は通常予期せず歪んでしまい、レンダリング品質が低下します。 シーン分解の可視化 Wild2Avatar は 3 つのシーン部分を組み合わせてレンダリングします。人物と背景/遮蔽物は 2 つの異なるニューラル フィールドでモデル化されます。図 7 は、これら 3 つのシーン部分の個別のレンダリングを示しています。この研究は人間のレンダリングのみに焦点を当てているため、背景や遮蔽物のアーティファクトのないレンダリングは、この研究の範囲外であることに注意してください。 アブレーション実験 Wild2Avatar は遮蔽された外観を回復できますが、提案されたパラメータ化を行わないとレンダリング結果に多くのアーティファクトが表示されます (図 8 の最初の行を参照)。 提案された損失関数が採用されない場合、遮蔽された領域を完全に復元することはできません(図 8 の 2 行目を参照)。 提案された損失関数は、ボディジオメトリが SMPL メッシュの事前条件と一致するように強制する正規化子として機能し、間違ったポーズのレンダリングを防ぎます (図 8 の 3 行目を参照)。 詳細については、原著論文をお読みください。 |
>>: 中国AIGC広告・マーケティング業界パノラマレポート:5つの大きな変化と4つの大きな影響、生成AIにより「1人」のための広告作成が可能に
[51CTO.com からのオリジナル記事] 推奨システムは登場以来、さまざまな商用製品の問題を解決...
2024年を見据えて、多くの技術リーダーや観察者は、AIが依然として会話や企業計画の中心となるだろう...
機械学習に関する知識が増えるにつれて、機械学習アルゴリズムの数も増えました。この記事では、データ サ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ロボット工学は、特にスマートテクノロジーと組み合わせると、無限の可能性を秘めたテクノロジーです。近年...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
PyTorch チームは、大規模モデルの推論を10 倍高速化しました。そして、純粋なネイティブ Py...
[51CTO.comより] 徐克氏は百度で検索とスマートレコメンデーションの分野で長年勤務。2015...
[[433316]] AI の恩恵を受けるすべての業界の中で、ヘルスケアはおそらく最も重要かつ関連性...
1. 事前のトレーニングは必要ですか?事前トレーニングの効果はすぐに現れますが、必要なリソースが法外...
多くのニューラル ネットワーク モデルと同様に、オブジェクト検出モデルは大量のデータでトレーニングす...
COVID-19パンデミックは、医療研修に課題と機会をもたらしています。遠隔学習技術は、さまざまな分...
最近、Redditユーザーが、2005年にリリースされたクラシックゲーム「ニード・フォー・スピード9...
エジソンが何千もの材料をフィラメントとして試し、試行錯誤を繰り返し、決して諦めない精神でようやく日常...