新しいNeRF技術は、ビデオを簡単に制御できる3Dモデルに変換できます。

新しいNeRF技術は、ビデオを簡単に制御できる3Dモデルに変換できます。

翻訳者 |ブガッティ

レビュー | Chonglou

人間の動きが複雑で、環境によって見た目微妙に異なるため、ビデオ映像からリアルなアニメーション3Dモデルを作成することは、コンピュータグラフィックスの分野で長年の課題となってきましたこれまで、このプロセスは、マルチカメラ リグや詳細な手動モデリングなどのコスト労力のかかる手法に依存していたため、一般的なアプリケーションや低予算のアプリケーションには実用的ではありませんでした

この問題に対処するため、フラウンホーファー・ハインリッヒ・ヘルツ研究所のチームは、ニューラル・ラジアント・フィールド(NeRF)を使用して3D人間モデルをアニメーション化する新しい技術を採用しました。彼らの方法は、標準のRGBビデオ クリップから直接これらのモデルを再構築できるため、高価な機器や膨大な人手が不要になります

この技術はアニメーション化された3Dモデル作成を簡素化するための一歩であり、よりアクセスしやすく、リソース消費を抑えることができる可能性があります次に、このアプローチの詳細を掘り下げ、生成されたアニメーションのパフォーマンスを分析しこの進歩実践者や愛好家にとって何を意味するのかについて説明します。

リアルなデジタルヒューマンの追求

リアルなデジタルヒューマンを作成することは、映画、ビデオゲーム、仮想会議などに役立ちます。しかし、これらのデジタル人間をリアルに見せることは困難です。どの角度から見てもどの光の下でも、どのポーズで見て同じように見えなけれ偽物のように見えてしまいます

現在、こうしたデジタルダブルを作るには特別なカメラや機材を使って実際の人物をスキャンするなど、多大な労力が必要であり、ほとんどの人にとっては高価すぎて非現実的です

通常のビデオを使用するという別の方法もあります。しかし、ビデオは平面的であり、立体的に見せるために必要な奥行きが失われます。平面画像が本物3D人物のように見えるようにするには、ビデオ内のオブジェクトの奥行きや距離を計算できるインテリジェントなツールが必要です

最近、カメラの角度ひとつから人の形を推測できる新技術が登場し、この点は向上しました。しかし、まだ改善余地は大いにあります。これらのデジタル人物は少し歪んでいたり、不自然に動いたりするなど、見た目が間違っていることがよくあります本当の目標はリアルに見えるようにするだけでなくのビデオにはなかった新しい動きさせることでした

新規ビュー合成のための NeRF

Neural Radiance Fields (NeRF)、さまざまな視野角からリアルな3D画像を作成するための最先端技術ですこれらは、光がシーンとどのように相互作用するかを予測するアルゴリズムを使用して機能し、これまで見たことのない角度からでも新しい画像をリアルに見せます

NeRF は静止画像を現実のシーンのように見せることに成功しました。しかし、それらを使用して人が動いたり姿勢を変えたりする画像作成するのは、より問題があります。これは人々とその動きが複雑であり NeRF が明確な画像を作成するにはこの複雑さを理解する必要があるためです

動く物体に対して NeRF をトレーニングする従来の方法では、画像がぼやける可能性があります。この問題に対処するために、研究者たちは新しいアプローチを提案した。彼らは、 NeRF をガイドするために、コンピューターで生成された人体モデルを使用しました。これにより、 NeRF は人体の動きの形状と形態を理解し、さまざまなポーズの人の鮮明で正確な画像を作成できます。このアプローチは、 NeRF が動的な現実世界のコンテンツ(人間の動きなど)適切に処理できるようにするための重要なステップです

技術的アプローチ: 表面配向NeRF

この研究では、ビデオ映像から人体の詳細な3D画像を生成するプロセスを概説した UVH -NeRFと呼ばれる技術を提案しています方法は以下に詳しく説明します

図2. ネットワークアーキテクチャ図

1.ビデオの3D人間モデルを調整する:最初のステップでは、 3D人間モデルをビデオ内の被写体に合わせる必要があります。これにより後続のステップの基盤が構築され、ビデオ シーケンス全体にわたって人物の形状と動きを反映する3D構造が提供されます

2. NeRF を人間の幾何学適応させる:この方法では、従来のNeRF空間次のように変更します

  • モデルの表面にポイントを投影する:ビデオ内の位置に対応する3Dモデルの表面上のポイントを特定しますこれらのポイントは、 2Dイメージのテクスチャをモデルにマッピングするために使用されます。
  • モデル表面までの距離を計算:この手法では、空間内の各ポイントについてモデル表面までの距離を計算し、モデルに対するポイントの位置(モデル内、モデル表面上、またはモデル外)​​を決定するのに役立ちます
  • 関節モーションと組み合わせる:スケルトンの関節データを使用してモデルアニメーション化し、さまざまなポーズの人物をレンダリングするのに役立ちます。

3.ニューラル ネットワークによる空間理解の向上:ニューラル ネットワークは、この空間変換を微調整するように学習され、NeRF の空間表現が正確で人間のモデルと一致していることを保証します。

さらに詳しい内容は次のとおりです。

  • 一貫した構造の維持:この手法では、SMPL モデルを使用して均一な構造を維持し、異なるフレーム内の人物のポーズを正確に反映します。
  • NeRF の視点の変更:このアプローチは、NeRF の空間認識を変更して人間の形状を模倣します。人の動きに関係なく安定した状態を保ちます。
  • ポーズを正確に再現したレンダリングを作成:骨格データを NeRF に統合することで、システムはあらゆるポーズの解剖学的に正確な画像を生成できます
  • 不一致の修正:ニューラル マッピング モジュールは、モデルまたは翻訳内の小さなエラー調整し、整合性と一貫性を確保します。

これらの手順により、NeRF は最終的に、さまざまなポーズや視点で人体を学習しアニメーション化し、多用途でダイナミックな 3D人物表現を作成できるようになります。この進歩は、デジタル メディア、仮想現実、および高忠実度の人間アバターを必要とするその他の分野でのアプリケーションに大きな期待が寄せられています。

結果

画像を見ると、左側AI の推測、右側に実際の結果が表示されており、かなり近いことがわかります。 AIが生成したキャラクターは正しいポーズをとっており、衣服の折り目やしわも適切に表現されているようでしたまるで AI が賢い目を持っていて、人が何かをするときに服がどのように動くかを見ることができるのようです

しかし正直に言うと、完璧ではありません。目を細めれば歪んだ細部が見えるでしょう AI は細かい部分を扱うの苦手、指がぼやけたり、顔の特徴が不正確になったりすることがあります。これは蝋人形が奇妙に見えるのと同じ理由ですがわずか数フレームでこれらの画像を生成できるコンピューターとしては、それでもかなり印象的です

この技術には大きな将来性がある。仮想現実や拡張現実について考えてみると、ピンポンボールの付いた変な衣装を着なくても、人々をできるだけリアルに見せたいと思うでしょう。

もちろん、最高水準に到達するまでにはまだやるべきことがたくさんあるが、それでも、デジタルヒューマンがさまざまな仮想空間を移動できるようにするための確実な一歩を踏み出した

結論は

この研究の主な革新は、標準的な RGB ビデオ映像のみを使用して、神経放射場を 3D 人間モデル アニメーションに適用することに成功したことです。このアプローチにより、通常は複雑なカメラ装置と人手を必要とする従来はリソースを大量に消費するデジタルヒューマンの作成プロセスが大幅に簡素化されます。本論文では、比較的簡単にアクセスできるビデオからの人間の動きなどの動的コンテンツNeRF を適応できることを実証することによりさまざまな分野でより広く適用できる実用的なアプローチを紹介しています

この進歩は、この分野での将来の発展により、デジタル人間モデルより経済的かつ効率的に生成できるようになり、ゲーム、バーチャルリアリティ、映画などの業界に利益をもたらす可能性があることを示唆しています。現在のアプローチには、特に複雑な動きや長いシーケンスに関しては限界がありますがさらなる研究と改善の基盤となります。

本質的に、この研究はデジタル人間モデルをより利用しやすくするための一歩でありプロのスタジオを超えて個人のクリエイターや小規模な制作チームにまでその使用を拡大する可能性を開きます

原題:ビデオを制御可能な 3D モデルに変換する新しい NeRF 技術を発見、著者: Mike Young

<<:  AIが材料科学を覆す!ディープマインドの主要な研究がネイチャー誌に掲載され、220万の結晶構造を予測し、人類より800年も先を行く

>>:  AIの進化:「テクノロジーは2つの道に分かれる」

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

「ドメイン外」テキストは不要、Microsoft: NLP はターゲットを絞った方法で事前トレーニングする必要がある

[[337084]]バイオメディカルなどの専門分野では、NLP モデルのトレーニングには、特定のデー...

...

人間的な顧客サービスを必要とするのは高齢者だけではない

実名制やビッグデータ認識などの技術を利用することで、高齢者は北京電信のカスタマーサービスに電話する際...

DockerとFlaskをベースにしたディープラーニングモデルのデプロイメント!

モデルの展開は、ディープラーニング アルゴリズムの実装において常に重要な部分です。ディープラーニング...

LeCun はそれを見て良かったと言っていました! Meta AI は音声、視覚、テキストで同時に SOTA を達成

人間の知能は「マルチモーダル学習」の総体であり、分類の境界を越えてさまざまな情報源や形式からの情報と...

OpenAIは「世界クラスの人材」を採用するためにロンドンに海外支社を設立すると発表

オープンAIは6月29日水曜日、ロンドンに新オフィスを設立すると発表した。これは同社にとって米国外初...

危険が迫っています!マスク氏、AIが5年以内に人間を超える可能性があると警告

[[335742]]メディアの報道によると、7月30日、マスク氏はニューヨークタイムズ紙との独占イン...

GenAIは将来のインシデント管理プロセスを形作っています

回答者の大多数 (59.4%) は明確なインシデント管理プロセスを導入しており、自動化のレベルはニー...

スマートシティGPT?ジェネレーティブAIがスマートシティにどのように役立つか

生成AIとは何ですか?生成 AI は、データを分析し、パターンと傾向を識別し、都市計画と管理に関する...

人工知能:現在も将来も有望

最近、2020年世界人工知能会議が中国上海で開催されました。各国の専門家らがオンラインで議論し、人工...

人工知能における計算能力、アルゴリズム、データに関する簡単な説明

ラボガイド科学技術の急速な発展により、人工知能(AI)は今日最もホットな話題の1つになりました。人工...

...

柯潔はなぜ「負けてカッとなった」と言ったのか!人間対機械の第一ラウンドを説明する8つの質問

4時間以上の対局の末、柯潔はAlphaGoに0.25ポイント差で負けた。対局後、アルファ碁の指導に参...

Google の具現化された知能に関する新たな研究: RT-H が登場、RT-2 より優れている

GPT-4などの大規模言語モデルがロボット研究と統合されるにつれて、人工知能はますます現実世界に進出...