翻訳者 |ブガッティ レビュー | Chonglou 人間の動きが複雑で、環境によって見た目が微妙に異なるため、ビデオ映像からリアルなアニメーション3Dモデルを作成することは、コンピュータグラフィックスの分野で長年の課題となってきました。これまで、このプロセスは、マルチカメラ リグや詳細な手動モデリングなどのコストと労力のかかる手法に依存していたため、一般的なアプリケーションや低予算のアプリケーションには実用的ではありませんでした。 この問題に対処するため、フラウンホーファー・ハインリッヒ・ヘルツ研究所のチームは、ニューラル・ラジアント・フィールド(NeRF)を使用して3D人間モデルをアニメーション化する新しい技術を採用しました。彼らの方法は、標準のRGBビデオ クリップから直接これらのモデルを再構築できるため、高価な機器や膨大な人手が不要になります。 この技術は、アニメーション化された3Dモデルの作成を簡素化するための一歩であり、よりアクセスしやすく、リソース消費を抑えることができる可能性があります。次に、このアプローチの詳細を掘り下げ、生成されたアニメーションのパフォーマンスを分析し、この進歩が実践者や愛好家にとって何を意味するのかについて説明します。 リアルなデジタルヒューマンの追求リアルなデジタルヒューマンを作成することは、映画、ビデオゲーム、仮想会議などに役立ちます。しかし、これらのデジタル人間をリアルに見せることは困難です。どの角度から見ても、どの光の下でも、どのポーズで見ても同じように見えなければ、偽物のように見えてしまいます。 現在、こうしたデジタルダブルを作るには、特別なカメラや機材を使って実際の人物をスキャンするなど、多大な労力が必要であり、ほとんどの人にとっては高価すぎて非現実的です。 通常のビデオを使用するという別の方法もあります。しかし、ビデオは平面的であり、立体的に見せるために必要な奥行きが失われます。平面画像が本物の3D人物のように見えるようにするには、ビデオ内のオブジェクトの奥行きや距離を計算できるインテリジェントなツールが必要です。 最近、カメラの角度ひとつから人の形を推測できる新技術が登場し、この点は向上しました。しかし、まだ改善の余地は大いにあります。これらのデジタル人物は、少し歪んでいたり、不自然に動いたりするなど、見た目が間違っていることがよくあります。本当の目標は、リアルに見えるようにするだけでなく、元のビデオにはなかった新しい動きをさせることでした。 新規ビュー合成のための NeRFNeural Radiance Fields (NeRF)は、さまざまな視野角からリアルな3D画像を作成するための最先端技術です。これらは、光がシーンとどのように相互作用するかを予測するアルゴリズムを使用して機能し、これまで見たことのない角度からでも新しい画像をリアルに見せます。 NeRF は静止画像を現実のシーンのように見せることに成功しました。しかし、それらを使用して人が動いたり姿勢を変えたりする画像を作成するのは、より問題があります。これは、人々とその動きが複雑であり、 NeRF が明確な画像を作成するにはこの複雑さを理解する必要があるためです。 動く物体に対して NeRF をトレーニングする従来の方法では、画像がぼやける可能性があります。この問題に対処するために、研究者たちは新しいアプローチを提案した。彼らは、 NeRF をガイドするために、コンピューターで生成された人体モデルを使用しました。これにより、 NeRF は人体の動きの形状と形態を理解し、さまざまなポーズの人の鮮明で正確な画像を作成できます。このアプローチは、 NeRF が動的な現実世界のコンテンツ(人間の動きなど)を適切に処理できるようにするための重要なステップです。 技術的アプローチ: 表面配向NeRFこの研究では、ビデオ映像から人体の詳細な3D画像を生成するプロセスを概説した、 UVH -NeRFと呼ばれる技術を提案しています。方法は以下に詳しく説明します。 図2. ネットワークアーキテクチャ図 1.ビデオの3D人間モデルを調整する:最初のステップでは、 3D人間モデルをビデオ内の被写体に合わせる必要があります。これにより、後続のステップの基盤が構築され、ビデオ シーケンス全体にわたって人物の形状と動きを反映する3D構造が提供されます。 2. NeRF を人間の幾何学に適応させる:この方法では、従来のNeRF空間を次のように変更します。
3.ニューラル ネットワークによる空間理解の向上:ニューラル ネットワークは、この空間変換を微調整するように学習され、NeRF の空間表現が正確で人間のモデルと一致していることを保証します。 さらに詳しい内容は次のとおりです。
これらの手順により、NeRF は最終的に、さまざまなポーズや視点で人体を学習してアニメーション化し、多用途でダイナミックな 3D人物表現を作成できるようになります。この進歩は、デジタル メディア、仮想現実、および高忠実度の人間アバターを必要とするその他の分野でのアプリケーションに大きな期待が寄せられています。 結果 画像を見ると、左側にAI の推測、右側に実際の結果が表示されており、かなり近いことがわかります。 AIが生成したキャラクターは正しいポーズをとっており、衣服の折り目やしわも適切に表現されているようでした。まるで AI が賢い目を持っていて、人が何かをするときに服がどのように動くかを見ることができるかのようです。 しかし正直に言うと、完璧ではありません。目を細めれば、歪んだ細部が見えるでしょう。 AI は細かい部分を扱うのが苦手で、指がぼやけたり、顔の特徴が不正確になったりすることがあります。これは蝋人形が奇妙に見えるのと同じ理由ですが、わずか数フレームでこれらの画像を生成できるコンピューターとしては、それでもかなり印象的です。 この技術には大きな将来性がある。仮想現実や拡張現実について考えてみると、ピンポンボールの付いた変な衣装を着なくても、人々をできるだけリアルに見せたいと思うでしょう。 もちろん、最高水準に到達するまでにはまだやるべきことがたくさんあるが、それでも、デジタルヒューマンがさまざまな仮想空間を移動できるようにするための確実な一歩を踏み出した。 結論はこの研究の主な革新は、標準的な RGB ビデオ映像のみを使用して、神経放射場を 3D 人間モデル アニメーションに適用することに成功したことです。このアプローチにより、通常は複雑なカメラ装置と人手を必要とする、従来はリソースを大量に消費するデジタルヒューマンの作成プロセスが大幅に簡素化されます。本論文では、比較的簡単にアクセスできるビデオからの人間の動きなどの動的コンテンツにNeRF を適応できることを実証することにより、さまざまな分野でより広く適用できる実用的なアプローチを紹介しています。 この進歩は、この分野での将来の発展により、デジタル人間モデルをより経済的かつ効率的に生成できるようになり、ゲーム、バーチャルリアリティ、映画などの業界に利益をもたらす可能性があることを示唆しています。現在のアプローチには、特に複雑な動きや長いシーケンスに関しては限界がありますが、さらなる研究と改善の基盤となります。 本質的に、この研究はデジタル人間モデルをより利用しやすくするための一歩であり、プロのスタジオを超えて個人のクリエイターや小規模な制作チームにまでその使用を拡大する可能性を開きます。 原題:ビデオを制御可能な 3D モデルに変換する新しい NeRF 技術を発見、著者: Mike Young |
<<: AIが材料科学を覆す!ディープマインドの主要な研究がネイチャー誌に掲載され、220万の結晶構造を予測し、人類より800年も先を行く
[[337084]]バイオメディカルなどの専門分野では、NLP モデルのトレーニングには、特定のデー...
実名制やビッグデータ認識などの技術を利用することで、高齢者は北京電信のカスタマーサービスに電話する際...
モデルの展開は、ディープラーニング アルゴリズムの実装において常に重要な部分です。ディープラーニング...
人間の知能は「マルチモーダル学習」の総体であり、分類の境界を越えてさまざまな情報源や形式からの情報と...
オープンAIは6月29日水曜日、ロンドンに新オフィスを設立すると発表した。これは同社にとって米国外初...
[[335742]]メディアの報道によると、7月30日、マスク氏はニューヨークタイムズ紙との独占イン...
回答者の大多数 (59.4%) は明確なインシデント管理プロセスを導入しており、自動化のレベルはニー...
生成AIとは何ですか?生成 AI は、データを分析し、パターンと傾向を識別し、都市計画と管理に関する...
最近、2020年世界人工知能会議が中国上海で開催されました。各国の専門家らがオンラインで議論し、人工...
ラボガイド科学技術の急速な発展により、人工知能(AI)は今日最もホットな話題の1つになりました。人工...
4時間以上の対局の末、柯潔はAlphaGoに0.25ポイント差で負けた。対局後、アルファ碁の指導に参...
GPT-4などの大規模言語モデルがロボット研究と統合されるにつれて、人工知能はますます現実世界に進出...