このAIはガールフレンドの自撮りを手伝います: 写真から3D動画を生成

このAIはガールフレンドの自撮りを手伝います: 写真から3D動画を生成

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

自撮りが大好きな女の子たちは、最も美しい角度を見つけるために、いつも美しい写真を撮るのに長い時間をかけます。

たとえば、この女の子は本棚の前で 4 枚の自撮り写真を撮りましたが、どれにも満足できませんでした。

最も美しい角度を選ぶ作業を AI に任せることができるので、女の子たちはもう心配する必要がなくなりました。ほんの数枚の写真で、さまざまな角度からの自撮り写真を生成できます。

そして、AI が生成した動画の中で最も美しいと思う角度を見つけて、Moments で共有できます。

この AI はワシントン大学と Google が共同で開発したものです。

この方法は複雑な機器を必要とせず、スマートフォンのカメラとCPUのみを使用して計算とレンダリングを完了できます。これは、3D画像を生成するためのiPhone 12 Proの内蔵LIDARよりもはるかに安価です。

原理

nerfies という名前を聞くと、デジャブを感じますか? Nerfies は、実際には NeRF と Selfies という 2 つの単語を組み合わせたものです。

NeRF (Neural Radiance Field) は、Google が最近開発した 2D 画像から 3D モデルへの変換ですが、NeRF では、処理中は対象者が完全に静止している必要があります。

例えば、上の女の子が自撮り写真を4枚撮ったとき、頭の姿勢がどうしても変わってしまいました。NeRFを直接適用すると、その影響はひどいものになるでしょう。

ナーフィーとは、非剛体的に変形されたシーンを再構築できる、変形可能なニューラル放射場(NeRF) です。

著者らは、NeRF に基づいて、幾何学と物理シミュレーションの原理に基づく NeRF の弾性正規化を提案し、これにより 2D から 3D への変換の堅牢性がさらに向上しました。

変動性 NeRF では、望ましくない局所最小値を回避するために、弾性正則化、背景正則化、およびアニーリング手法が導入されました。

著者らは、各画像に潜在的な変形コード(ω)と外観コード(ψ)を関連付けています。カメラ光線は観測フレーム内でトレースされ、光線に沿ったサンプルは変形フィールドを使用して標準フレームに変換されます。変形フィールドは変形コード ω によって MLP としてエンコードされます。

さらに、変換されたサンプル位置 (x0、y0、z0)、視線方向 (θ、φ)、および外観コード ψ は、テンプレート NeRF モジュールを照会し、光線に沿ってサンプルを統合するための MLP への入力として使用されます。

遊び方が増える

可変 NeRF は、単に自撮りをするだけでなく、もっと興味深い目的に使用できます。

たとえば、「ヒッチコックズーム」効果を作成するには、以前は特別な写真撮影スキルが必要だったり、遠くから近くまでビデオを撮影して後処理したりする必要がありました。今必要なのは数枚の写真だけです。

シーンの角度を変える必要はないが、キャラクターの姿勢を変える必要がある場合はどうすればよいでしょうか?

Morphability NeRF は、任意の頭部ポーズの写真を左右間で線形補間できます。

最後に、もう 1 つの用途は、手ぶれ補正ビデオを生成することです。可変 NeRF はあらゆる角度で画像を生成できるため、手ぶれは手で処理し、安定性は NeRF に任せることができます。

作者はまだソースコードを公開していませんが、プロジェクトのホームページに GitHub ボタンが配置されており、オープンソース化する準備ができていることを示しているようです。ぜひ試してみたいですか?

プロジェクトアドレス:
https://nerfies.github.io/

論文の宛先:
https://arxiv.org/abs/2011.12948

<<:  第4回パラダイム NeurIPS 2020: ナレッジグラフ埋め込みの自動化

>>:  外国企業が人間の介入を必要としないAI犬訓練機を開発

ブログ    
ブログ    

推薦する

ディープラーニングアーキテクチャにおける予測コーディングモデルに関しては、PredNetに目を向ける必要があります。

[[434722]] 0. はじめに予測的コーディングは認知科学における仮説です。高レベルの神経活...

王の英雄を見極める – PM の機械学習初心者の旅

[[204836]]基本概念先月、私は機械学習を原理レベルから理解し始め、オンライン電子書籍「ニュー...

OpenAI の新しいモデルは大きな飛躍を示しています。AGI のプロトタイプは人類を脅かす可能性があり、アルトマンを解雇する導火線にもなりました。

サム・アルマンが解雇され、最新の内幕が明らかに!ロイター通信によると、彼が解雇されるわずか4日前に、...

心臓血管画像診断における人工知能の応用の進歩

人工知能(AI)は、人間の知能特性を備えたタスクを実行できるコンピューティングプログラムを指します。...

ビッグスリー:ディープラーニングの未来

【51CTO.com 速訳】ディープラーニングの課題過去数年間で、ディープラーニング モデルの主要構...

ネイチャー、サイエンス、セルが参加し、80の学術機関がCOVID-19研究を無料で提供する

[[314283]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

Hiveテクノロジーイノベーションカンファレンスは、ドローン技術の進化とビジネスモデルの革命をリードします

2018年1月23日、北京ハイブアグロテック株式会社(以下、ハイブロボティクス)は、JDグループ本社...

...

デジタル企業におけるロボティック・プロセス・オートメーション(RPA)技術の長所と短所

[[388106]]ロボティック プロセス オートメーション (RPA) テクノロジーは、一部の企業...

ものづくりを変える6つのAI活用法!

1. 欠陥検出のためのディープラーニング[[391865]]製造業では、生産ラインにおける欠陥検出...

NLP 70 年!スタンフォード大学のマニング教授が長文の記事を執筆:「基本モデルは10年でAGIになることができるか?」

過去 10 年間で、自然言語処理の分野は、単純なニューラル ネットワーク計算と大規模なトレーニング ...

実用的なヒント | 人工知能に変身するために習得すべき 8 つのニューラル ネットワーク

なぜ機械学習が必要なのでしょうか?機械学習は、人間が直接プログラムできない複雑な問題を解決できるため...

機械学習は増加傾向にありますが、そのアルゴリズムの結果は公正なのでしょうか?

アルゴリズムは驚くべき方法で私たちの生活をコントロールしています。地元のデリのカウンターで番号を受け...

「遅れた接客」と批判されたインテリジェント接客の現状とは?

AIや5Gなどの新技術がもたらす変化により、顧客サービスシナリオは多様な変化を遂げており、兆レベル...