Adobe のインターンのインテリジェントな被写界深度アルゴリズム: 2D 画像を 3 秒で 3D に変換し、視点をスムーズかつ自然に変化させます

[[276909]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

まるで一瞬でぶつかってしまうかのように、どんどんサンゴ礁に近づいていきます。

しかし、このアニメーション画像は人間が撮影したビデオからキャプチャされたものではありません。

この静止写真を3D の写真に変えるのは、Adobe の新しい魔法です。このプロセス全体はわずか 2 ～ 3 秒で完了します。

トップジャーナル">

この特殊効果処理はドキュメンタリーやその他のビデオのポストプロダクションでよく使用され、ケン・バーンズ効果と呼ばれています。

元々は単なる 2D ズーム (下の画像の左) でしたが、静止画像を平行移動およびズームして視差を作り出すことでアニメーション効果を実現しました。

トップジャーナル">

しかし、Adobe の 3D 効果 (右上) には、移動やズームだけでなく、遠近感の変換も備わっており、より没入感のある体験を提供します。

これを実現するには、プロのデザイナーは Photoshop などのソフトウェアで数時間を費やす必要があります。

そして、制作コストも非常に高く、写真1枚あたり約40〜50米ドル（約280〜350人民元）かかります。

Adobe は、ACM が後援するコンピュータグラフィックスのトップジャーナルである TOG でも取り上げられ、多くの議論と注目を集めました。興奮したネットユーザーからは「3連続」のコメントが寄せられた。

信じられない。すごい。すごい。すごい。

単純なズームではありません

遠近法の原理により、前景は背景よりも劇的に移動/ズームします。

そのため、前景が動くと、背景も動くだけでなく、修復する必要が出てきます。

AI による背景の修復は非常に自然で、その技術は明らかに以前のものよりも進歩しています。

トップジャーナル">

△教会は奇妙な形をしている

さらに、背景がどんなに単純でも複雑でも、AI は何も恐れません。

たとえば、ソファに向かって歩くと、ソファの後ろの窓の外の芝生が見えなくなります。

トップジャーナル">

背景は色彩も構造も複雑でしたが、AIは騙されませんでした。

先ほどの視点の変化が、単に遠くから近くへの変化だと思ったら、それほど複雑ではありません。これらの古代の階段を見てみましょう:

トップジャーナル">

まるで階段を上ろうとしているかのように、階段の方向へ向かい、ゆっくりと振り返っています。

また、立っている場所には古代の回廊があり、上を見上げる視点からまっすぐ前を見る視点に変わっているようです。

トップジャーナル">

もちろん風景だけでなくポートレートも加工可能です。

たとえば、芝生の上の花嫁は遠くから眺めることも、近くで鑑賞することもできます。

トップジャーナル">

冒頭で述べたように、すべての変換は 1 つの静止画像だけで完了します。

当然ながら、これは通常のズームでは実現できないものです。

トップジャーナル">

△左が通常のズーム、右が3Dマジック

それで、これはどのような技術によって実現されるのでしょうか?

コンテキスト認識と組み合わせて3つのステップで境界を決定する

1 つの画像からリアルなカメラの動きの効果を合成するには、2 つの基本的な問題を解決する必要があります。

まず、新しいカメラ位置が設定され、新しいビューが合成され、元のビューのシーンのジオメトリを正確に復元する必要があります。

次に、予測されたシーンのジオメトリに基づいて、新しいビューを連続したタイムライン上で合成する必要があり、これにはオクルージョン除去などの画像復元技術が含まれます。

トップジャーナル">

研究者らは、処理フレームワークを構築するために 3 つのニューラルネットワークを使用しました。

トレーニングに使用されるデータセットはコンピューターによって生成されます。研究者らは、UE4 Marketplace2 から 32 の仮想環境を収集し、仮想カメラを使用して 32 の環境で屋内シーン、都市シーン、田舎のシーン、自然シーンなど134,041 のシーンをキャプチャしました。各シーンには 4 つのビューが含まれており、各ビューには 512×512 ピクセルの解像度のカラーマップ、深度マップ、法線マップが含まれています。

トップジャーナル">

高解像度の画像が与えられた場合、まずその低解像度バージョンに基づいて大まかな深度が推定されます。このステップは VGG-19 によって実装され、VGG-19 によって抽出された意味情報は深度推定ネットワークのトレーニングをガイドし、グラウンドトゥルースを含むコンピューター生成データセットによって監視されます。このようにして、元の画像の深度マップを抽出できます。

2番目のネットワークはMask R-CNNです。意味的歪みを回避するために、VGG-19 と並行して、Mask R-CNN を使用して入力高解像度画像をセグメント化し、セグメント化の結果を使用して深度マップを調整し、画像内の各オブジェクトが一貫した平面にマッピングされるようにします。

最後に、抽出された大まかな深度は、入力された高解像度画像を参照して深度改良ネットワークを使用してアップサンプリングされ、より正確な深度境界が確保されます。

トップジャーナル">

ディープリファインメントネットワークを使用する理由は、オブジェクトのカット処理中に、オブジェクトが境界で引き裂かれる可能性が高いためです。

入力画像から取得したポイントクラウドと深度マップ (注: ポイントクラウドとは、3D スキャンによって取得したオブジェクトの表面上の点データの集合を指します) を使用して、連続した新しいビューをレンダリングできます。

しかし、ここで新たな問題が発生します。仮想カメラが前進すると、オブジェクト自体に亀裂が生じます (下の写真のタワーの右側はグリッドで切り取られているように見えます)。

トップジャーナル">

この問題に対処するために、研究者らはコンテキスト認識修復を組み合わせたアプローチを採用しました。

コンテキスト情報を組み込むことで、より高品質の合成ビューを生成できます。コンテキスト情報は、入力画像内の対応するピクセル位置の近傍を定義するため、コンテキスト情報を使用してポイントクラウド内の各ポイントを拡張できます。

具体的には、最初のステップは、色と深度の画像の修復を実行して、不完全なレンダリングから完全に新しいビューを復元することです。各ピクセルには、色、深度、コンテキスト情報が含まれます。

次に、画像復元深度を使用して、画像復元色をポイントクラウド内の新しい色相点にマッピングします。

このプロセスは、ポイントクラウドが完全に拡張され、ギャップが埋められるまで繰り返され、完全で連続した画像をリアルタイムで表示できるようになります。

トップジャーナル">

「みんないいって言うよ」

研究者がそれが良いと思うなら、それは良いことではありません。新しい方法の有効性は依然としてユーザーに依存します。

そこで研究チームは「非公式のユーザー調査」を実施しました。研究者らはYouTubeで人間が作成したケン・バーンズの3D動画30本を収集し、「風景」、「ポートレート」、「屋内」、「人工屋外環境」の4つのグループに分け、各グループからサンプルとしてランダムに3本の動画を選択しました。

このテストには 8 人のボランティアが参加しました。チームは各ボランティアに静止画像を割り当て、参考として人間の作品を提供し、新しい方法と 2 つの Ken Burns 制作ツール (Adobe After Effects テンプレートとモバイルアプリ Viewmee) を使用して同様の効果を作成するようにボランティアに依頼しました。

ボランティアは主観的な意見に基づいて各ツールの使いやすさと品質を評価します。

トップジャーナル">

ボランティアの意見では、Adobe のこの新しいツールは、効果と使いやすさの両面で明らかに優れています。

Adobe からのインターン（現在は Google に異動）

この研究の筆頭著者は、コンピュータービジョンとディープラーニングを研究しているポートランド州立大学の博士課程の学生、サイモン・ニクラウス氏です。

彼は Adobe Research でインターンをしながらこの仕事を完了し、現在は Google でインターンをしています。

トップジャーナル">

彼の博士課程の指導教官であるフェン・リウ氏はウィスコンシン大学マディソン校で博士号を取得し、現在はポートランド州立大学の助教授であり、この研究の著者の一人です。

さらに、この研究には Adobe の研究科学者である Long Mai 氏と Jimei Yang 氏という 2 人の著者もいます。

トップジャーナル">

Simon Niklaus 氏も、Hacker News でネットユーザーと交流する際に、この研究のオープンソース計画について語りました。

同氏はコードとデータセットを公開する予定だが、まだ承認は得ていないと述べた。この作業は「インターン」によって行われたため、Adobe はオープンソースに関しては比較的寛大です。