Adobe のインターンのインテリジェントな被写界深度アルゴリズム: 2D 画像を 3 秒で 3D に変換し、視点をスムーズかつ自然に変化させます

Adobe のインターンのインテリジェントな被写界深度アルゴリズム: 2D 画像を 3 秒で 3D に変換し、視点をスムーズかつ自然に変化させます

[[276909]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

まるで一瞬でぶつかってしまうかのように、どんどんサンゴ礁に近づいていきます。

しかし、このアニメーション画像は人間が撮影したビデオからキャプチャされたものではありません。

この静止写真を3D の写真に変えるのは、Adobe の新しい魔法です。このプロセス全体はわずか 2 ~ 3 秒で完了します。

トップジャーナル">

この特殊効果処理はドキュメンタリーやその他のビデオのポストプロダクションでよく使用され、ケン・バーンズ効果と呼ばれています。

元々は単なる 2D ズーム (下の画像の左) でしたが、静止画像を平行移動およびズームして視差を作り出すことでアニメーション効果を実現しました。

トップジャーナル">

しかし、Adobe の 3D 効果 (右上) には、移動やズームだけでなく、遠近感の変換も備わっており、より没入感のある体験を提供します。

これを実現するには、プロのデザイナーは Photoshop などのソフトウェアで数時間を費やす必要があります。

そして、制作コストも非常に高く、写真1枚あたり約40〜50米ドル(約280〜350人民元)かかります。

Adobe は、ACM が後援するコンピュータ グラフィックスのトップ ジャーナルである TOG でも取り上げられ、多くの議論と注目を集めました。興奮したネットユーザーからは「3連続」のコメントが寄せられた。

信じられない。すごい。すごい。すごい。

単純なズームではありません

遠近法の原理により、前景は背景よりも劇的に移動/ズームします。

そのため、前景が動くと、背景も動くだけでなく、修復する必要が出てきます。

AI による背景の修復は非常に自然で、その技術は明らかに以前のものよりも進歩しています。

トップジャーナル">

△教会は奇妙な形をしている

さらに、背景がどんなに単純でも複雑でも、AI は何も恐れません。

たとえば、ソファに向かって歩くと、ソファの後ろの窓の外の芝生が見えなくなります。

トップジャーナル">

背景は色彩も構造も複雑でしたが、AIは騙されませんでした。

先ほどの視点の変化が、単に遠くから近くへの変化だと思ったら、それほど複雑ではありません。これらの古代の階段を見てみましょう:

トップジャーナル">

まるで階段を上ろうとしているかのように、階段の方向へ向かい、ゆっくりと振り返っています。

また、立っている場所には古代の回廊があり、上を見上げる視点からまっすぐ前を見る視点に変わっているようです。

トップジャーナル">

もちろん風景だけでなくポートレートも加工可能です。

たとえば、芝生の上の花嫁は遠くから眺めることも、近くで鑑賞することもできます。

トップジャーナル">

冒頭で述べたように、すべての変換は 1 つの静止画像だけで完了します。

当然ながら、これは通常のズームでは実現できないものです。

トップジャーナル">

△左が通常のズーム、右が3Dマジック

それで、これはどのような技術によって実現されるのでしょうか?

コンテキスト認識と組み合わせて3つのステップで境界を決定する

1 つの画像からリアルなカメラの動きの効果を合成するには、2 つの基本的な問題を解決する必要があります。

まず、新しいカメラ位置が設定され、新しいビューが合成され、元のビューのシーンのジオメトリを正確に復元する必要があります。

次に、予測されたシーンのジオメトリに基づいて、新しいビューを連続したタイムライン上で合成する必要があり、これにはオクルージョン除去などの画像復元技術が含まれます。

トップジャーナル">

研究者らは、処理フレームワークを構築するために 3 つのニューラル ネットワークを使用しました。

トレーニングに使用されるデータセットはコンピューターによって生成されます。研究者らは、UE4 Marketplace2 から 32 の仮想環境を収集し、仮想カメラを使用して 32 の環境で屋内シーン、都市シーン、田舎のシーン、自然シーンなど134,041 のシーンをキャプチャしました。各シーンには 4 つのビューが含まれており、各ビューには 512×512 ピクセルの解像度のカラー マップ、深度マップ、法線マップが含まれています。

トップジャーナル">

高解像度の画像が与えられた場合、まずその低解像度バージョンに基づいて大まかな深度が推定されます。このステップは VGG-19 によって実装され、VGG-19 によって抽出された意味情報は深度推定ネットワークのトレーニングをガイドし、グラウンドトゥルースを含むコンピューター生成データセットによって監視されます。このようにして、元の画像の深度マップを抽出できます。

2番目のネットワークはMask R-CNNです。意味的歪みを回避するために、VGG-19 と並行して、Mask R-CNN を使用して入力高解像度画像をセグメント化し、セグメント化の結果を使用して深度マップを調整し、画像内の各オブジェクトが一貫した平面にマッピングされるようにします。

最後に、抽出された大まかな深度は、入力された高解像度画像を参照して深度改良ネットワークを使用してアップサンプリングされ、より正確な深度境界が確保されます。

トップジャーナル">

ディープ リファインメント ネットワークを使用する理由は、オブジェクトのカット処理中に、オブジェクトが境界で引き裂かれる可能性が高いためです。

入力画像から取得したポイント クラウドと深度マップ (注: ポイント クラウドとは、3D スキャンによって取得したオブジェクトの表面上の点データの集合を指します) を使用して、連続した新しいビューをレンダリングできます。

しかし、ここで新たな問題が発生します。仮想カメラが前進すると、オブジェクト自体に亀裂が生じます (下の写真のタワーの右側はグリッドで切り取られているように見えます)。

トップジャーナル">

この問題に対処するために、研究者らはコンテキスト認識修復を組み合わせたアプローチを採用しました。

コンテキスト情報を組み込むことで、より高品質の合成ビューを生成できます。コンテキスト情報は、入力画像内の対応するピクセル位置の近傍を定義するため、コンテキスト情報を使用してポイント クラウド内の各ポイントを拡張できます。

具体的には、最初のステップは、色と深度の画像の修復を実行して、不完全なレンダリングから完全に新しいビューを復元することです。各ピクセルには、色、深度、コンテキスト情報が含まれます。

次に、画像復元深度を使用して、画像復元色をポイント クラウド内の新しい色相点にマッピングします。

このプロセスは、ポイント クラウドが完全に拡張され、ギャップが埋められるまで繰り返され、完全で連続した画像をリアルタイムで表示できるようになります。

トップジャーナル">

「みんないいって言うよ」

研究者がそれが良いと思うなら、それは良いことではありません。新しい方法の有効性は依然としてユーザーに依存します。

そこで研究チームは「非公式のユーザー調査」を実施しました。研究者らはYouTubeで人間が作成したケン・バーンズの3D動画30本を収集し、「風景」、「ポートレート」、「屋内」、「人工屋外環境」の4つのグループに分け、各グループからサンプルとしてランダムに3本の動画を選択しました。

このテストには 8 人のボランティアが参加しました。チームは各ボランティアに静止画像を割り当て、参考として人間の作品を提供し、新しい方法と 2 つの Ken Burns 制作ツール (Adobe After Effects テンプレートとモバイル アプリ Viewmee) を使用して同様の効果を作成するようにボランティアに依頼しました。

ボランティアは主観的な意見に基づいて各ツールの使いやすさと品質を評価します。

トップジャーナル">

ボランティアの意見では、Adobe のこの新しいツールは、効果と使いやすさの両面で明らかに優れています。

Adobe からのインターン(現在は Google に異動)

この研究の筆頭著者は、コンピュータービジョンとディープラーニングを研究しているポートランド州立大学の博士課程の学生、サイモン・ニクラウス氏です。

彼は Adob​​e Research でインターンをしながらこの仕事を完了し、現在は Google でインターンをしています。

トップジャーナル">

彼の博士課程の指導教官であるフェン・リウ氏はウィスコンシン大学マディソン校で博士号を取得し、現在はポートランド州立大学の助教授であり、この研究の著者の一人です。

さらに、この研究には Adob​​e の研究科学者である Long Mai 氏と Jimei Yang 氏という 2 人の著者もいます。

トップジャーナル">

Simon Niklaus 氏も、Hacker News でネットユーザーと交流する際に、この研究のオープンソース計画について語りました。

同氏はコードとデータセットを公開する予定だが、まだ承認は得ていないと述べた。この作業は「インターン」によって行われたため、Adobe はオープンソースに関しては比較的寛大です。

もちろん、これは商業化の可能性を排除するものではありません。この研究に興味がある方は、まず研究論文を読んでみてください。

一枚の画像から3Dケン・バーンズ効果を実現

https://arxiv.org/abs/1909.05483

もう一つ……

ケン・バーンズ効果に関しては、スティーブ・ジョブズの話もあります。

この特殊効果をアップル社で使用すべく、ジョブズはケン・バーンズに連絡を取り、許可を求めた。

当初、バーンズ氏は自分の名前が商業化されることを望まなかったため拒否した。

しかし後にバーンズ氏はジョブズ氏の要請に同意したことを明らかにした。

[[276910]]トップジャーナル">

その間に何が起こったのかについては、あまり情報が伝えられていない。

現在、このエフェクトはiPhoneで広く使用されています。たとえば、写真の「思い出」機能では、この特殊効果を使用して、写真を自動的にビデオに変換できます。

これもバーンズに多くの「トラブル」をもたらした。

道を歩いていると、見知らぬ人が駆け寄ってきて、iPhone の使い方を教えてくれたり、質問してきたりすることもあると彼は語った。

そういった状況では、彼は常にその場から素早く逃げようと全力を尽くしたと語った。芸能人がサセンファンに会うのと似ています。

えーっと……

<<:  人民日報:教室規律における顔認識は目的ではなく手段

>>:  人工知能はすべての人のキャリアを置き換えるわけではないが、新たな雇用機会も生み出すだろう

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

数千人を対象とした調査: AI に対する一般の認識はどのようなものでしょうか?

人工知能は世界を変えようとしていますが、問題は、それがどのように起こるのか誰も正確には知らないことで...

...

MITの研究者らが、致命的な出血を止めるためにAIを活用するハンドヘルドロボットを開発

救急医療においては、「ゴールデンタイム」を捉えることが非常に重要です。たとえば、外傷患者(特に重度の...

数千億ドル規模の市場:教育用ロボットは本当に実現可能か?

[[341606]]ある調査では、2025年までに中国の教育用ロボット市場は3000億ドルに達し、...

2019年ディープラーニングフレームワークランキング(トップ10からトップ3まで)

【51CTO.comオリジナル記事】 1. 前に書く5Gは2019年上半期の輝く「星」と言えるが、...

1つのGPUで数千の環境と800万ステップのシミュレーションをわずか3秒で実行。スタンフォード大学が強力なゲームエンジンを開発

この段階では、AI エージェントは万能であるように見え、ゲームをプレイしたり、人間を模倣してさまざま...

...

DeepTraffic: MIT シミュレーション ゲームがディープラーニングを使用して交通渋滞を緩和

[[196857]]渋滞に巻き込まれるのはイライラするだけでなく、費用もかかります。頭痛の原因になっ...

人工知能はディープラーニング技術を使用して先進運転支援システム(ADAS)を強化します

翻訳者 |李睿レビュー | Chonglou人工知能と機械学習は、ディープラーニング技術の力を活用し...

清華大学は、大規模な事前トレーニングなしで効率的なNLP学習フレームワークTLMを提案

[[435029]]最近、清華大学の研究者たちは、シンプルで効率的な NLP 学習フレームワークを提...

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

近年、拡散モデルはテキストから画像への生成において大きな成功を収め、画像生成品質の向上、推論パフォー...

...

ドローンは倉庫・物流業界の発展をどのように加速させているのでしょうか?

屋内ドローンは、新しい未知の市場でどのようにその有用性を証明できるでしょうか?ドローンは無人自律航空...

人工知能教師向けの類似質問の作成

類似の質問とは何ですか? また、なぜ類似の質問を書く必要があるのですか?類似質問はロボット教育を改善...