Adobe のインターンのインテリジェントな被写界深度アルゴリズム: 2D 画像を 3 秒で 3D に変換し、視点をスムーズかつ自然に変化させます

Adobe のインターンのインテリジェントな被写界深度アルゴリズム: 2D 画像を 3 秒で 3D に変換し、視点をスムーズかつ自然に変化させます

[[276909]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

まるで一瞬でぶつかってしまうかのように、どんどんサンゴ礁に近づいていきます。

しかし、このアニメーション画像は人間が撮影したビデオからキャプチャされたものではありません。

この静止写真を3D の写真に変えるのは、Adobe の新しい魔法です。このプロセス全体はわずか 2 ~ 3 秒で完了します。

トップジャーナル">

この特殊効果処理はドキュメンタリーやその他のビデオのポストプロダクションでよく使用され、ケン・バーンズ効果と呼ばれています。

元々は単なる 2D ズーム (下の画像の左) でしたが、静止画像を平行移動およびズームして視差を作り出すことでアニメーション効果を実現しました。

トップジャーナル">

しかし、Adobe の 3D 効果 (右上) には、移動やズームだけでなく、遠近感の変換も備わっており、より没入感のある体験を提供します。

これを実現するには、プロのデザイナーは Photoshop などのソフトウェアで数時間を費やす必要があります。

そして、制作コストも非常に高く、写真1枚あたり約40〜50米ドル(約280〜350人民元)かかります。

Adobe は、ACM が後援するコンピュータ グラフィックスのトップ ジャーナルである TOG でも取り上げられ、多くの議論と注目を集めました。興奮したネットユーザーからは「3連続」のコメントが寄せられた。

信じられない。すごい。すごい。すごい。

単純なズームではありません

遠近法の原理により、前景は背景よりも劇的に移動/ズームします。

そのため、前景が動くと、背景も動くだけでなく、修復する必要が出てきます。

AI による背景の修復は非常に自然で、その技術は明らかに以前のものよりも進歩しています。

トップジャーナル">

△教会は奇妙な形をしている

さらに、背景がどんなに単純でも複雑でも、AI は何も恐れません。

たとえば、ソファに向かって歩くと、ソファの後ろの窓の外の芝生が見えなくなります。

トップジャーナル">

背景は色彩も構造も複雑でしたが、AIは騙されませんでした。

先ほどの視点の変化が、単に遠くから近くへの変化だと思ったら、それほど複雑ではありません。これらの古代の階段を見てみましょう:

トップジャーナル">

まるで階段を上ろうとしているかのように、階段の方向へ向かい、ゆっくりと振り返っています。

また、立っている場所には古代の回廊があり、上を見上げる視点からまっすぐ前を見る視点に変わっているようです。

トップジャーナル">

もちろん風景だけでなくポートレートも加工可能です。

たとえば、芝生の上の花嫁は遠くから眺めることも、近くで鑑賞することもできます。

トップジャーナル">

冒頭で述べたように、すべての変換は 1 つの静止画像だけで完了します。

当然ながら、これは通常のズームでは実現できないものです。

トップジャーナル">

△左が通常のズーム、右が3Dマジック

それで、これはどのような技術によって実現されるのでしょうか?

コンテキスト認識と組み合わせて3つのステップで境界を決定する

1 つの画像からリアルなカメラの動きの効果を合成するには、2 つの基本的な問題を解決する必要があります。

まず、新しいカメラ位置が設定され、新しいビューが合成され、元のビューのシーンのジオメトリを正確に復元する必要があります。

次に、予測されたシーンのジオメトリに基づいて、新しいビューを連続したタイムライン上で合成する必要があり、これにはオクルージョン除去などの画像復元技術が含まれます。

トップジャーナル">

研究者らは、処理フレームワークを構築するために 3 つのニューラル ネットワークを使用しました。

トレーニングに使用されるデータセットはコンピューターによって生成されます。研究者らは、UE4 Marketplace2 から 32 の仮想環境を収集し、仮想カメラを使用して 32 の環境で屋内シーン、都市シーン、田舎のシーン、自然シーンなど134,041 のシーンをキャプチャしました。各シーンには 4 つのビューが含まれており、各ビューには 512×512 ピクセルの解像度のカラー マップ、深度マップ、法線マップが含まれています。

トップジャーナル">

高解像度の画像が与えられた場合、まずその低解像度バージョンに基づいて大まかな深度が推定されます。このステップは VGG-19 によって実装され、VGG-19 によって抽出された意味情報は深度推定ネットワークのトレーニングをガイドし、グラウンドトゥルースを含むコンピューター生成データセットによって監視されます。このようにして、元の画像の深度マップを抽出できます。

2番目のネットワークはMask R-CNNです。意味的歪みを回避するために、VGG-19 と並行して、Mask R-CNN を使用して入力高解像度画像をセグメント化し、セグメント化の結果を使用して深度マップを調整し、画像内の各オブジェクトが一貫した平面にマッピングされるようにします。

最後に、抽出された大まかな深度は、入力された高解像度画像を参照して深度改良ネットワークを使用してアップサンプリングされ、より正確な深度境界が確保されます。

トップジャーナル">

ディープ リファインメント ネットワークを使用する理由は、オブジェクトのカット処理中に、オブジェクトが境界で引き裂かれる可能性が高いためです。

入力画像から取得したポイント クラウドと深度マップ (注: ポイント クラウドとは、3D スキャンによって取得したオブジェクトの表面上の点データの集合を指します) を使用して、連続した新しいビューをレンダリングできます。

しかし、ここで新たな問題が発生します。仮想カメラが前進すると、オブジェクト自体に亀裂が生じます (下の写真のタワーの右側はグリッドで切り取られているように見えます)。

トップジャーナル">

この問題に対処するために、研究者らはコンテキスト認識修復を組み合わせたアプローチを採用しました。

コンテキスト情報を組み込むことで、より高品質の合成ビューを生成できます。コンテキスト情報は、入力画像内の対応するピクセル位置の近傍を定義するため、コンテキスト情報を使用してポイント クラウド内の各ポイントを拡張できます。

具体的には、最初のステップは、色と深度の画像の修復を実行して、不完全なレンダリングから完全に新しいビューを復元することです。各ピクセルには、色、深度、コンテキスト情報が含まれます。

次に、画像復元深度を使用して、画像復元色をポイント クラウド内の新しい色相点にマッピングします。

このプロセスは、ポイント クラウドが完全に拡張され、ギャップが埋められるまで繰り返され、完全で連続した画像をリアルタイムで表示できるようになります。

トップジャーナル">

「みんないいって言うよ」

研究者がそれが良いと思うなら、それは良いことではありません。新しい方法の有効性は依然としてユーザーに依存します。

そこで研究チームは「非公式のユーザー調査」を実施しました。研究者らはYouTubeで人間が作成したケン・バーンズの3D動画30本を収集し、「風景」、「ポートレート」、「屋内」、「人工屋外環境」の4つのグループに分け、各グループからサンプルとしてランダムに3本の動画を選択しました。

このテストには 8 人のボランティアが参加しました。チームは各ボランティアに静止画像を割り当て、参考として人間の作品を提供し、新しい方法と 2 つの Ken Burns 制作ツール (Adobe After Effects テンプレートとモバイル アプリ Viewmee) を使用して同様の効果を作成するようにボランティアに依頼しました。

ボランティアは主観的な意見に基づいて各ツールの使いやすさと品質を評価します。

トップジャーナル">

ボランティアの意見では、Adobe のこの新しいツールは、効果と使いやすさの両面で明らかに優れています。

Adobe からのインターン(現在は Google に異動)

この研究の筆頭著者は、コンピュータービジョンとディープラーニングを研究しているポートランド州立大学の博士課程の学生、サイモン・ニクラウス氏です。

彼は Adob​​e Research でインターンをしながらこの仕事を完了し、現在は Google でインターンをしています。

トップジャーナル">

彼の博士課程の指導教官であるフェン・リウ氏はウィスコンシン大学マディソン校で博士号を取得し、現在はポートランド州立大学の助教授であり、この研究の著者の一人です。

さらに、この研究には Adob​​e の研究科学者である Long Mai 氏と Jimei Yang 氏という 2 人の著者もいます。

トップジャーナル">

Simon Niklaus 氏も、Hacker News でネットユーザーと交流する際に、この研究のオープンソース計画について語りました。

同氏はコードとデータセットを公開する予定だが、まだ承認は得ていないと述べた。この作業は「インターン」によって行われたため、Adobe はオープンソースに関しては比較的寛大です。

もちろん、これは商業化の可能性を排除するものではありません。この研究に興味がある方は、まず研究論文を読んでみてください。

一枚の画像から3Dケン・バーンズ効果を実現

https://arxiv.org/abs/1909.05483

もう一つ……

ケン・バーンズ効果に関しては、スティーブ・ジョブズの話もあります。

この特殊効果をアップル社で使用すべく、ジョブズはケン・バーンズに連絡を取り、許可を求めた。

当初、バーンズ氏は自分の名前が商業化されることを望まなかったため拒否した。

しかし後にバーンズ氏はジョブズ氏の要請に同意したことを明らかにした。

[[276910]]トップジャーナル">

その間に何が起こったのかについては、あまり情報が伝えられていない。

現在、このエフェクトはiPhoneで広く使用されています。たとえば、写真の「思い出」機能では、この特殊効果を使用して、写真を自動的にビデオに変換できます。

これもバーンズに多くの「トラブル」をもたらした。

道を歩いていると、見知らぬ人が駆け寄ってきて、iPhone の使い方を教えてくれたり、質問してきたりすることもあると彼は語った。

そういった状況では、彼は常にその場から素早く逃げようと全力を尽くしたと語った。芸能人がサセンファンに会うのと似ています。

えーっと……

<<:  人民日報:教室規律における顔認識は目的ではなく手段

>>:  人工知能はすべての人のキャリアを置き換えるわけではないが、新たな雇用機会も生み出すだろう

ブログ    
ブログ    
ブログ    

推薦する

自動車AI市場は2027年までに70億ドルに達する

世界の自動車人工知能市場規模は、2022年の23億米ドルから2027年には70億米ドルに成長すると予...

この日本のAIは話題になっています: スケッチを2Dの妻にリアルタイムで変換でき、512の調整可能なパラメータがあります

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Google の自動運転車は「先​​天的な欠陥」があるが、その商品化は「中止」の運命を免れるだろうか?

[[248486]]グーグルの自動運転車開発会社ウェイモはすでに試験的な移動サービスの一部を有料化...

シャッフルアルゴリズムの2つの実装の比較

方法1: ランダム生成まず、非常に一般的な方法であるランダム生成法(私が名付けました)を紹介します。...

自動運転の安全性の問題をどう解決するのか?まずは名前を変えてみましょう。

現在、新世代情報技術の急速な発展に伴い、自動運転をはじめとした新興産業がますます台頭しています。世界...

大規模言語モデルに基づくインテリジェントエージェントのモデリングとシミュレーション:レビューと展望

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

自動運転のテストが加速:北京と上海が重要なニュースを発表

2018 年後半には、自動運転とインテリジェント コネクテッド ビークルの市場が活況を呈しました。昨...

AIの第一人者ジェフ・ディーン氏がGoogleのAI事業を統括

Googleの人工知能事業のトップレベルで人事異動があった。19年間Googleに在籍してきた人工知...

...

快手 - ICIP 2019 モバイルビデオ修復コンテストの登録開始

最近、Kuaishou-ICIP 2019モバイルビデオ復元コンテストの登録が正式に開始されました。...

賈強淮: Ant大規模知識グラフの構築とその応用

1. アトラスの概要まず、ナレッジグラフの基本的な概念をいくつか紹介します。 1. ナレッジグラフと...

小さなバッチがディープラーニングの一般化を高める理由

バッチ サイズは、機械学習における重要なハイパーパラメータの 1 つです。このハイパーパラメータは、...

...

「2018年中国人工知能サミット」が9月6日に南京で開催される。

人工知能は未来をリードする戦略的技術として、世界の産業構造、経済活動、都市形態、そして人間のライフス...

マスク氏:ヒューマン・マシン・インターフェース技術は「間もなく利用可能になる」、人間のIQはAIに匹敵する

イーロン・マスク氏は、人工知能が人類にもたらす避けられない課題に対処するためには、人間が機械と「つな...