携帯電話の AI 技術を使って撮影した写真は、本当に一眼レフカメラで撮影した写真に匹敵するのでしょうか?

最新世代のスマートフォンに搭載されつつある 3D センサーは、機械学習によって解き放たれた写真撮影技術の波のほんの先端に過ぎず、スマートフォンの写真の欠点を修正するだけでなく、写真撮影に驚くべき新しい要素をもたらすでしょう。スマートフォンの時代になって、写真撮影は、ポーズの取り方（自撮りなど）だけでなく、カメラが光を捉える方法も変化しました。

カメラはもはや単なるレンズとセンサーではありません。画像を瞬時に処理できる一連のアルゴリズムが統合されており、デスクトップソフトウェアでは何時間もかかるような写真効果が得られます。写真撮影はコンピューティングの科学になりました。

人工知能 (AI) 機械学習の継続的な進歩により、今日のスマートフォンの写真が時代遅れになるような機能がさらに増えるでしょう。

海外メディアは、今日のモバイル写真技術を反映した例として、アルファベット傘下のグーグルのスマートフォン「Pixel 3」の写真や、アップルの「iPhone X」の写真などを挙げている。 Pixel 3 では、Google は機械学習を使用して、暗い場所でもより詳細な情報をキャプチャし、夜景を昼間のように再現します。これらは自然界に存在したことのないショットであり、完全に超解像度の写真です。

2017年のiPhone Xから、Appleは焦点が合っていない部分を微妙にぼかす「ボケ」機能を追加しました。これは、従来の写真撮影のようにレンズ自体の機能ではなく、画像を撮影した後にピクセルを計算で調整することで実現されます。

ティルトシフトカメラ

2019 年と 2020 年の画期的な開発は、画像の遠近感を操作することで改善される可能性が最も高いと予測しています。これにより、スマートフォンの写真に固有の歪みの問題が解決され、DSLR カメラの写真に比べてスマートフォンの画質が劣ることが期待されます。

畳み込みニューラルネットワーク（CNN）が画像から現実を再構築しようとするプロセス

実際、「ティルトシフト」カメラと同様の効果を実現できます。ティルトシフトカメラでは、レンズの角度を調整して、カメラの前に立つ人物の角度を補正し、人物とシーンの間の角度によって生じる画像の歪みを修正します。 SLR ユーザーは、さまざまなベンダーが提供するさまざまな取り外し可能なレンズにティルトシフト機能を実装できます。

一般的な携帯電話のカメラのレンズバレルは非常に小さいため、撮影した画像はすべて歪んでしまいます。現実の世界では、完璧な形は存在しません。おそらくほとんどの人は気づかないか、Instagram での自撮りに慣れているので気にしないでしょう。しかし、これらの歪みが改善されれば良いでしょう。これが実現できれば、GoogleやAppleなどの企業の次期スマートフォンの大きなセールスポイントとなるだろう。

iPhone やその他の携帯電話には、3D センサーを備えた背面カメラが搭載されることが多くなります。ルメンタム・ホールディングスなどの企業やその他のチップサプライヤーが製造するセンサーは、光線を発射し、それが物体に反射してどのように携帯電話に戻ってくるかを計算することで、携帯電話の周囲の奥行きを測定する。「タイム・オブ・フライト」などの技術により、携帯電話は周囲の3次元構造を詳細に測定できるようになります。

これらのセンサーは、2次元画像と現実世界の関係を理解するために近年行われてきた広範な統計作業を活用することができます。

Google Pixel 3 スマートフォンの Night Sight

特別なカメラ設定の有無にかかわらず、ティルトシフトレンズの物理的特性を実現するために、多くの統計作業が行われてきました。たとえば、ランダムサンプルコンセンサス (RANSAC) と呼ばれる手法は 1981 年にさかのぼり、2D 画像と 3D の現実世界との関係を理解するために、2D 画像平面上の点にマッピングできる 3D 世界のランドマークを見つけるために特別に設計されました。この技術を使用すると、2D 表現が現実世界とどのように対応しているかをよりよく理解できるようになります。

2015年、フィレンツェ大学の研究グループは、RANSAC技術に基づいてカメラで撮影した写真をリバースエンジニアリングし、パン・チルト・ズームカメラの構造を導き出しました。彼らはソフトウェアを使用して、さまざまなカメラの位置が歪みを引き起こす程度を分析し、カメラを制御するアクチュエータを理想的な状態に効果的に調整することができました。この技術は、静止画だけでなく動画にも使用できます。

2017年、ドイツのエアランゲン・ニュルンベルク大学とウッズホール海洋研究所の研究者らは、撮影した画像から逆算することで現実世界の物体の実際のサイズを推定できるCameraTransformというPythonライブラリを実演した。

あらゆる角度から見る: 研究者は画像内の遮蔽された物体を推測するニューラルネットワークを開発

昨年、ミュンヘン工科大学とキヤノンの研究者らは、写真を1枚撮るだけで、別の物体に隠れたシーンに何が写っているかを推測できることを示した。「レイヤード・デプス・イメージング」と呼ばれるこの技術は、写真から物体を取り除くことで新しいシーンを作り出し、カメラが見たことのない背景を画像計算によって表現することができる。この方法では、多くのニューラルネットワークアプリケーションで一般的なエンコードおよびデコード方法を使用してシーンの深度を推定し、さらに「生成的敵対的ネットワーク」(GAN) を使用して、写真が撮影されたときには実際には見えなかったシーンの部分を構築します。

こうした研究はすべて進行中であり、3D センサーを搭載した次世代のスマートフォンカメラに結実し、驚くべき機能を実現することになります。この種の研究は驚くべき結果を生み出すはずです。少なくとも、スマートフォンで撮影したポートレートに、顔の奇妙な歪みがなくなることは想像に難くありません。超解像度の建築画像では、レンズからの歪みをすべて除去して平行線を作成することが可能になります。携帯電話が驚くほどの正確さとリアリズムの写真を大量に撮影できるようになると、スマートフォン業界は一眼レフカメラとの戦いで新たな勝利を収めることができるだろう。

しかし、スマートフォンでの写真撮影の長期的な傾向は、リアリズムから離れ、より印象的な効果を実現することに向かっていることは確かです。これは、コンピュテーショナルフォトグラフィーの登場以前には想像もできなかったことです。その結果、3D センシング技術の応用はハイパーリアリズムへと向かう傾向にあると考えられます。

たとえば、ティルトシフトカメラを使用すると、被写界深度を極端に減らして風景をおもちゃの模型のように見えるようにするなど、驚くほど美しい効果を生み出すことができますが、その効果は驚くほど優れています。同様のことができるモバイルアプリもありますが、3Dセンサーと人工知能テクノロジーを組み合わせた効果は、それらのアプリで実現できるものをはるかに超えます。ティルトシフトを実現するテクノロジーはPhotoshopにもあります。しかし、シャッターボタンを押すたびに同じ効果を生み出すカメラの方が間違いなく満足感があります。

人工知能だけに頼ることは可能でしょうか？

今後、機械学習技術の進歩において、もう一つの重要な段階が訪れるでしょう。 3D センサーの使用をやめて、畳み込みニューラルネットワーク (CNN) だけを使用して空間内の物体の座標を推測するようになる可能性もあります。そうすれば、携帯電話にセンサーをインストールする費用を節約できます。

しかし、マイクロソフトの研究者と学術協力者が今週発表したレポートで議論しているように、このソフトウェアのみのアプローチは現時点では成功が限られている。絶対姿勢回帰と呼ばれるソフトウェアのみのアプローチは、トレーニング後に一般化されなかったと研究者らは書いている。つまり、畳み込みニューラルネットワークがどんなスキルを習得したとしても、新しい画像でテストしたときに形状を正確に推定できなかったということだ。

報告書の著者らは、自分たちの研究がソフトウェアのみのアプローチに対する「重要な健全性チェック」になると考えている。彼らは、「ポーズ回帰法が実用的になるまでには、まだ長い道のりがある」と結論付けました。

この作業はどのように達成されるのでしょうか?研究者だけに頼らないでください。非常に多くのスマートフォンユーザーの参加が必要になります。 3D センサーを搭載した新しい携帯電話では、3D センシングによって強化された印象的な画像を撮影できるようになります。そうすることで、デバイスまたはクラウドは、現実世界の幾何学と 2D 画像の関係を追跡します。

言い換えれば、このすべての活動を利用して学習を続け、ある日、十分な数の 3D 画像があれば、畳み込みニューラルネットワークまたは使用されるその他のアルゴリズムは、奥行き知覚を提供する 3D センサーの助けがなくても、世界を見て世界がどのように見えるかを正確に認識できるほど賢くなるでしょう。

<<: 中国移動研究所のチャン・ヤオビン氏：AI時代の技術マネージャーとして、戦闘能力とは何でしょうか？

>>: JS データ構造とアルゴリズム_ソートおよび検索アルゴリズム