この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 マウスのおもちゃとカレンダー定規の間で写真の焦点距離を自由に切り替えることができます。 写真内の任意のオブジェクトに焦点を合わせることもでき、さまざまな深度にあるさまざまなオブジェクトの写真を表示できます。 この魔法の絵は「すべての物体情報」を統合したホログラムです。 このタイプのホログラムを生成するには、多くの場合、多くの計算が必要になります。 しかし、MITのチームは、複雑な機器や数時間の待ち時間を必要とせず、スマートフォンでこのようなホログラムを生成するのに1秒もかからない新しいアルゴリズムを開発しました。 ご存知のとおり、昨年 11 月、サムスンの科学者が 3D ホログラフィック ビデオを生成するために使用したプロセッサは、携帯電話に組み込むにはまだ大きすぎました。 では、3D ホログラムを素早く生成するこの方法はどのようにして実現されるのでしょうか? ニューラルネットワークを使用して「ケーキを素早く切る」まず、ホログラムとは何でしょうか? たとえば、Visa クレジットカードの鳩は、偽造防止マークとしてホログラムを使用しています。
ホログラムは「すべての情報」を意味し、この画像には物体の振幅情報と位相情報の両方が含まれています。 通常のカメラで撮影した写真には、被写体の振幅情報(明るさや暗さ)しか記録されず、位相情報(距離)を直接保存することはできません。 私たちが普段目にする2D写真に「立体感がない」と感じるのもこのためです。 以前は、コンピューターが 360° ホログラムを生成する場合、通常は複数の角度から干渉と回折を行い、位相情報をつなぎ合わせて振幅情報と重ね合わせて画像を生成する必要がありました。 複数の角度から位相情報を生成することは、球形のケーキに 8 つの正確な切り込みを入れて 8 つの部分に分割し、各部分の位相を再現するようなものです。 しかし、この方法では膨大な計算量が必要となり、時間がかかり、スマートフォンで実行することはまったく不可能です。 そこで、MIT チームは、ディープラーニング手法を使用して、3 つの角度だけを使用して「ケーキ」を 8 つに分割し、ホログラムを生成できるのではないかと考えました。 研究者たちは、ニューラル ネットワークをトレーニングするために、振幅と位相の情報を含む 4,000 枚の画像と、これらの画像に対応する 3D ホログラムを慎重に選択しました。 全体的な考え方は次のとおりです。オブジェクトの位相情報を取得した後、ポイント クラウドが生成され、残差ニューラル ネットワークと組み合わせて全体的なホログラムが生成されます。 それで、このホログラムはどのように機能するのでしょうか? あらゆるオブジェクトにフォーカスでき、メモリ使用量は1MB未満ニューラル ネットワークを使用して予測を行う場合、ホログラムを生成するのに必要なメモリは640 KB未満であることがわかりました。 このニューラル ネットワーク モデルをコンシューマー グレードの GPU で使用すると、1 秒あたり1080pの解像度で 60 色の 3D ホログラムを生成できます。 iPhone 11 Pro などのスマートフォンでは、1 秒あたり1.1 個のホログラムを生成できます。Google Edge TPU では、1 秒あたり2 個のホログラムを生成できます。 アニメキャラクターの Big Buck Bunny を例に挙げてみましょう。その深度マップは右下隅にあります。 図からわかるように、ニューラル ネットワークを使用して生成されたホログラフィック画像 (右) は、元の方法を使用して生成されたホログラフィック画像 (左) とほぼ同じです。 さらに、遠くの小さな黄色い花でも、近くのウサギの目でも、すべて完璧に焦点を合わせることができます。 表面的には同じに見えても、振幅と位相の情報はどうでしょうか? 図からわかるように、ニューラル ネットワークによって予測された振幅と位相の情報も真の値に非常に近いです。 実際の写真も、実際に生成されたターゲットに非常に近いです。 もちろん、細かい部分では若干の違いはありますが。 既存の VR および AR ソリューションと比較して、3D ホログラムは 3D 視覚化のための別の実装ソリューションです。 しかし、VR を使用する場合、ユーザーは実際には 2D ディスプレイを見つめているため、3D の錯覚が生じ、視覚疲労やめまいなどの症状を経験する可能性があります。 3D ホログラムにより、目の焦点を調整し、前景と背景に交互に焦点を合わせることが可能になり、この症状を効果的に緩和できます。 次に、チームは視線追跡技術を追加して、ユーザーの視線がどこを向いていても部分的な高解像度ホログラムが生成されるようにします。 この方式では、コンピューターはホログラムを部分的に生成するだけでよく、リアルタイムで使用すると効果はより速く、より良くなります。 また、この研究はソニーがスポンサーになったので… 著者について論文の筆頭著者である Shi Liang 氏は、2014 年に北京航空航天大学を卒業し、スタンフォード大学で修士号を取得しました。現在は MIT の博士課程に在籍しています。彼の研究分野には、VR/AR、機械学習、コンピューター グラフィックスなどがあります。 論文の2番目の著者であるLi Beichen氏は、2018年に清華大学を卒業し、現在はMITの博士課程に在籍しています。彼の研究分野は、コンピューターグラフィックスにおける機械学習の応用です。 論文の宛先: |
>>: 人工知能はビッグデータ天体物理学の時代へのマスターキーとなるのでしょうか?
研究者にとって、適切な形状を選択することは、ロボットが特定の地形を移動できる能力にとって非常に重要で...
大規模言語モデルは最近、かつてないほどの注目を集めています。急速に変化する環境において、オープンソー...
データ侵害が頻繁に起こるようになるにつれて、IT セキュリティの重要性がますます高まります。幸いなこ...
今後 15 年間で、人工知能によって米国の雇用が 40% から 50% 減少すると私は予測しています...
現在、機械学習のためのアルゴリズムは数多く存在します。初心者にとってはかなり圧倒されるかもしれません...
11月19日、北京で「百度銀行&百度クラウドAI+銀行金融技術シンクタンク」が開催されました。カンフ...
スマートホームはテクノロジーを活用して、居住者にさらなる利便性、節約、快適性、セキュリティを提供しま...
[[154315]]決定木分類アルゴリズム決定木誘導は古典的な分類アルゴリズムです。これは、トップダ...
インテリジェント製造は、世界中の工業製造企業が追求する目標です。インテリジェント化のプロセスには、設...