AIが光子の時間を3D画像に変換し、時間の経過による世界を視覚化する

AIが光子の時間を3D画像に変換し、時間の経過による世界を視覚化する

[[337082]]

最近、グラスゴー大学コンピューティング科学学部のデータサイエンス研究者であるアレックス・ターピン博士が率いる研究チームが、光子の空間座標ではなく時間情報を捉えて画像化する新しい3D画像化手法を開発しました。

AI を使って時間を 3 次元の空間視覚に変換するこのアプローチは、自動車、モバイル デバイス、健康モニタリング デバイスなどのデバイスの 360 度認知機能の向上に役立つ可能性があります。

この研究「時間データからの空間画像」は、Optica 誌に掲載されました。

論文リンク: https://arxiv.org/pdf/1912.01413.pdf

光子の時間情報から3D画像を生成し、高速な画像化速度を実現

私たちの生活の中で見られる写真やビデオは、多くの場合、デジタル センサーを使用して光の構成要素である光子を捉えることによって作成されます。たとえば、デジタル カメラは、空間のあらゆるポイントで光の強度と色を検出して画像を形成する数百万個のピクセルで構成されています。

被写体の周囲に 2 台以上のカメラを配置して複数の角度から撮影するか、オプティカルフローを使用してシーンをスキャンし、3 次元で再構築することで、3D 画像を生成できます。

[[337083]]

いずれにしても、私たちが撮影する写真やビデオは、シーンに関する空間情報を収集するだけで画像を構築します。

今回、研究者たちは光子の時間情報を利用して 3D 画像を生成しました。どのように実現したのでしょうか?

彼らの実験プロセスでは、光子のストップウォッチとして機能するように調整された、シンプルで安価な単一ピクセル検出器が使用されました。

この検出器は、一瞬のレーザーパルスによって生成された光子が特定のシーン内の各物体に反射してセンサーに到達するまでの時間を単純に記録します。物体が遠いほど、反射した光子がセンサーに到達するまでの時間は長くなります。

研究者が時間データと呼ぶ、シーンに反射された各光子のタイミングに関する情報は、非常に単純なグラフに収集されます。

これらの画像は、複雑なニューラル ネットワーク アルゴリズムの助けを借りて 3D 画像に変換されます。研究者らは、研究室内を動き回ったり物を運んだりするチームメンバーの通常の写真を何千枚も見せ、同時に単一ピクセル検出器で捕捉した時間データもアルゴリズムに見せて訓練した。

最終的に、ネットワークは時間データが写真とどのように対応しているかを十分に学習し、時間データのみから非常に正確な画像を作成できるようになります。

原理実証実験では、使用したハードウェアとアルゴリズムが 1 秒あたり数千枚の画像を生成する可能性があったにもかかわらず、研究者らは時間データから 1 秒あたり約 10 フレームの速度で動画を構築することに成功しました。

ターピン博士は、携帯電話のカメラは何百万ものピクセルを使って画像を形成すると述べた。空間情報のみを考慮すると、単一ピクセル検出器には情報がないため、単一ピクセルから画像を作成することは不可能です。しかし、そのような検出器は依然として時間に関する貴重な情報を提供することができます。私たちが実現できたのは、単純な時間測定である 1 次元データを、任意のシーンの 3 次元空間を表す動画に変換する新しい方法を見つけることでした。

チームのアプローチが従来の画像制作と異なる最も重要な点は、プロセスから光を完全に切り離していることです。

「この方法は、短いパルスでシーンを調査し、返ってくるエコーを正確に測定できるあらゆるシステムに適用でき、光ではなく時間を使って世界を視覚化するまったく新しい方法を可能にすると確信しています」とターピン氏は語った。

現在、ニューラル ネットワークの画像作成能力は、研究者が作成したシーンの時間データから選択するようにトレーニングされたものに限定されています。

しかし、さらなるトレーニングや、より高度なアルゴリズムの使用により、さまざまなシナリオを視覚化することを学習し、現実世界での潜在的な応用範囲を拡大することができます。

ターピン氏はさらに、「時間データを収集する単一ピクセル検出器は小型、軽量、そして安価であるため、自動運転車のカメラなどの既存のシステムに簡単に追加して、経路探索の精度と速度を向上させることができます。レーダー技術に基づくシンプルなジェスチャー認識システムをすでに備えている Google Pixel 4 などのモバイル デバイスの既存のセンサーを強化できます」と付け加えました。

<<:  スノーフレークアルゴリズムの実装原理を理解する

>>:  データセットはオンデマンドで簡単に検索できます。このツールには、無料で利用できる約 2,000 の画像データセットがあります。

ブログ    

推薦する

4 つの主要ビジネス分野における業界に関するインテルの詳細な洞察、アプリケーション事例、革新的な製品とソリューションの解釈 | Intel Vision

ポストパンデミックの時代において、在宅勤務によって従業員の生産性を最大限に引き出すにはどうすればいい...

ソフトウェア開発プロセスは、路上でのスマートカーの安全な運行を保証するものである。

2021年に入り、自動車の道路事故率を減らし、運転プロセスの快適性を向上させる先進運転支援システム...

この記事では、テンセントが独自に開発した汎用大規模言語モデル「Hunyuan Large Model」を紹介します。

2023年9月7日午前、テンセントグローバルデジタルエコシステムカンファレンスで、テンセントグルー...

JVM 世代別ガベージコレクションメカニズムとガベージコレクションアルゴリズム

[[433574]] 1. GCとは何かGC (ガベージ コレクション) ガベージ コレクションは、...

...

3つの興味深い写真: 負荷分散アルゴリズムの改善が必要

図1: 負荷分散アルゴリズムの改善が必要[[91541]]図2: 開発者対テスター、非常に奇妙な図[...

人工知能

[[200702]] 250年以上にわたり、技術革新は経済発展の根本的な原動力となってきました。これ...

シリコンバレーの天才たちの没落: 才能から始まり、利益に転落し、「賢さ」のせいで失敗した

若い才能、輝かしい経歴、上司からの評価、順調なキャリア、明るい未来...これらは、2016 年初頭に...

1000ステップ未満の微調整で、LLaMAコンテキストは32Kに拡張されました。これは、Tian Yuandongチームの最新の研究です。

誰もが独自の大規模モデルをアップグレードして反復し続けるにつれて、コンテキスト ウィンドウを処理する...

レゴブロックを積み上げるように: ニューラルネットワークの数学をゼロから説明する

ニューラル ネットワークは、線形モジュールと非線形モジュールを巧みに組み合わせたものです。これらのモ...

マイクロソフトCEOナデラ氏:私は4つの大きな変革を経験してきたが、AIは5番目だ

マイクロソフトのサティア・ナデラCEOは10月23日、メディアのインタビューで、同社はこれまで4つの...

ガンダムの運転をシミュレーションしますか? !優秀な学生が高度にシミュレーションされた運転体験ロボットシステムを発明し、白熱した議論を巻き起こした。

誰もがいつでもザクを操縦できるわけではありませんが、最近、優秀な大学生が「リモートコックピット」と呼...

人工知能が製造業を改善する3つの方法

製造業者は、AI を、適切に機能するために会社全体にわたるエンドツーエンドのシステムを必要とする、非...

機械学習におけるシャプレー値を理解するにはどうすればよいでしょうか?

[[282454]]シャプレー値について初めて聞いたのは、モデルの解釈可能性を勉強していたときでし...

...