自律走行の新しい方法がネイチャーの表紙に登場:夜を昼のように明るくする、浙江大学の博士

自律走行の新しい方法がネイチャーの表紙に登場:夜を昼のように明るくする、浙江大学の博士

AI の支援により、機械の夜間視界は昼間と同じくらい鮮明になります。

今日、既存の熱画像技術に革命をもたらすこの新しい方法が、Nature の表紙に掲載されました。

写真

1人は米国のパデュー大学とミシガン州立大学の出身で、もう1人は浙江大学の博士号取得者です。

この方法は、従来のソリューションの「ゴースト」問題を克服し、ベンチマークテストで大きな利点を示しました。昼間と同じように環境の質感や奥行きをはっきりと見ることができるだけでなく、RGBや熱視覚を超えたさまざまな物理情報を認識できます。機械知覚、特に自動運転業界にとって非常に有益です。

写真

著者は、この成果が第四次産業革命を直接的に加速させることができると考えています。

どうして知っていますか?紙を開いて見てみましょう。

昼間と同じくらい鮮明な夜間視界

現在、最も先進的な機械知覚方法は、遍在する熱信号を使用して環境情報を再現することです。

しかし、これには「ゴースト効果」が生じるという非常に明らかな欠点があります。

写真

具体的には、この効果は、物体や環境による熱放射の連続的な放射により、温度 (T、物理的状態)、放射率 (e、材質指紋)、テクスチャ (X、表面形状) の 3 つの物理的特性が光子ストリーム内で混合される現象 (夜間視力の状況に限定) を指します。

この現象は主に、次の図に示すように、環境/オブジェクトのテクスチャの損失を引き起こします。

電球の幾何学的なテクスチャは、電球がオフのときにのみ見えます。電球が点灯すると、完全に消えてしまいます。黒体放射は「オフ」にできないため、得られる熱画像には常にテクスチャが欠けており、完全に現実の暗い世界を見ることはできません。

写真

ここで著者らは、熱光子束を入力として取り込み、ハイパースペクトル画像化サーマルキューブを記録し、TeX 分解を通じてゴースト効果の課題を解決する HADAR (熱支援検出および測距) と呼ばれる方法を提案しました。

写真

著者らは、TeX分解は機械学習を使用して乱雑な熱信号からテクスチャを鮮明に復元し(下の図の色付き部分に示すように)、人工知能アルゴリズムが情報理論の限界に到達できるようにすると述べています。これは、従来のRGBまたは熱視覚方法ではこれまで達成が困難でした。

写真

具体的な実装は次の図に示されています。

写真

著者らは、彼らの建築に対する物理的なインスピレーションは 3 つの側面から来ていると紹介しています。

まず、ホット キューブの TeX 分解は空間パターンとスペクトル熱特性に依存しており、これが UNet モデルでスペクトルおよびピラミッド (空​​間) 注意レイヤーを採用するきっかけとなっています。

第二に、TeX の縮退により、逆マッピングの一意性を保証するために次の数学的構造を指定する必要があり (α、β はオブジェクト インデックスを表し、v は波数)、そのためテクスチャ X の代わりに熱照明係数 V を学習する必要があります。つまり、TeX-Net はエンドツーエンドでトレーニングすることはできません。

写真

最後に、マテリアル ライブラリ M とその次元がネットワーク全体の鍵となります。

さらに、著者は補足として TeX-vison を生成するための非機械学習手法、つまり TeX-SGD も提案しました。

テストでは、HADAR メソッドが超高精度をもたらすことがわかります。

下の図に示すように、最初の行は、元の熱画像に基づく測距方法がゴーストのために精度が低いことを示しています。2 番目の行は、熱測距と比較して、HADAR でテクスチャが復元され、精度が約 100 倍向上していることを示しています。

写真

下のシーン(黒い車、人物、アインシュタインの段ボール)では、次のことがわかります。

視覚駆動型物体検出では、光学画像 (a) で 2 人の人物と 1 台の車を誤って識別し、LIDAR ポイント クラウド (c) では 2 人の人物を識別するだけでなく、車も識別できません。HADAR 方式だけが、包括的な理解を提供し、人物と車を正確にフレームに収めることができます。

写真

最後の画像セットは、HADAR の夜間の総合的な視覚能力が最も先進的な熱測距法 (GCNDepth) よりも優れていること、また RGB 立体視が基本的に日中にテストされたものと同じレベルであること、つまり HADAR が昼間と同じように暗闇でも環境の質感と奥行きを認識していることを完全に実証しています。

写真

著者について

第一著者はパデュー大学の研究者、ファンリン・バオ氏です。彼は2011年6月に浙江大学で物理学の学士号を取得し、2016年6月に光学の博士号を取得しました。

ファンリン・バオのこれまでの研究は、不均質システムにおけるカシミール効果(量子力学)に焦点を当てており、現在はテンソルネットワーク、ニューラルネットワーク、およびそれらの量子物理学への応用にまで及んでいます。

責任著者は、パデュー大学の電気・コンピュータ工学教授であるズビン・ジェイコブ氏と、ミシガン州立大学のコンピュータサイエンスおよびエンジニアリング学部の助教授であるヴィシュヌ・ボッデティ氏です(後者は「数学のバックグラウンドが強い」学生を募集しています)。

論文アドレス: https://www.nature.com/articles/s41586-023-06174-6

<<:  特大サイズのStable Diffusionが無料で付いてきます!文勝図の最強オープンモデル、プロンプトワードもシンプルに

>>:  ChatGPT の機能低下が論争を引き起こしています。AIGC アプリケーションは依然として信頼できるのでしょうか?

ブログ    
ブログ    

推薦する

アリババAIはダブル11ショッピングフェスティバルの衣料品工場で運用され、欠陥認識の精度は人間を上回った。

AI がダブル 11 の生産と製造をスピードアップします。 10月29日、記者は、アリババのAIア...

マスクは困った状況だ! Grok AI は ChatGPT を盗用した疑いがあるのでしょうか? ?

みなさんこんにちは。Ergouです。マスク氏は今日、困った状況に陥っている! X (Twitter)...

メイン検索と店内検索の共同最適化の予備調査と試み

背景と概要Taobao プラットフォームには、検索、推奨、広告など、多くのサブシナリオがあります。各...

Spark を使用して行列分解推奨アルゴリズムを学習する

[[182792]]協調フィルタリング推奨アルゴリズムにおける行列分解の応用では、推奨アルゴリズムに...

教育省:中国はAI教育政策の提供を増やす

12月7日から8日にかけて、中華人民共和国教育部、中国ユネスコ国家委員会、ユネスコの共催による「20...

...

呉俊:人工知能は今後20年間で大きな発展を遂げないかもしれません。

[[264168]] 3年前、人工知能の時代が始まり、「人工知能はますます多くのこと、ほぼすべての...

ライブ放送室で見る高解像度1080Pは720Pほど良くないかもしれない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Google の研究者が発狂: AI に人格があると信じ、有給休暇を取得し、チャットログが恐ろしい

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

未来の超人工知能はどれほど恐ろしいものになるのでしょうか?この記事を読んだら黙ってしまうかもしれません!

[[222688]]未来学者のケビン・ケリーはかつてこう言った。「人工知能は今後20年間で人類社会を...

実践的なスキル: システムレベルからディープラーニングコンピューティングを最適化するにはどうすればよいでしょうか?

画像、音声認識、自然言語処理、強化学習などの多くの技術分野において、ディープラーニングは非常に効果的...

TensorFlow とオートエンコーダー モデルを使用して手書き数字を生成する方法

[[209419]]オートエンコーダーは、入力データを効率的にエンコードする方法を学習するために使用...

IEEE コンピュータ協会が 2023 年の技術トレンド予測評価を発表

コンピューターサイエンスとエンジニアリングの主要会員コミュニティである IEEE コンピューターソサ...

人工知能認知学習—教育の未来?

人工知能(AI)はどこにでもあります。スマートセンサーを使用して素晴らしい写真を撮影するスマートフォ...

Java プログラミング スキル - データ構造とアルゴリズム「ハッシュ テーブル」

[[388064]]基本的な紹介ハッシュ テーブル (ハッシュ テーブルとも呼ばれます) は、キー...