私はテスラの「純粋なビジュアルルート」に常に懐疑的でした。疑問なのは、アルゴリズムの進歩によってカメラの物理的性能の限界を補えるかどうかだ。たとえば、視覚アルゴリズムが十分に強力になると、カメラは距離を測定できるようになりますか?夜でも見えますか? これまでの疑念は2021年7月に払拭された。当時、テスラが「純粋な視覚測距」技術を開発したことが明らかになった。後者の疑問は依然として残ります。 著者はかつて、カメラを人間の目に例え、視覚アルゴリズムを「人間の脳の目と連携する部分」に例えると、「視覚アルゴリズムが十分に強力であれば、LIDAR は必要ない」という見解は、「脳が十分に賢ければ、目が高度に近視であっても問題ない」と言っているのと同じだと信じていた。 しかし、しばらく前にマスク氏は、HW 4.0 が「ISP 計画を殺す」と述べ、著者の認識を覆した。レックスとのインタビューで、マスク氏はテスラの車内カメラからの生データはISPで処理されなくなり、直接入力されるようになると語った。 FSD Beta の NN 推論により、カメラが超緊急時に強力になります。 このテーマを念頭に置き、筆者はHorizon BPUアルゴリズムの責任者であるLuo Heng氏、Yuwan ZhijiaのCTOであるLiu Yu氏、Junlian ZhixingのチーフアーキテクトであるWang Haowei氏、Zhitu TechnologyのチーフサイエンティストでありCheyou Intelligentの共同創設者であるHuang Yu氏など、多くの業界の専門家と一連の交流を行いました。そして筆者は、これまでの疑念が純粋に「独善的」なものであったことに気づきました。 確かに、視覚アルゴリズムの進歩により、カメラの物理的性能の限界は徐々に拡大しています。 1つ。 ISPとは何ですか?ISP フルネーム 画像信号プロセッサは、車載カメラの重要なコンポーネントです。その主な機能は、フロントエンド画像センサー CMOS から出力される信号を処理し、生データを人間の目で理解できる画像に「変換」することです。 簡単に言えば、ISP に頼ることによってのみ、ドライバーはカメラの助けを借りてシーンの詳細を「見る」ことができます。 自動運転企業も、第一原理に基づいて ISP を使用しています。ISP は、主に周囲の環境の実際の状況に応じてカメラ データに対してホワイト バランス、ダイナミック レンジ調整、フィルタリングなどの操作を実行し、最高品質の画像を取得します。たとえば、明暗の変化に合わせて露出を調整したり、さまざまな距離にある物体に焦点を合わせるためにフォーカスを調整したりして、カメラの性能を人間の目に近づけようとします。 (写真はテスラのFSDチップ) しかし、カメラを「人間の目にできるだけ近づける」だけでは、自動運転のニーズを満たすことができないのは明らかだ。アルゴリズムでは、人間の目が「機能しない」強い光や弱い光などの状況でもカメラが正常に動作できることが求められる。この目標を達成するために、一部の自動運転企業は、強光、弱光、干渉条件下でのカメラのパフォーマンスを向上できる ISP を特別にカスタマイズする必要があります。 2020年4月8日、アリババDAMOアカデミーは、独自の3Dノイズ低減および画像強化アルゴリズムに基づいて、車載カメラ用のISPを独自に開発し、自動運転車の「視覚」を向上させ、夜間でもより鮮明に「見る」ことを保証したと発表した。 DAMOアカデミーの自動運転研究室の路上テスト結果によると、このISPの使用により、夜間の最も困難なシナリオでの車載カメラの画像物体検出および認識能力が業界の主流のプロセッサと比較して10%以上向上し、もともとぼやけていた注釈も明確に識別できるようになりました。 二。 ISP を廃止する動機と実現可能性しかし、ISP設計の本来の意図は、変化する外部環境において「見栄えの良い」画像を得ることであったが、これが自動運転に最も求められる画像フォーマットであるかどうかについては、業界内でまだ合意に達していない。イーロン・マスク氏によると、ニューラルネットワークには美しい画像は必要ありません。必要なのは、センサーによって直接取得された生データ、つまり生の光子数です。 マスク氏の見解では、ISP がどのような処理方法を使用しても、レンズを通過して CMOS に到達し、可視光子に変換される過程で、元の光子の一部が失われるという。 元の光子が失われる場合と失われない場合の違いについて、智図の主任科学者である黄宇氏は次のように述べた。「光子が電子信号に変換されると、ノイズは確かに抑制されます。ISP が元の電気信号に対して多くの処理を行っていることは言うまでもありません。」 「光子から制御へ:テスラのテクノロジーセンスはますます強くなっている」という記事の中で、Cheyou Intelligent の共同創設者は、人間の目が知覚した情報を処理する方法を比較し、比較的詳細な説明をしており、要約すると次のようになります。 (写真は公式アカウント「Cheyou Intelligence」より)上図に示すように、人間の視覚システムと電子画像システムは論理的に完全に一致しています。網膜の色とピクセル マトリックスは、実際には外部の客観的な世界に関する情報をより適切に表現できますが、人間の真の色知覚には脳の関与 (ISP および高レベルのバックエンド処理に相当) が必要です。 (写真は公式アカウント「Cheyou Intelligence」より) 上の画像の左側は、彩度グラデーションと明度グラデーションを備えた標準カラーマップであり、右側は基本色を備えた対応する元の画像です。それに比べて、人間の視覚を核として設計された画像システムは、心地よい主観的な画像情報を提供しますが、客観的な現実世界を完全に反映するとは限りません。 マスク氏は、それを「より良く見せ」、より「人々が見る」のに適したものにするために、ISPが担当する「後処理」リンクで、本来有用なデータの多くが処理されていると考えている。しかし、機械が見るだけであれば、これらの処理されたデータは実際に役立ちます。したがって、「後処理」のステップを省略できれば、有効な情報量が増えます。 Yuwan CTOのLiu Yu氏によると、マスク氏の論理は以下の通りだ。 1. 生データがより豊富になれば、将来的にはカメラの検出範囲が人間の目よりも広くなる可能性があります。つまり、光の強度が非常に低いか非常に高い場合、人間の目ではそれを見ることができない可能性があります(暗すぎるか明るすぎるため)が、機械は光子の数を測定して画像出力を生成することができます。 2. カメラは光の強度に対する解像度が高いため、人間の目では、非常によく似ている 2 つの光点の明るさや色のわずかな違いを区別できない可能性がありますが、機械では区別できる可能性があります。 AI の 4 人の小さなドラゴンの 1 人のエンジニアは、優れたカメラは人間の目よりもはるかに広いダイナミック レンジ (比較的静的な状態の場合) を備えている、つまり、カメラが観察できる「最も明るいものから最も暗いものまで」の範囲は人間の目が観察できる範囲よりも広い、と説明しました。非常に暗い状況では、人間の目は何も見ることができません (光子はほとんど見えません) が、カメラの CMOS は大量の光子を受け取ることができるため、暗闇でも物を見ることができます。 多くの専門家は、九張智能運転のインタビューでマスク氏の論理に同意すると述べた。 Horizon BPUアルゴリズムの責任者であるLuo Heng氏は次のように説明しています。「Teslaの現在のデータ注釈には、手動注釈と機械自動注釈があります。手動注釈は、現在の画像情報だけに基づくのではなく、世界に関する人間の知識も含まれています。この場合、機械はより豊富な情報を持つ元のデータを使用する可能性も高くなります。一方、機械自動注釈は、事後観察と大量の幾何学的分析の一貫性に基づいています。元のデータを使用すると、機械はより多くの相関関係を見つけ、より正確な予測を行う可能性が非常に高くなります。」 さらに、Junlian Zhixing のチーフアーキテクトである Wang Haowei 氏は次のように説明しています。「Tesla は、生の画像データを DNN ネットワークに入る前につなぎ合わせるため、各カメラの認識結果を後処理する必要はありません。」 ISPをなくすことで夜間のカメラ認識能力を向上させることは、アリババDAMOアカデミーが自社開発したISPの理念に反すると思われる。それで、これら2つは矛盾しているのでしょうか? ゼン氏の自動運転会社の視覚アルゴリズム専門家によると、両社の要求は実際には同じだという。本質的には、アリババDAMOアカデミーとテスラはどちらも、チップとアルゴリズムの組み合わせを通じてカメラの機能を向上させることを望んでいます。 しかし両者の違いは、アリババDAMOアカデミーの考え方は、さまざまなアルゴリズムで元のデータを処理および強化し、人間の目で確認できるようにすることです。一方、テスラは、人間の目を「ケア」するために行われるアルゴリズム内のデータ処理を取り除き、代わりに、低照度および高照度環境でカメラのアルゴリズムを向上させるために必要なデータと対応する機能を開発したことです。 さらにマスク氏は次のように述べた。 カメラが 8 台あり、各カメラの ISP 処理で 1.5 ~ 1.6 ミリ秒の遅延が発生するため、ISP 処理では 13 ミリ秒の遅延削減を実現できます。 マスク氏のアイデアが実際に実現可能であることが証明されれば、他のチップメーカーもそれに倣うはずだ。実際、一部のチップメーカーはすでにこれを行っています。 アンバレラ・チャイナのゼネラルマネージャーであるフェン・ユタオ氏は、1月にYanzhiとのインタビューで次のように述べている。「顧客が生データを直接ニューラルネットワークに送り込んで処理したい場合、CV3はこの方法を完全にサポートできます。」 三つ。カメラの「物理的性能」も改善する必要があるマスク氏の計画に誰もが完全に納得しているわけではない。 大手ロボタクシー会社の技術担当副社長は、「テスラの言うことは間違いではないが、アルゴリズムの開発は非常に難しく、サイクルも非常に長く、開発期間も非常に長くなる可能性があると思う。ライダーを追加すれば、3次元の問題を直接解決できる。もちろん、純粋な視覚を使って3次元を構築することもできるが、多くの計算能力を消費する」と語った。 Cheyou Intelligenceの共同創設者は、マスク氏は「煽動の達人」であり、「彼のプロパガンダ手法は人々を混乱させ、無意識のうちにテクノロジー崇拝を育ませることだ」と信じている。 同氏は次のように述べた。「画像科学の専門家の中には、強度や色のデベイヤー画像の取得など、ISP レベルの後処理をすべて放棄するのは非現実的であり、後続の NN 認識ヘッドに多くの困難をもたらすと考える者もいる。」 Cheyou Intelligence の最近の記事では、どのようなシナリオで生データを ISP に渡してニューラル ネットワークに直接入力することが可能かが言及されていました。テスラの既存のカメラと互換性があるのでしょうか、それともより優れた視覚センサーが必要になるのでしょうか?これは FSD ベータのすべての NN ヘッド タスクに存在しますか、それとも一部の NN ヘッド タスクにのみ存在しますか?これらはすべて不確かな答えです。 冒頭で提起した疑問に戻りましょう。視覚アルゴリズムの改善によって、カメラ自体の物理的な性能のボトルネックを打破できるのでしょうか? 視覚アルゴリズムの経験を持つロボタクシー会社のCEOは、「人間の目では、逆光や、トンネルを抜けて突然強い光に遭遇した車両を認識するのは難しい。カメラでもそれはできない。現時点では、ライダーは必須だ」と語った。 Liu Yu 氏は、理論的にはコストを無視すれば人間の目を上回る性能を持つカメラを作ることができると考えているが、「現在車に使用されている低価格のカメラは、この性能レベルに到達するには程遠いようです。」 つまり、暗い場所や強い光の中でのカメラの認識問題を解決するには、視覚アルゴリズムの改善だけに頼るのではなく、カメラの物理的な性能の改善も必要になります。 たとえば、カメラが夜間にターゲットを検出する場合、可視光イメージングを使用することはできませんが、赤外線サーマルイメージング原理 (暗視カメラ) を使用する必要があります。 「AIの4人の小さなドラゴン」の1人のエンジニアは、光子を制御するということは、テスラがHW 4.0チップで使用するカメラがマルチスペクトルにアップグレードされることを意味する可能性が高いと考えています。 エンジニアは次のように語った。「現在、運転用カメラは目に見えない光をフィルタリングしていますが、実際には物体が発する光のスペクトルは非常に広く、物体の特性をさらに区別するために使用できます。」例えば、赤外線帯域では白いトラックや白い雲が簡単に判別できます。また、温血動物の体から放出される赤外線は判別しやすいため、赤外線カメラを使用すれば歩行者や大型動物との衝突を回避しやすくなります。 「Cheyou Intelligence」は記事の中で、次のような疑問にも触れています。「テスラは光子の概念に基づいてカメラのハードウェアを更新し、真の量子カメラを制御・起動するのでしょうか。それとも、既存のカメラに基づいてISPをバイパスし続けるのでしょうか。」 同時に、著者はカメラのハードウェアもアップグレードされた場合、「入力が大きく異なるため、テスラはニューラルネットワークアルゴリズムを最初から完全に再トレーニングする必要がある」とも指摘した。 また、カメラの技術がどれだけ進歩しても、鳥の糞や泥、水などの汚れの影響は取り除くことができないかもしれません。 レーザーレーダーは、最初に光を放射し、次に光を受信するアクティブ光源を使用します。ピクセルは非常に大きく、通常の汚れでは完全にブロックすることは困難です。 LiDARメーカーが提供したデータによると、表面が汚れていても、LiDARの検出距離は15%未満しか減衰せず、さらに汚れがあるとシステムが自動的にアラームを発します。しかし、カメラは受動センサーであり、各ピクセルは非常に小さく、小さなほこりが数十のピクセルをブロックする可能性があります。そのため、表面が汚れていると「盲目」になります。 この問題が解決できないのであれば、視覚アルゴリズムの進歩によってLIDARのコストを節約しようとするのは妄想ではないでしょうか? 追加のポイントをいくつか挙げます。 1. チップメーカーの設計方法は問題の 1 つの側面に過ぎませんが、顧客が生データを十分に活用できない場合、 ISP をバイパスすることはできません。 2. チップメーカーと顧客がISPをバイパスする能力を持っていたとしても、ほとんどのメーカーは今後も長い間ISPを保持するでしょう。主な理由は、L2段階では主な運転責任は依然として人間であり、ISPによって処理された情報は画面に表示されるため、対話が容易になり、ドライバーに安心感を与えることもできるからです。 3. ISP をバイパスするかどうかは、依然として「純粋なビジョン派」と「LIDAR 派」の技術ルート間の論争の継続です。この点で、前述の Robotaxi 社の技術担当副社長の見解は非常に刺激的です。 実際、ピュアビジョンソリューションとライダーソリューションは、「どちらが優れているか、どちらが劣っているか」という競争ではありません。本当の競争は、ピュアビジョンソリューションのアルゴリズム開発がライダーソリューションのレベルに達するまでにどれくらいの時間がかかるか、そしてライダーのコストがピュアビジョンソリューションと同じレベルに下がるまでにどれくらいの時間がかかるかです。つまり、前者の技術の進歩がより速いのか、後者のコストの低下がより速いのかということです。 もちろん、将来的にピュアビジョン派がセンサーを追加する必要があり、ライダー派がセンサーを削減する必要がある場合、アルゴリズムはどの程度影響を受けるのか、アルゴリズムの修正にはどのくらいの時間がかかるのか、コストはいくらになるのか、これらはすべてさらに観察する必要がある問題です。 |
<<: 言葉を発することなくSiriに命令しましょう!清華大学の卒業生が「無言言語認識」ネックレスを開発
>>: 速報です! TensorFlow テクニカル ディレクターの Pete Warden 氏は辞職し、博士号取得を目指してスタンフォード大学に戻りました。「Google では難しすぎた」からです。
スタンフォード大学は10月11日、Googleリサーチディレクターのピーター・ノーヴィグ氏がスタンフ...
【環球網智能報記者張洋】過去2年間で、人工知能技術が次のホットスポットとなり、多くの有名なテクノロジ...
[[185577]] 1. はじめにブルートフォース クラッキング ツール hashcat を使用...
交通渋滞問題は北京、上海、広州の都市脳血栓症となっている。我々の巧妙な統治の下では、都市部の道路渋滞...
今日は、go-openai を使用して chatGPT を呼び出すという興味深いトピックを皆さんと共...
2020年は人工知能(AI)にとって節目の年です。今年、新型コロナウイルス感染症のパンデミックが世界...
テクノロジーは建設業界にかつてないほど大きな影響を与えています。クラウドベースのコラボレーションやデ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ITホーム 12月7日、Metaは新しい独立したAI画像ジェネレーター「Imagine with ...
Reference News Networkは1月4日、スペインの新聞Vanguardiaが2020...
AI は、モノのインターネットやプライベート 5G ネットワークなど、複数の用途をサポートするために...
[51CTO.comより] 両会期中の政府活動報告に人工知能が盛り込まれた。万鋼科学技術部長は、中...
生成型人工知能 (GenAI) は技術革新の最前線にあり、さまざまな業界の変革と発展に新たな可能性を...