2021年10月25日、テスラの時価総額は1兆ドルを超え、米国株式市場で時価総額が1兆ドルを超える5番目の企業となり、米国の主要自動車メーカーの時価総額の合計をほぼ上回りました。テスラの資本市場での成功は投資家の神経を刺激し、市場が再び自動運転の分野に注目し、自動運転技術の開発方向についてさらに考えるきっかけとなった。 この記事では、技術的な観点から、次のような質問を客観的に分析し、答えることを目的としています。自動運転のレベルを向上させるために解決する必要がある重要な問題は何ですか?大規模な無人運転を実現する可能性が高いのはどのような自動運転ソリューションでしょうか?現実世界のAIの問題として、自動運転の難しさは何でしょうか?上記の疑問は、過度の期待を背負い、常に人々の神経を逆なでする技術生産性革命である自動運転をいかに実現するかについて、合理的かつ客観的に考え、業界を冷静かつ現実的に前進させるよう促すものである。 1. 自動運転の目:高画質画像に基づく視覚レーダー自動運転のレベルが向上すれば、制御と責任は徐々にドライバーから車両へと移行し、インテリジェント運転システムの位置づけも、人間の知覚能力を増幅することから車両の自動運転を引き継ぐことへと変化します。これにより、インテリジェント運転システムによる物理世界環境の理解にまったく異なる要件が課せられ、物理世界からの部分的な情報の抽出から、あらゆる詳細の包括的な認識と理解へとレベルアップします。この変化の第一の理由は、2D イメージングと 3D モデリングに対する要件がますます高まっていることです。1) 高解像度と環境適応性を備えた 2D イメージング、2) 物理世界の正確で高密度なリアルタイム 3D モデリング。 カメラは、自動運転が物理世界を認識するための最も重要なセンサーです。解像度を向上させることで、画像の情報伝達能力が大幅に向上し、自動運転システムは運転環境をより詳細に、より遠くから認識できるようになります。現在主流の自動運転用前方監視カメラの解像度は800万画素を超えており、将来的にはさらに高解像度化が進むことは避けられません。自動運転車は開放的な外部環境に直面しており、解像度の向上に加え、夕方や夜などの異なる照明環境、異なる気候環境、雨、雪、霧などのさまざまな運転条件下での自動運転の画質も向上させる必要があります。従来の自動車アプリケーションのオンボードイメージングと比較して、自動運転におけるオンボードイメージングの品質に対する要件は大幅に向上します。イメージング計算を通じてより高品質の画像を取得する方法が、解決すべき重要な課題となっています。 自動運転車は 3 次元の物理世界で動作するので、必然的に物理世界に対するより深い 3 次元の理解が必要になります。現在の高度な運転支援システムでは、道路上でさまざまな事故に頻繁に遭遇します。これらの事故は、トラックが木を引っ張るなど、サンプルライブラリでカバーされていない不規則で非標準的な物体を識別できず、これらのコーナーケースを徹底的に調査できないために発生することがほとんどです。運転環境のリアルタイム高密度 3D モデリングは、特殊な形状や非標準の物体を識別できるだけでなく、道路上の穴や凹凸も特定できるため、自動運転の安全レベルが大幅に向上することは間違いありません。現在の自動運転の3D環境認識は、主にLIDARなどの能動投影測定装置に依存していますが、その解像度はカメラよりもはるかに低く、色情報もありません。ディープラーニングの発展により、単眼深度推定、両眼立体視、SFM、MVSなどの問題をディープニューラルネットワークでモデル化できるようになり、AI方式で多眼視に基づく3Dポイントクラウドをリアルタイムで生成できるようになりました。視覚ポイントクラウドは画像と自然に位置合わせされ、解像度は画像解像度のレベルに達することができます。したがって、マルチビューイング、つまり視覚レーダーを通じて高解像度のリアルタイム高密度 3D モデリングを実現する方法が、解決すべきもう 1 つの重要な課題です。 視覚センサーは極めて高い情報伝達能力を持っていますが、その能力はまだ十分に活用されていません。しかし、2D 画像イメージングとリアルタイムの高密度 3D モデリングの両方には、強力なアルゴリズムとそれをサポートする計算能力が必要であり、アルゴリズムと計算能力の協調設計が必要です。視覚センサー + コンピューティング能力 + アルゴリズムのセンサーコンピューティングモデルは、現在自動運転が直面している重要な問題、つまり 2D および 3D レベルからの物理世界の詳細な認識と理解の解決をより根本的に促進します。 Jianzhi Roboticsの中核チームは、画像処理、AIアルゴリズム、コンピューティングパワー設計の分野で10年以上の業界経験を持っています。視覚センサーを中核として、車載ISPや視覚レーダーなどの視覚センサーの2Dおよび3Dイメージングの核心問題を解決することで、より強力な自動運転の目を作り出し、自動運転の安全レベルの向上を促進します。 1.1 携帯電話ISPから車載ISPへ ISP (Image Signal Processor) とは、一連のデジタル画像処理アルゴリズムを通じてデジタル画像の画像処理を行うことです。カメラ画像処理の全プロセスにおいて、ISP は感光素子から生の信号データを受信する役割を担っており、これはカメラ画像出力全体の処理フローの最初のステップとして理解できます。 ISP は、画像品質の向上とデータの一貫性の強化において非常に重要な役割を果たします。 スマートフォンの発達と携帯電話カメラのピクセル密度の向上により、モバイル ISP はここ数年で急速に発展し、改善されました。携帯電話の写真やビデオの品質もますます向上し、驚くべきレベルにまで達しています。例えば、夜間などのシーンでは、人間の目で見るよりも鮮明で、明るく、色鮮やかな写真を撮ることができます。また、トンネルの出入り口など、照明が急激に変化するシーンでも、人間の目で見るよりも安定して鮮明な動画を録画することができます。携帯電話カメラのハードウェアのアップグレードに加えて、専用の AI ISP 処理アルゴリズムと処理チップもこれらの効果に重要な役割を果たします。 自動運転では車載画像の品質を段階的に向上させることが求められるため、車載 ISP、特に運転シナリオに最適化された AI ISP 処理アルゴリズムと処理チップが爆発的な成長を遂げるでしょう。 AIは車載ISPの全プロセスにおいて、特にノイズ低減、ぼかし除去、HDRなどの問題においてますます重要になります。夜間、直射日光、トンネルの出入りなどの暗い光、強い光、高ダイナミックなシーンで、人間の目をはるかに超える画像効果を実現し、センサーによるノイズやぼやけなどの問題を最大限に解決します。 AI コンピューティングを ISP コンピューティング パイプラインの前に配置し、ストリーミング コンピューティングを使用することで、ISP コンピューティング パイプラインが中断されることがなくなり、AI ISP のパフォーマンスと消費電力の比率も大幅に向上します。 Jianzhi RobotはフルリンクチップレベルのISP IPを設計する能力を備えており、車載シナリオにおけるISP、特にAI ISPのコア問題を解決し、車載カメラの画像をより鮮明にすることで、視覚レーダーポイントクラウド生成や画像意味認識などの後続タスクの精度をさらに向上させます。 図1: Jianzhi RobotはフルリンクISPアルゴリズムとアルゴリズムハードコア設計機能を備えています 1.2 2D知覚から視覚レーダーへ 大規模な自動運転では、3D ポイント クラウドの情報密度、シーンの一般化、パフォーマンスのスケーラビリティに対する要求がさらに高まります。視覚レーダーに基づいて、両眼または多眼のステレオビジョン計算を通じてリアルタイムの高密度 3D ポイント クラウドを生成するための優れた方法です。 両眼立体視は、マシンビジョンの重要な形態です。人間の目と同様に、視差の原理に基づいており、画像内の対応する点の位置偏差を計算することで、物体の3次元幾何学情報を取得します。TOFおよび構造化光の原理に基づく深度カメラとは異なり、光を積極的に外部に投影するのではなく、撮影した2枚の写真(カラーRGBまたはグレースケール画像)に完全に依存して深度を計算します。 従来の両眼ステレオ マッチング アルゴリズムは、テクスチャや反射が弱い領域では効果が比較的乏しく、オブジェクトの意味情報もほとんど活用されません。このアルゴリズムの適用範囲は限られており、ポイント クラウド効果には明らかな上限があります。ディープラーニング技術の発展により、CNN、Cost Volume、Transformer に基づくステレオマッチング アルゴリズムは、非常に強力なアルゴリズム効果と可能性を示しています。現在、有名な自動運転データセットKITTIのステレオマッチングタスクでトップにランクされているアルゴリズムは、基本的にディープラーニングに基づいています。ディープラーニングに基づく両眼ステレオマッチングアルゴリズムは、コンピューティングチップのAIコンピューティング能力に比較的高い要求を課し、R&Dモデルにも新たな要件を提示しています。従来の両眼カメラのR&Dモデルから、AIを中核とし、ソフトウェアとハードウェアを組み合わせ、データによって駆動するR&Dモデルに変更する必要があります。 両眼立体視からさらに一歩進んで、カメラの動き情報と複数のカメラ間の幾何学的制約を最大限に活用できます。カメラ姿勢推定、深度推定、オプティカルフロー推定、MVSなどのアルゴリズムと、タスク間で相互に監視する一連の自己監視アルゴリズムを通じて、360度のポイントクラウドデータ、つまり視覚レーダーを取得し、画像解像度に一致する高密度のポイントクラウドを形成できます。同時に、カメラ+コンピューティングパワー+アルゴリズムをコアとする視覚レーダーは、成熟した制御可能な産業チェーン、制御可能なコスト、保証されたデバイスの安定性、車両規制への準拠などの利点も備えており、大規模なプリインストール型大量生産と車両への使用をより簡単に実現できます。 図2: Jianzhiロボットビジョンレーダーロードマップ 2. 自動運転の頭脳:フルプロセスデータに基づく強力な単一車両インテリジェンス自動運転の頭脳は、知覚から意思決定までの運転プロセス全体を担っており、自動運転の中で最も複雑で中核的かつ難しい部分でもあります。従来のルールベースのソフトウェア 1.0 エンジニアリング システムには、保守性、スケーラビリティ、進化性に関して一定の制限があります。 AIとソフトウェア2.0を中核とし、全プロセスデータ駆動型の認識、予測、調整、制御アルゴリズムと強力な単一車両インテリジェンスソリューションは、大規模な自動運転を実現するためのより実現可能なソリューションであることは間違いありません。 Jianzhi Roboticsの中核チームは、AIアルゴリズムとアプリケーション、ソフトウェア2.0インフラストラクチャ、データ駆動型の大規模実践において豊富な経験を有しており、全プロセスデータ駆動型の自動運転頭脳を通じて強力な単一車両インテリジェンスを確立し、外部インフラストラクチャへの依存を減らし、自動運転の複製と推進を促進します。 2.1 ディープラーニングによる2D認識技術の進歩 知覚は、自動運転が情報を得るための最初のステップです。知覚とは、カメラやその他のセンサーを通して見た物体を識別し、それが何であるかを理解することです。これは、自動運転にとって非常に重要なリンクです。自動運転車は、まず車線を識別し、次に信号や標識を認識する必要があります。さらに、走行ルートをさらに計画する前に、前方、後方、両側に車両や歩行者がいるかどうかなどの障害物も識別する必要があります。 過去 10 年間は人工知能技術にとって黄金の 10 年間でした。ディープラーニングはコンピューター ビジョンの分野全体を変え、2D 認識のあらゆる分野で技術的な進歩をもたらしました。 2D 認識には、主に画像分類、画像 (オブジェクト) 認識、きめ細かい認識 (顔認識) などの分野が含まれます。使用されるテクノロジも、初期のテンプレート マッチングや線形分類から、現在広く使用されている深層畳み込みニューラル ネットワーク、さらに最近主要な視覚タスク リストを更新した Transformer へと進化してきました。ハードウェアの計算能力の継続的な向上、アルゴリズムパラダイムの継続的な改善、利用可能なデータリソースの継続的な増加により、カメラベースの 2D 認識は乗用車のインテリジェント運転の主流ソリューションとなり、多くのソリューションの核心的な差別化にもなりました。 Jianzhi Roboticsの中核チームは、中国で初めてディープラーニングに基づく2D視覚認識のさまざまな方向で体系的な研究と大規模な応用を行いました。世界で最も影響力のある2D認識AIコンテストや評価の多くで優勝し、数十のトップカンファレンスやジャーナル論文を発表し、人工知能2D認識技術の複数のビジネス分野での大規模な応用を実現しました。
図3: Jianzhi Robotは2D認識において世界クラスのコア機能を備えている 2.2 2D知覚から4D知覚へ 2D 知覚が依然として平面上の物体を検出、識別、分割することである場合、深度情報を追加した後、基本的な 2D 知覚は 3D 知覚に変換されます。 3D をベースにさらに時間の次元を加えると、私たちは 4D の認識へと進化します。自動運転の分野では、4D 認識により車両周囲の物体を完全に継続的に検出できます。 ディープラーニングと3Dビジョン技術の継続的な発展に基づき、コストボリューム、オプティカルフロー、微分可能ホモグラフィー、トランスフォーマーなどの技術が成熟し、マルチセンサー融合、クラウドソーシング再構成、高密度再構成、自動ラベリングの継続的な発展により、高品質で大規模な4Dシーンデータを効率的に提供できます。エンドツーエンドの4D認識は技術トレンドになりつつあります。従来の 2D 認識 + ポストフュージョン ソリューションと比較して、エンドツーエンドの 4D 認識には多くの利点があり、大きなレンジ ジッター、不正確なマルチカメラ ステッチング、不安定なタイミング結果、反復効率の低さなど、一連の問題を解決できます。 さらに、エンドツーエンドの 4D 認識に基づいて、より優れた 4D 予測を行うことができます。一方では、交通参加者の運動軌跡をより正確に予測できるため、計画と制御のパフォーマンスが向上します。他方では、道路走行エリアのより詳細な 3D 構造化情報を予測し、ローカルのリアルタイム 3D マップをオンラインで生成できるため、高精度マップなどのインフラストラクチャへの依存が軽減されます。 図4: 複雑な交差点運転シナリオにおけるJianzhiロボットの4D認識結果 自動運転は現在、最も重要なハードテクノロジーの革新の一つと考えられています。自動車産業が100年に一度の大変革を経験しているこの歴史的瞬間に、中国は電気自動車分野での早期の計画と完全な発展、そして完全な産業チェーンの巨大な利点により、自動運転分野で非常に良い機会と産業上の優位性を持っています。国内企業は、電動化とインテリジェント化を通じて、最も重要な柱産業である100年の歴史を持つ自動車産業を追い越し、リードするチャンスを持っています。しかし、自動運転の開発速度は依然として大衆や市場の期待を下回っており、自動運転レベルの向上に影響を与え、早急に解決する必要がある重要な問題がいくつかあります。Jianzhi Roboticsは、AIアルゴリズムとAIコンピューティングパワーの独自の蓄積に基づいて、自動運転の画像計算と次世代自動運転ソリューションの重要な問題を解決し、自動運転の革新的な開発を促進することに尽力しています。 著者について Du Dalong: Jianzhi Robotics の共同創設者。中国科学院コンピューティング技術研究所で修士号を取得し、現在は清華大学のイノベーションリーダーシッププログラムの博士課程に在籍しています。彼は、AI テクノロジー企業の R&D 担当副社長、Horizon Robotics のアルゴリズム ディレクター、Baidu の IDL アーキテクトを務めてきました。中国初のAIチップの製品開発に深く関わり、AI2B製品の大規模実装を実現した。畳み込みニューラル ネットワーク、シーケンス学習、ニューラル ネットワーク トレーニング フレームワークにおける優れた貢献により、彼は Baidu エンジニアにとって最高の栄誉である「Baidu Million Dollar Award」を 2 度受賞しました。彼は AI 分野のトップクラスの国際会議で数十本の論文を発表し、MSCOCO や FRVT などの複数の AI コンテストでチームを率いて世界クラスの結果を達成しました。 Huang Guan: Jianzhi Robotics のアルゴリズム責任者。ディープラーニング、機械学習、コンピュータービジョンの分野で 10 年の経験があります。中国で初めて、ターゲット検出、セグメンテーション、キーポイントなどにおけるディープラーニングの体系的な研究と応用を開始しました。彼は、FRVTやCOCOなど世界で最も影響力のあるAIコンテストで何度も優勝し、世界最大の公開顔データセットWebFace260Mをリリースし、トップの人工知能カンファレンスやジャーナルに10本以上の論文を発表し、多くの分野で人工知能技術の大規模な応用をサポートし、学術研究と産業実装において豊富な経験を持っています。当社は現在、次世代の自動運転ソリューションに向けたフルプロセスデータ駆動型アルゴリズムの開発に取り組んでいます。 |
<<: 強化学習の専門家 Sergey Levine: スケーラブルな自己教師あり学習の基盤としての強化学習
人工知能 (AI) は、マーケティングと広告のダイナミックな環境において変革をもたらす力として登場し...
重要な実現技術である AI の急速な成功により、より広範なデジタル変革とイノベーションの取り組みへの...
今年初め、イノベーション、リサーチ、インキュベーションのグローバルディレクターであるルネ・シュルテ氏...
海外メディアの報道によると、人工知能(AI)と自動運転の企業TuSimpleが株式コード「TSP」で...
人工知能 (AI) と機械学習 (ML) の分野では、基礎はデータにあります。データの品質、精度、深...
2016年3月以来、AlphaGoと呼ばれるロボットが、有名な囲碁プレイヤーであるイ・セドルと柯潔...
AIが私たちの日常生活の一部になっていることは否定できません。ほぼすべての業界のフォーチュン 100...
[[261913]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
[[396433]]この記事はWeChatの公開アカウント「Beta Learns JAVA」から転...
1. JSP フォーラムのデモテーブルの構造: テーブル名: mybbslist フィールド データ...
12月15日、OpenAIは設立当初から、たとえ人工知能が開発者よりも賢くなっても、全人類に利益をも...
2016年、Googleの人工知能プログラムAlphaGoが世界的囲碁プレイヤーのイ・セドルと対戦し...