自動運転システムには、環境認識と位置決め、行動予測、計画制御が含まれます。自動運転認識アルゴリズムエンジニアとして、環境認識に必要な知識についてのみお話します。 以下は、自動運転の認識に関する私のコラムの概要記事です。このコラムには、さまざまなサブ分野の入門記事も含まれています。 1 はじめにこのコラムでは、認識技術の起源、現状、最新の開発動向など、自動運転における環境認識タスクに焦点を当てます。ほとんどの知覚タスクにはアルゴリズムの設計が関係するため、このコラムの紹介でもアルゴリズム、特にディープラーニング アルゴリズムに焦点を当てています。さらに、大量生産された認識システムのデータ収集、システムテスト、アルゴリズムの展開、分析も含まれます。 自動運転における環境認識には、自動運転と環境認識という 2 つの概念が含まれます。まず、自動運転とは何でしょうか?以下はWikipediaによる自動運転車の定義です。 自律走行車は、無人運転車、コンピューター制御車、無人車、または自動運転車とも呼ばれ、運転者の支援を必要としない、またはまったく制御を必要としない車両です。自律走行車である自動運転車は、周囲の環境を感知し、人間の介入なしに走行することができます。 上記の定義にはいくつかのキーワードがあります。まず、自動車についてお話しします。ここで言う自動運転技術は、飛行機や電車などの交通機関ではなく、自動車に関するものです。 2つ目は環境認識とナビゲーションで、自動運転車が周囲の環境に関する情報を自律的に収集・理解し、設定された目的地に応じて判断して移動できるようになります。最後に、運転者の支援が必要か、それとも制御が全く不要かという部分です。これは自動運転システムの分類に関わる非常に重要な概念です。以下で詳しく説明します。 自動運転技術は、0から1への質的な変化ではなく、段階的な反復プロセスです。自動運転システムの分類に関しては、SAE(米国自動車技術協会)が開発した規格が最も一般的に使用されています。異なる組織によって設定される標準は若干異なる場合がありますが、基本的な概念は同じです。次の表は、L0(手動運転)からL5(完全自動運転)までの6つのレベルをまとめたものです。これらの定義は少しわかりにくいかもしれませんが、車両のさまざまな機能と組み合わせると理解しやすくなります。たとえば、現在自動車に標準装備されているアンチロック ブレーキ システム (ABS) と電子安定性プログラム (ESP) は、どちらも L1 レベルです。さらに、クルーズ コントロール、アダプティブ クルーズ コントロール (ACC)、レーン キープ アシスト (LKA) も、車両を一方向 (横方向または縦方向) にしか制御できないため、L1 レベルのカテゴリに分類されます。 ACCとLKAを同時に作動させると、車はL2レベルに到達します。レベル L2 以下のシステムでは、車両の運転手は周囲の環境を監視し、いつでも運転を引き継ぐ準備ができている必要があります。これは非常に重大であり、多くの L2 車両で交通事故が発生する主な原因でもあります。つまり、ドライバーがシステムに対して過度の期待を抱き、運転中に周囲の環境に常に注意を払っているわけではないのです。車両に Traffic Jam Pilot などの何らかのパイロット システムが装備されている場合は、L3 レベルに達しています。つまり、特定のシナリオ(高速道路、交通渋滞など)では、ドライバーは常に現在の道路状況を監視する必要はありません。ドライバーは手、足、目を離し、システムからの指示があったときにのみ車両を操作すればよいのです。この限定されたケースでは、運転手は乗客になります。 L4 レベルのシステムについては、現在はデモ車両にのみ存在します。私たちが普段目にする「あるメーカーの車が、ある道路で人間の介入なしにXX時間の自動運転を達成した」といったものはすべてL4レベルに属します。L3との最大の違いは、手動による引き継ぎが不要で、限られたシナリオで車両が完全な自動運転を実現できることです。 L5 レベルでは、「限定シーン」条件も削除されます。このレベルの乗り物の最大の特徴は、ハンドルがないことです。乗員はすべて乗客であり、乗り物の制御はすべてシステムに属します。 自動運転とは何かがわかったところで、自動運転システムがどのように実装されているかを見てみましょう。一般的に、自動運転システムは、認識、意思決定、制御という 3 つの主要モジュールで構成されています。大まかに言えば、これら 3 つのモジュールは、生物システムの目、脳、手足に相当します。知覚システム(目)は周囲の障害物や道路に関する情報を理解する役割を担い、意思決定システム(脳)は周囲の環境と設定された目標に基づいて次に実行するアクションを決定し、制御システム(手足)はステアリング、加速、ブレーキなどのアクションを実行する役割を担います。さらに、認識システムには、環境認識と車両位置決めという 2 つのタスクが含まれます。環境認識は、さまざまな移動および静止障害物(車両、歩行者、建物など)を検出し、道路上のさまざまな情報(走行可能エリア、車線、交通標識、信号など)を収集する役割を担います。ここで必要な主なセンサーは、さまざまなセンサー(カメラ、ライダー、ミリ波レーダーなど)です。車両測位では、環境認識から得られた情報に基づいて環境内の車両の位置を決定します。これには、高精度の地図のほか、慣性航法 (IMU) と全地球測位システム (GPS) の支援が必要です。 このコラムでは、環境認識システムに焦点を当て、カメラ、ライダー、ミリ波レーダーという 3 つの主要センサーとそれらの融合に重点を置いています。センサーによって特性が異なり、それぞれに長所と短所があるため、適したタスクも異なります。カメラは、知覚システムで最も一般的に使用されるセンサーです。その利点は、豊富なテクスチャと色情報を抽出できるため、ターゲットの分類に適していることです。しかし、距離を感知する能力が弱く、照明条件に大きく影響されるという欠点があります。 LiDARはカメラの欠点をある程度補い、物体の距離や形状を正確に認識できるため、中距離や短距離のターゲット検出や測距に適しています。しかし、コストが高く、大量生産が難しく、感知距離が限られており、天候の影響も大きいという欠点があります。ミリ波レーダーは全天候型動作という特徴があり、目標の速度と距離をより正確に測定でき、感知距離が長く、比較的安価であるため、低コストの感知システムや他のセンサーの補助に適しています。しかし、高さと横方向の解像度が低く、静止物体の認識能力が限られているという欠点があります。 環境認識システムにおける複数のセンサー 2 技術概要前のセクションで述べたように、環境認識システムのハードウェア基盤はさまざまなセンサーとその組み合わせであり、ソフトウェアの中核は認識アルゴリズムです。一般に、認識アルゴリズムは、オブジェクトの検出とセマンティックセグメンテーションという 2 つの主要なタスクを完了する必要があります。前者は、位置、サイズ、速度など、シーン内の重要なターゲットに関する情報を取得するため、疎な表現となります。一方、後者は、運転可能なオブジェクト、障害物など、シーン内の各位置の意味情報を取得するため、密な表現となります。これら 2 つのタスクの組み合わせはパノプティック セグメンテーションと呼ばれ、最近、自動運転やロボット工学の分野で人気が高まっている概念です。オブジェクト ターゲット (車両や歩行者など) の場合、パノラマ セグメンテーションでは、セグメンテーション マスク、カテゴリ、インスタンス ID が出力されます。非オブジェクト ターゲット (道路や建物など) の場合、セグメンテーション マスクとカテゴリのみが出力されます。環境認識システムの最終的な目標は、車両の周囲の 3 次元空間でパノラマのセグメンテーション結果を取得することです。もちろん、さまざまなレベルやシナリオでの自動運転アプリケーションでは、必要な認識出力はまったく同じではありません。 自動運転技術のこの爆発的な進歩は、主にコンピュータービジョンの分野におけるディープラーニングの進歩によるものであり、この進歩はまず画像分類と画像内の物体検出から始まりました。自動運転環境認識の分野で、ディープラーニングが適用された最初のタスクは、単一の2次元画像における物体検出でした。この分野の古典的なアルゴリズム、例えばFaster R-CNN、YOLO、CenterNetなどは、さまざまな時代の主流の視覚認識アルゴリズムです。しかし、2次元画像上の検出結果のみに基づいて車両を走行させることはできません。したがって、自動運転アプリケーションのニーズを満たすためには、これらの基本アルゴリズムをさらに拡張する必要があり、その中で最も重要なのはタイミング情報と 3 次元情報の統合です。前者はオブジェクト追跡アルゴリズムを導出しており、後者は単眼/両眼/複数オブジェクトの3次元オブジェクト検出アルゴリズムを導出しています。同様に、セマンティック セグメンテーションには、画像セマンティック セグメンテーション、ビデオ セマンティック セグメンテーション、高密度深度推定が含まれます。 より正確な 3 次元情報を取得するために、LIDAR は常に、特に L3/4 レベルのアプリケーションにおいて、自動運転認識システムの重要な部分となっています。 LiDAR データは比較的まばらな点群であり、画像の密なグリッド構造とは大きく異なります。そのため、画像分野で一般的に使用されるアルゴリズムは、点群データに適用する前に変更する必要があります。ポイント クラウド認識のタスクは、オブジェクト検出とセマンティック セグメンテーションに分けることができます。前者は 3 次元のオブジェクト境界ボックスを出力し、後者はポイント クラウド内の各ポイントの意味カテゴリを出力します。画像分野でアルゴリズムを利用するために、ポイントクラウドを鳥瞰図または範囲図の密なグリッド構造に変換できます。さらに、ディープラーニングの畳み込みニューラル ネットワーク (CNN) も改良して、PointNet やグラフ ニューラル ネットワークなどのスパース ポイント クラウド構造に適したものにすることができます。 ミリ波レーダーは、全天候型動作、正確な速度測定、低コストのため、自動運転認識システムでも広く使用されています。ただし、一般的には L2 レベルのシステムで使用されるか、L3/4 レベルのシステムで他のセンサーの補助として使用されます。ミリ波レーダーデータも一般的には点群ですが、LIDAR の点群よりも密度が低く、空間解像度が低くなります。カメラやライダーと比較すると、ミリ波レーダーのデータ密度は非常に低いため、一部の従来の方法(クラスタリングやカルマンフィルタリングなど)はディープラーニングよりもパフォーマンスがそれほど悪くなく、これらの従来の方法は計算の複雑さが比較的低くなります。近年、一部の研究者は、低レベルデータに基づく従来のレーダー信号処理の代わりにディープラーニングを使用し始めており、エンドツーエンドの学習を通じてライダーと同様の知覚効果を実現しています。 単一センサーの認識能力には常に限界があります。システムコストを別とすれば、マルチセンサー融合ソリューションが当然ながらより良い選択となります。一般的に、カメラは認識システムに不可欠なセンサーです。奥行き情報と 360 度の視野を得るために、双眼鏡またはマルチカメラ融合ソリューションを使用できます。 3次元情報や動き情報をより正確に取得するために、カメラをLIDARやミリ波レーダーと統合することもできます。これらのセンサーは座標系、データ形式、さらには取得頻度も異なるため、融合アルゴリズムの設計は簡単な作業ではありません。大まかに言えば、融合は決定層(異なるセンサーの出力を融合)またはデータ層(異なるセンサーのデータまたは中間結果を融合)で実行できます。データ レイヤーの融合は理論的にはより優れたアプローチですが、センサー間の空間的および時間的な調整がより高度に必要になります。 上記は、環境認識に関わるアルゴリズムの簡単な紹介です。 複数のカメラの融合や複数のセンサーの空間的および時間的な配置など、アルゴリズムのその他の内容については、後で紹介します。 コアアルゴリズムの設計に加えて、知覚システムの他の重要な部分には、データの収集とラベル付け、アルゴリズムのテストと反復、システムの展開が含まれます。これらの内容は、後でコラムの一連の記事で分析されます。 3 業界の現状認識システムに含まれる技術を理解したところで、次のステップは、量産車両やデモ車両におけるこれらのセンサーの現在の適用状況を確認することです。 大まかに言えば、自動運転企業は2つのカテゴリーに分けられます。 1つのカテゴリーは、伝統的な自動車企業(海外ではフォルクスワーゲン、BMW、GM、トヨタなど、中国ではグレートウォール、ジーリーなど)、新エネルギー車企業(テスラ、NIO、小鵬など)、Tier 1(海外の古いブランドのボッシュ、コンチネンタル、アプティブなど)など、そして国内の新興企業であるHuawei、DJIなどです。こうした企業の主な目標は大量生産であり、一般的には L2 レベルのソリューションに重点を置いていますが、現在は L3 レベルにまで拡大しています。もう 1 つのカテゴリは、一部のソリューション プロバイダーまたはスタートアップ企業 (Waymo、Mobileye、Pony.AI、Momenta、TuSimple など) です。これらの企業は、ロボタクシー、ロボトラック、ロボバスなどのアプリケーション向けのレベル4自動運転技術の開発に取り組んでいます。 自動運転のレベルやアプリケーションシナリオが異なれば、センサーの構成スキームも異なります。緊急ブレーキやアダプティブクルーズコントロールなどの L2 レベルのアプリケーションでは、前方監視単眼カメラまたは前方ミリ波レーダーのみを使用できます。車線変更支援機能が必要な場合は、隣接車線を感知するための追加のセンサーが必要です。一般的な解決策は、車両の前後に複数のコーナーレーダーを追加して、360 度のターゲット検出機能を実現することです。 L3 レベルのアプリケーションでは、特定のシナリオで車両の完全な自動運転を実現する必要があり、そのためには車両の周囲環境の認識を拡張する必要があります。このとき、車両の位置特定を支援するために、LIDAR、サイドビューカメラ、リアビューカメラ、ミリ波レーダー、さらにGPS、IMU、高精度マップを追加する必要があります。 L4 レベルでは、特定のシナリオで手動制御が不要になるため、センサーには高精度だけでなく高い信頼性も求められます。これにはセンサーの冗長性を高める必要があり、バックアップ システムが必要になります。 以下で具体的な事例をいくつか見てみましょう。 1 つ目は、テスラが最近発表したピュア ビジョン ソリューションです。自動運転というと、多くの人がまずテスラを思い浮かべますが、テスラの自動運転システムは実際には L2 レベル (または高度な L2) に過ぎません。これは、ドライバーがいつでも車両を操作できるように準備しておく必要があるためです。 L2 レベル システム内で水平方向にのみ比較すると、Tesla のソリューションは依然として非常に競争力があります。このシステムは、車体のさまざまな位置に設置されたさまざまな焦点距離と視野を持つカメラを含む視覚センサーのみを使用します。これらのカメラは 360 度の視野をカバーでき、ある程度の冗長性を備えています。個人的には、AI Dayでテスラが実演したディープラーニングに基づくマルチカメラ融合アルゴリズムは非常に研究する価値があると考えており、後日詳細な分析記事を公開する予定です。 テスラの純粋なビジョンセンサー構成(L2レベル) 2017年夏、アウディは第4世代のA8をリリースしましたが、その最大のハイライトはトラフィックジャムパイロット(TJP)システムでした。前述の通り、TJP システムはすでに L3 のカテゴリに該当するため、Audi A8 は世界初の「量産型」L3 システムと言えます。なぜ引用符が付いているのでしょうか? これは、この機能が納入された車両では有効化されておらず、ユーザーはアウディ独自のデモカーでのみ体験できるためです。アウディの公式説明では、これは規制上の問題だというが、根本的な理由は実は技術的なものであり、つまりL3におけるいわゆる「買収パラドックス」の問題である。 TJP システムにより、時速 60 キロメートル未満の構造化された道路渋滞では、ドライバーは頭を下げて携帯電話を操作したり、眠ったりすることができます。この時点で緊急事態が発生した場合、引き継ぎが困難になる可能性があります。アウディは2019年末にレベル3自動運転プロジェクトを中止しましたが、この探求はその後のレベル4およびさまざまな高度なレベル2システムの研究開発にも貴重な経験をもたらしました。ここでは詳細には触れません。このシステムのセンサー ソリューションを見てみましょう。 Audi A8 には、合計 12 個の超音波センサー、4 個のパノラマ カメラ、1 個のフロント カメラ、4 個の中距離レーダー、1 個の長距離レーダー、および 1 個の赤外線カメラが搭載されています。さらに、Audi A8には、L3自動運転システムに必須のオプションである、車載グレードの4ラインレーザーレーダーが初めて搭載され、中央運転支援システムコントロールユニット(zFAS)も装備されています。 Audi A8 センサー構成 (L3 レベル) L2からL3、そしてL4に至るまで、センサーにおける最も大きな変化はLIDARの追加であり、その数は徐々に増加しています。たとえば、Waymo のセンサー ソリューションでは、前方の LiDAR に加えて、後部と屋根にも 360 度 LiDAR が搭載されています。さらに、レーザーレーダービームの数が大幅に増加し、感知範囲は約300メートルに達することができます。 Waymo を除き、他の企業の L4 システムには必然的に 1 つ以上の LiDAR が含まれます。現在の技術開発の動向から判断すると、L4レベルの自動運転を実現するには、主にセンサーを追加して運転状況や環境を認識する能力を大幅に高めることにかかっており、その中で最も重要なのがLIDARです。 L4レベルでは、車両は限られたシナリオで完全に自律走行できます。現時点では、99%の精度では不十分です。必要なのは99.99999%の精度であり、LIDARは小数点以下数桁の精度を保証します。この保証は、単純な積み重ねではなく、LIDAR とさまざまな他のセンサー間の調整によって実現されます。したがって、効率的で正確なセンサー フュージョンは、L4 レベルのシステムで重要な役割を果たします。 Waymo のセンサー構成 (L4 レベル) 上記は、L2/3/4レベルのセンサー構成の典型的な事例を簡単に紹介したに過ぎません。本コラムでは、今後の記事で各社の自動運転技術の方向性や、それに応じたセンサー構成、認識システム設計などを詳しく分析していきます。 |
<<: 高度な自動運転システムの開発において解決すべき課題についてお話しします
>>: AIは人間の脳を模倣しています! 2021年のトップ10の会議論文: 脳は「教師なし」でも学習する
[[422829]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
[[316164]]天才イーロン・マスクについて語るとき、多くの人はまずテスラを思い浮かべるでしょう...
Microsoft は、生成型人工知能ベースのデジタル アシスタント Copilot をより多くのソ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
「欧州OpenAI」の「最強の7Bオープンソースモデル」であるMistralは、最近、数え切れないほ...
[[187947]] 2017 年の最初の 1 ~ 2 か月間、2017 年のテクノロジー トレン...
AI ベースの自動化ツールは、候補者データを収集して処理し、候補者の調達、スクリーニング、多様性、そ...
英国のメディア組織Tortoise Mediaは最近、2023年の世界AI指数ランキングを発表しまし...
6月9日、「新AI、新企業サービス、新旅」Wofeng Technologyブランドアップグレードメ...
[51CTO.com からのオリジナル記事] 喜び、悲しみ、恐怖、平静、怒り、驚き、軽蔑、嫌悪など...
有名なイギリスの科学者スティーブン・ホーキングはかつて、知能機械を作ろうとする人間の努力は私たち自身...
[[200338]]私もディープラーニングの初心者です。この記事はあくまでも私の個人的な意見です。私...