この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 0. 序文 && 個人的な理解自動運転システムは、さまざまなセンサー (カメラ、LIDAR、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用してリアルタイムの分析と意思決定を行う、高度な認識、意思決定、制御技術に依存しています。これにより、道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などにより、車両は安全に運行し、複雑な交通環境に適応できるようになります。この技術は現在広く注目を集めており、交通の将来における重要な開発分野の一つと考えられています。しかし、自動運転を難しくしているのは、車に周囲で何が起こっているかを理解させる方法を見つけることです。これには、自動運転システムの 3D オブジェクト検出アルゴリズムが、周囲の環境内のオブジェクトの位置、形状、サイズ、カテゴリなどを正確に認識して説明できることが必要です。この包括的な環境認識により、自動運転システムは運転環境をよりよく理解し、より正確な判断を下すことができます。 自動運転のための 3D 物体検出アルゴリズムの堅牢性を総合的に評価します。検出の堅牢性を評価するための 3 つの重要な要素として、環境変動、センサー ノイズ、および位置ずれが特定されています。これらの要素は、現実世界の変化する状況下での検出アルゴリズムのパフォーマンスに影響を与えるため、非常に重要です。
また、パフォーマンス評価の 3 つの主要領域である精度、レイテンシ、堅牢性についても詳しく説明します。
この論文の分析では、セキュリティ認識におけるマルチモーダル 3D 検出方法の大きな利点を指摘しています。これらの方法は、さまざまなセンサーからのデータを組み合わせて、より豊かで多様な認識機能を自動運転システムに提供します。 1. データセットこの記事では、自動運転システムにおける 3D オブジェクト検出に使用されるデータセットの概要を示し、さまざまなセンサー モードの長所と限界、および公開データセットの特性を評価することに重点を置いています。 まず、表には、カメラ、ポイント クラウド、マルチモーダル (カメラと LiDAR) の 3 種類のセンサーが示されています。各タイプについて、ハードウェアのコスト、利点、制限事項がリストされています。たとえば、カメラ データには豊富な色とテクスチャ情報を提供できるという利点がありますが、深度情報が不足しているため制限があり、照明や天候の影響を受けやすくなります。 LiDAR は正確な深度情報を提供しますが、高価であり、色情報がありません。 次に、別の表に、KITTI、nuScenes、Waymo など、自動運転における 3D オブジェクト検出用の複数の公開データセットの詳細を示します。これらのデータセットには、さまざまな年にリリースされたデータ、使用されたセンサーの種類、データの規模 (フレーム数や注釈の数を含む)、シーンの多様性 (シーン数やカテゴリの数を含む)、シーンの種類 (昼間、晴れ、夜間、雨など) が含まれます。 さらに、「クリーンな」自動運転データセットに関する研究についても言及され、ノイズの多いシナリオにおけるモデルの堅牢性を評価することの重要性が強調されました。いくつかの研究は、厳しい条件下でのカメラのユニモーダルアプローチに焦点を当てていますが、他のマルチモーダルデータセットはノイズの問題に焦点を当てています。たとえば、GROUNDED データセットは、さまざまな気象条件での地中探査レーダーの位置特定に重点を置いていますが、ApolloScape オープン データセットには、さまざまな気象条件や照明条件をカバーする LIDAR、カメラ、GPS データが含まれています。 現実世界で大規模なノイズの多いデータを収集するのはコストがかかりすぎるため、多くの研究では合成データセットの使用に切り替えています。たとえば、ImageNet-C は、画像分類モデルにおける敵対的共通摂動に関するベンチマーク研究です。この研究の方向性はその後、自動運転における 3D オブジェクト検出向けにカスタマイズされた堅牢なデータセットにまで拡張されました。 2. 視覚ベースの3D物体検出2.1 単眼3D物体検出この部分では、単眼 3D オブジェクト検出の概念と、事前ベースの単眼 3D オブジェクト検出、カメラのみの単眼 3D オブジェクト検出、深度支援単眼 3D オブジェクト検出という 3 つの主なアプローチについて説明します。 事前ガイド付き単眼3D物体検出このアプローチは、画像内に隠されたオブジェクトの形状とシーンのジオメトリに関する事前の知識を活用して、単眼 3D オブジェクト検出の課題に対処します。事前にトレーニングされたサブネットワークまたは補助タスクを導入することで、事前の知識によって追加の情報や制約が提供され、3D オブジェクトを正確に特定し、検出の精度と堅牢性を高めることができます。共通の事前知識には、オブジェクトの形状、幾何学的一貫性、時間的制約、セグメンテーション情報が含まれます。たとえば、Mono3D アルゴリズムは、まず 3D オブジェクトが固定された地面の上にあると想定し、次にオブジェクトの以前の 3D 形状を使用して 3D 空間に境界ボックスを再構築します。 カメラのみによる単眼3D物体検出このアプローチでは、単一のカメラで撮影した画像のみを使用して 3D オブジェクトを検出し、位置を特定します。畳み込みニューラル ネットワーク (CNN) を使用して、3D 境界ボックス パラメータを画像から直接回帰し、3D 空間内のオブジェクトのサイズとポーズを推定します。この直接回帰アプローチはエンドツーエンドでトレーニングできるため、3D オブジェクトの全体的な学習と推論が容易になります。たとえば、Smoke アルゴリズムは 2D 境界ボックスの回帰を放棄し、単一のキーポイントの推定と 3D 変数の回帰を組み合わせて、検出された各オブジェクトの 3D ボックスを予測します。 深度支援単眼3Dオブジェクト検出深度推定は、深度支援単眼 3D オブジェクト検出において重要な役割を果たします。より正確な単眼検出結果を得るために、多くの研究では事前にトレーニングされた補助的な深度推定ネットワークが利用されてきました。このプロセスでは、まず、MonoDepth などの事前トレーニング済みの深度推定器を使用して、単眼画像を深度画像に変換します。次に、深度画像と単眼画像を処理するために 2 つの主なアプローチが採用されます。たとえば、疑似 LiDAR 検出器は、事前トレーニング済みの深度推定ネットワークを使用して疑似 LiDAR 表現を生成しますが、画像から LiDAR への生成におけるエラーにより、疑似 LiDAR ベースの検出器と LiDAR ベースの検出器の間には大きなパフォーマンスのギャップがあります。 これらの方法の探求と応用を通じて、単眼 3D オブジェクト検出はコンピューター ビジョンとインテリジェント システムの分野で大きな進歩を遂げ、これらの分野にブレークスルーと機会をもたらしました。 2.2 ステレオベースの3D物体検出この部分では、ステレオビジョンに基づく 3D オブジェクト検出技術について説明します。立体 3D オブジェクト検出では、一対のステレオ画像を使用して 3D オブジェクトを識別し、位置を特定します。これらの方法は、ステレオカメラで撮影した二重のビューを活用することで、ステレオマッチングとキャリブレーションを通じて高精度の奥行き情報を取得することに優れており、これが単眼カメラのセットアップと比較した際立った特徴です。これらの利点にもかかわらず、ステレオビジョン方式は、LiDAR ベースの方法と比較して、依然としてかなりのパフォーマンスのギャップを抱えています。さらに、ステレオ画像からの 3D オブジェクト検出の領域は比較的研究が進んでおらず、この領域に特化した研究作業は限られています。
2.3 マルチビュー3Dオブジェクト検出最近、マルチビュー 3D オブジェクト検出は、前述の単眼およびステレオ 3D オブジェクト検出方法よりも精度と堅牢性の点で優れていることが示されています。 LiDAR ベースの 3D オブジェクト検出とは異なり、最新の鳥瞰図 (BEV) 方式では高精度のマップが不要になり、2D から 3D への検出が向上します。この進歩により、マルチビュー 3D オブジェクト検出が大きく進歩しました。マルチカメラ 3D オブジェクト検出における主な課題は、異なる画像内の同じオブジェクトを識別し、マルチビュー入力からオブジェクトの特徴を集約することです。現在のアプローチでは、複数のビューを鳥瞰図 (BEV) 空間に均一にマッピングすることが一般的です。 深度ベースのマルチビュー方式:2D から BEV 空間への直接変換は大きな課題となります。 LSS は、3D 空間を仲介として使用する最初の深度ベースの方法です。このアプローチでは、まず 2D 特徴のグリッド深度分布を予測し、次にこれらの特徴をボクセル空間に持ち上げます。このアプローチは、2D から BEV 空間へのより効率的な変換への期待をもたらします。 LSS に続いて、CaDDN も同様の深層表現方式を採用しています。ボクセル空間の特徴を BEV 空間に圧縮することで、最終的な 3D 検出を実行します。 CaDDN はマルチビュー 3D オブジェクト検出の一部ではなく、シングルビュー 3D オブジェクト検出の一部であり、その後の詳細な研究に影響を与えたことは注目に値します。 LSS と CaDDN の主な違いは、CaDDN が実際のグラウンドトゥルース深度値を使用して分類された深度分布の予測を監視し、2D 空間から 3D 情報をより正確に抽出できる優れたディープ ネットワークを作成することです。 クエリベースのマルチビュー方式Transformer テクノロジーの影響を受けたクエリベースのマルチビュー アプローチは、3D 空間から 2D 空間機能を取得します。 DETR3D は、マルチビュー フィーチャの集約の問題を解決するために 3D オブジェクト クエリを導入します。さまざまな視点から画像の特徴を切り取り、学習した 3D 参照ポイントを使用して 2D 空間に投影することで、鳥瞰図 (BEV) 空間で画像の特徴を取得します。深度ベースのマルチビュー方式とは異なり、クエリベースのマルチビュー方式では、逆クエリ技術を使用してスパース BEV 機能を取得し、その後のクエリベースの開発に根本的な影響を与えます。しかし、明示的な 3D 参照ポイントに関連する潜在的な不正確さのため、PETR は BEV 空間を構築するために暗黙的な位置エンコード方式を採用し、その後の作業に影響を与えました。 2.4 分析: 精度、レイテンシ、堅牢性現在、鳥瞰図(BEV)認識に基づく 3D オブジェクト検出ソリューションが急速に発展しています。多くのレビュー記事が存在するにもかかわらず、この分野の包括的なレビューはまだ不足しています。上海AIラボとセンスタイム研究所は、BEVソリューションの技術ロードマップの詳細なレビューを提供しました。ただし、既存のレビューとは異なり、自動運転の安全性認識などの重要な側面を考慮します。カメラベースのソリューションの技術ロードマップと現在の開発状況を分析した後、「精度、遅延、堅牢性」という基本原則に基づいて議論するつもりです。安全認識の観点を統合し、自動運転における安全認識の実用化を導きます。
3. LiDARに基づく3D物体検出ボクセルベースの 3D オブジェクト検出方法では、スパース ポイント クラウドをセグメント化して通常のボクセルに割り当て、高密度のデータ表現を形成することを提案します。このプロセスはボクセル化と呼ばれます。ビューベースの方法と比較して、ボクセルベースの方法は空間畳み込みを利用して 3D 空間情報を効果的に認識し、自動運転における安全な認識に不可欠な高い検出精度を実現します。ただし、これらの方法には依然として次のような課題があります。
これらの課題を克服するには、データ表現の制限に対処し、ネットワーク機能とターゲットの位置特定精度を向上させ、複雑なシナリオに対するアルゴリズムの理解を強化する必要があります。最適化戦略はさまざまですが、一般的にはデータ表現とモデル構造を最適化することを目的としています。 3.1 ボクセルベースの3D物体検出ディープラーニングにおける PC の繁栄の恩恵を受けて、ポイントベースの 3D オブジェクト検出は多くのフレームワークを継承し、前処理なしで生のポイントから直接 3D オブジェクトを検出することを提案しています。ボクセルベースの方法と比較して、元のポイント クラウドは最大量の元の情報を保持するため、きめ細かい特徴の取得に役立ち、高い精度が得られます。同時に、PointNet に関する一連の研究は、当然のことながら、ポイントベースの方法論に強力な基盤を提供します。ポイントベースの 3D オブジェクト検出器には、ポイント クラウド サンプリングと特徴学習という 2 つの基本コンポーネントがあります。現在まで、ポイントベースの方法のパフォーマンスは、コンテキスト ポイントの数と特徴学習で採用されたコンテキスト半径という 2 つの要因によって影響を受けています。たとえば、コンテキスト ポイントの数を増やすと、より詳細な 3D 情報を取得できますが、モデルの推論時間が大幅に長くなります。同様に、コンテキスト半径を小さくすることでも同じ効果が得られます。したがって、これら 2 つの要素に適切な値を選択すると、モデルの精度と速度のバランスが取れます。さらに、ポイント クラウド内のすべてのポイントに対して計算を実行する必要があるため、ポイント クラウド サンプリング プロセスがポイント ベース メソッドのリアルタイム操作を制限する主な要因となります。具体的には、上記の問題を解決するために、既存の方法のほとんどは、ポイントベースの3Dオブジェクト検出器の2つの基本コンポーネントを最適化することに重点を置いています。1)ポイントサンプリング2)特徴学習 3.2 ポイントベースの3Dオブジェクト検出ポイントベースの 3D オブジェクト検出方法は、多くのディープラーニング フレームワークを継承し、前処理なしで生のポイント クラウドから直接 3D オブジェクトを検出することを提案します。ボクセルベースの方法と比較して、元のポイントクラウドは元の情報を最大限に保持するため、きめ細かい特徴の取得に役立ち、高い精度を実現します。同時に、PointNet シリーズの作業は、ポイントベースの方法の強力な基盤を提供します。ただし、現在のところ、ポイントベースの方法のパフォーマンスは、コンテキスト ポイントの数と特徴学習で使用されるコンテキスト半径という 2 つの要因によって影響を受けています。たとえば、コンテキスト ポイントの数を増やすと、より詳細な 3D 情報を取得できますが、モデルの推論時間が大幅に長くなります。同様に、コンテキスト半径を小さくすることでも同じ効果が得られます。したがって、これら 2 つの要素に適切な値を選択すると、モデルは精度と速度のバランスを実現できるようになります。さらに、ポイント クラウドのサンプリング プロセスは、ポイント クラウド内の各ポイントに対して計算を実行する必要があるため、ポイント ベース メソッドのリアルタイム操作を制限する主な要因となります。これらの問題に対処するために、既存の方法では主に、ポイントベースの 3D オブジェクト検出器の 2 つの基本コンポーネント (1) ポイント クラウド サンプリング、2) 特徴学習を最適化します。 最遠点サンプリング (FPS) は PointNet++ に由来し、ポイントベースの方法で広く使用されているポイント クラウド サンプリング方法です。その目的は、元のポイント クラウドから代表的なポイントのセットを選択し、それらの間の距離が最大化されるようにして、ポイント クラウド全体の空間分布を最適にカバーすることです。 PointRCNN は、PointNet++ をバックボーン ネットワークとして使用する、ポイント ベース メソッドにおける画期的な 2 段階検出器です。最初の段階では、ポイント クラウドからボトムアップ方式で 3D 提案を生成します。第 2 段階では、意味的特徴とローカル空間的特徴を組み合わせて提案を洗練させます。しかし、既存の FPS ベースの方法には、まだいくつかの問題があります。1) 検出に関係のないポイントもサンプリング プロセスに含まれるため、追加の計算負荷が発生します。2) ポイントがオブジェクトのさまざまな部分に不均一に分散されているため、サンプリング戦略が最適ではありません。これらの問題に対処するために、その後の研究では FPS に似た設計パラダイムを採用し、セグメンテーションガイド付き背景ポイントフィルタリング、ランダムサンプリング、特徴空間サンプリング、ボクセルベースのサンプリング、レイグループ化ベースのサンプリングなどの改善を加えました。 ポイントベースの 3D オブジェクト検出方法の特徴学習段階では、スパース ポイント クラウド データから識別的な特徴表現を抽出することを目的としています。特徴学習段階で使用されるニューラル ネットワークには、次の特性が必要です。1) 不変性。ポイント クラウド バックボーン ネットワークは、入力ポイント クラウドの順序に影響されない必要があります。2) ローカル認識能力。ローカル領域を認識してモデル化し、ローカルの特徴を抽出できます。3) コンテキスト情報を統合する機能。グローバルおよびローカルのコンテキスト情報から特徴を抽出できます。上記の特性に基づいて、生のポイントクラウドを処理するための検出器が多数設計されています。ほとんどの方法は、使用されるコア演算子に応じて、次のカテゴリに分類できます。1) PointNet ベースの方法、2) グラフ ニューラル ネットワーク ベースの方法、3) トランスフォーマー ベースの方法。 PointNetベースの方法PointNet ベースの方法は、主にセット抽象化を利用して、元のポイントをダウンサンプリングし、ローカル情報を集約し、元のポイントの対称不変性を維持しながらコンテキスト情報を統合します。 Point-RCNN はポイントベースの手法の中では初めての 2 段階の作業であり、優れたパフォーマンスを実現していますが、依然として計算コストが高いという問題に直面しています。その後の研究では、検出プロセスに追加のセマンティックセグメンテーションタスクを導入し、検出に最も寄与しない背景ポイントを除外することでこの問題を解決しました。 グラフニューラルネットワークに基づく手法グラフ ニューラル ネットワーク (GNN) には、適応構造、動的な近傍、ローカルおよびグローバルなコンテキスト関係を構築する機能、不規則なサンプリングに対する堅牢性が備わっています。 Point-GNN は、自動登録メカニズム、マージ、スコアリング操作を通じてオブジェクトのカテゴリと形状を予測する単一ステージのグラフ ニューラル ネットワークを設計する先駆的な研究であり、3D オブジェクト検出の新しい方法としてグラフ ニューラル ネットワークを使用する可能性を示しています。 トランスフォーマーベースの方法近年、Transformer はポイント クラウド分析で研究され、多くのタスクで優れたパフォーマンスを発揮しています。例えば、Pointformer[21]は3Dポイントクラウドを処理するためにローカルおよびグローバルアテンションモジュールを導入し、ローカルTransformerモジュールはローカルエリア内のポイント間の相互作用をモデル化するために使用され、グローバルTransformerはシーンレベルのコンテキスト認識表現を学習するように設計されました。グループフリーは、ポイント クラウド内のすべてのポイントを直接利用して各オブジェクト候補の特徴を計算します。各ポイントの寄与は、自動的に学習されたアテンション モジュールによって決定されます。これらの方法は、構造化されていない、順序付けられていない生のポイント クラウドを処理する際の Transformer ベースの方法の可能性を示しています。 3.3 ポイントボクセルベースの3Dオブジェクト検出ポイント クラウド ベースの 3D オブジェクト検出方法は、高解像度を提供し、元のデータの空間構造を保持しますが、スパース データを処理する場合、計算の複雑さが高く、効率が低いという問題があります。対照的に、ボクセルベースの方法は構造化されたデータ表現を提供し、計算効率を向上させ、従来の畳み込みニューラル ネットワーク技術の適用を容易にします。ただし、通常は離散化プロセスにより微妙な空間詳細が失われます。これらの問題に対処するために、ポイントボクセル (PV) ベースの方法が開発されました。ポイントボクセル法は、ポイントベース法のきめ細かい情報取得機能とボクセルベース法の計算効率を活用することを目的としています。これらの方法を統合することで、ポイントボクセルベースのアプローチは、グローバル構造と微細幾何学的詳細の両方をキャプチャしながら、ポイントクラウドデータをより詳細に処理できるようになります。自動運転システムの意思決定精度は高精度の検出結果に依存するため、これは自動運転における安全な認識にとって非常に重要です。 ポイントからボクセルへの変換法の主な目的は、ポイントからボクセルまたはボクセルからポイントへの変換を通じて、ボクセルとポイント間の特徴の相互作用を実現することです。多くの研究で、バックボーン ネットワークでポイントとボクセルの特徴の融合を活用するというアイデアが検討されてきました。これらの方法は、1) 早期融合、2) 後期融合の 2 つのカテゴリに分けられます。 a)初期の融合: いくつかの方法では、新しい畳み込み演算子を使用してボクセルとポイントの特徴を融合することが検討されており、PVCNN はこの方向での最初の研究である可能性があります。この方法では、ボクセルベースのブランチは最初にポイントを低解像度のボクセル グリッドに変換し、畳み込みによって隣接するボクセルの特徴を集約します。次に、ボクセルレベルの特徴は、デボクセル化と呼ばれるプロセスを通じてポイントレベルの特徴に戻され、ポイントベースのブランチによって取得された特徴と融合されます。ポイントベースのブランチは、個々のポイントごとに特徴を抽出します。この方法は、隣接する情報を集約しないため、より高速に実行できます。その後、SPVCNN は PVCNN に基づく物体検出の分野に拡張されました。他の方法では、補助タスクやマルチスケール機能の融合など、さまざまな観点から改善を試みます。 b)後期融合: この一連の方法は、主に 2 段階の検出フレームワークを採用しています。まず、ボクセルベースのアプローチを使用して予備的なオブジェクト提案が生成されます。次に、ポイントレベルの特徴を使用して検出ボックスを正確に分割します。 Shi らによって提案された PV-RCNN は、ポイントボクセルベースの方法におけるマイルストーンです。これは、第 1 段階の検出器として SECOND を使用し、キーポイント機能の融合のために RoI グリッド プーリングを使用した第 2 段階の改良段階を提案します。その後の作業は主に上記のパラダイムに従い、検出の第 2 フェーズの進行に焦点を当てています。注目すべき開発には、アテンション メカニズム、スケールを考慮したプーリング、ポイント密度を考慮した改良モジュールなどがあります。 ポイントボクセルベースの方法は、ボクセルベースの方法の計算効率と、ポイントベースの方法のきめ細かい情報を取得する能力の両方を備えています。ただし、ポイント対ボクセルまたはボクセル対ポイントの関係を構築したり、ボクセルとポイントの特徴を融合したりすると、追加の計算オーバーヘッドが発生します。したがって、ボクセルベースの方法と比較して、ポイントボクセルベースの 提案された方法は、より高い検出精度を達成できますが、推論時間が長くなるという欠点があります。 4. マルチモーダル3Dオブジェクト検出4.1 投影ベースの3D物体検出投影ベースの 3D オブジェクト検出方法では、特徴融合段階で投影マトリックスを使用して、ポイント クラウドと画像の特徴を統合します。ここで重要なのは、データ拡張などの融合段階における他の投影プロセスではなく、特徴融合中の投影に焦点を当てることです。融合段階で使用されるさまざまなタイプの投影に応じて、投影ベースの 3D オブジェクト検出方法はさらに次のカテゴリに分類できます。
これらの方法は、投影技術を使用してマルチモーダル3Dオブジェクト検出の特徴融合を実現する方法を示していますが、異なるモダリティと精度の間の相互作用に対処する際に特定の制限があります。 4.2非プロジェクションベースの3Dオブジェクト検出非プロジェクト3Dオブジェクト検出方法は、機能アライメントに依存しないことで融合を実現し、堅牢な特徴表現を生成します。カメラからライダーへの投影の制限を回避します。これは、通常、カメラ機能の意味密度を低下させ、Focals ConvやPointpaintingなどの技術の有効性に影響します。非投影法は通常、クロスアテンションメカニズムを採用するか、直接的な特徴投影における固有の不整合の問題に対処するための統一スペースを構築します。これらの方法は、主に2つのカテゴリに分けることができます。(1)クエリ学習ベースの方法と(2)統一された機能ベースの方法。クエリ学習ベースの方法は、融合プロセス中のアライメントの必要性を完全に回避します。対照的に、統一された特徴ベースの方法は、統一された機能空間を構築しますが、通常、単一のモダリティコンテキストで発生することはありません。たとえば、BevFusionはカメラからベフへの投影にLSSを利用します。このプロセスは、融合の前に発生し、機能が誤っているシナリオでは非常に堅牢であることが示されています。
Virconv、MSMDFusion、およびSFDは、擬似点雲を介して統一された空間を構築し、機能学習前に投影が行われます。直接投影によって導入される問題は、その後の機能学習を通じて解決されます。要約すると、統一された機能ベースの3Dオブジェクト検出方法は現在、非常に正確で堅牢なソリューションを表しています。投影マトリックスが含まれていますが、この投影はマルチモーダル融合の間では発生しないため、非プロジェクト3Dオブジェクト検出方法と見なされます。自動投影ベースの3Dオブジェクト検出方法とは異なり、投影エラーの問題を直接解決するわけではありませんが、統一されたスペースを構築し、マルチモーダル3Dオブジェクト検出の複数の寸法を検討して、非常に堅牢なマルチモーダル機能を取得することを選択します。 5. 結論3Dオブジェクト検出は、自律的な駆動知覚において重要な役割を果たします。近年、この分野は急速に発展し、多数の研究論文を作成しました。センサーによって生成される多様なデータフォームに基づいて、これらのメソッドは、主に画像ベース、ポイントクラウドベース、マルチモーダルの3つのタイプに分割できます。これらの方法の主な評価メトリックは、高精度と低遅延です。多くのレビューは、これらのアプローチを要約し、主に「高精度と低レイテンシ」の中核原則に焦点を当て、技術的な軌跡を説明しています。 ただし、ブレークスルーから自律運転技術の実用的なアプリケーションにシフトする過程で、既存のレビューは安全性の認識を焦点とすることはなく、安全性認識に関連する現在の技術的経路をカバーできません。たとえば、最近のマルチモーダル融合法は、実験段階で堅牢性テストを行うことがよくあります。これは、現在のレビューでは完全には考慮されていない側面です。 したがって、3Dオブジェクト検出アルゴリズムの再審査は、重要な側面として「精度、遅延、堅牢性」に焦点を当てています。私たちは、セキュリティ認識の観点からそれらを再生することに特に重点を置いて、以前のレビューを再分類しました。うまくいけば、この作業が、単に高精度を探ることの制限を超えて、3Dオブジェクト検出に関する将来の研究に関する新しい洞察を提供することを願っています。 |
<<: アルトマン氏の地位は再び危険にさらされているのか? ! OpenAIの取締役会が競合他社の参加を呼びかけ、Google Geminiの幹部を引き抜いた
AI界の巨人ジェフリー・ヒントン氏は「テクノロジー企業は今後18カ月で、現在のGPT-4の100倍の...
多くのコンテンツ作成プロジェクトでは、単純なスケッチをリアルな絵に変換する必要があります。これには、...
企業のデジタル変革が深まるにつれ、人工知能技術はますます成熟し、ロボットによる顧客サービスは数千の業...
9月10日、テンセントクラウドは9月7日に開催された2023テンセントグローバルデジタルエコシステム...
[[405121]] 【51CTO.com クイック翻訳】企業の AI プロジェクトの失敗率が 85...
最近、Google Brain の従業員であり TensorFlow プロダクト マネージャーでもあ...
2023 年には、マルチモーダル大規模モデルの飛躍的な発展が見られるでしょう。マルチモーダル大規模言...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
人工知能が両親の写真から子供の顔を合成、親族関係生成のためのディープラーニング 概要: この論文では...
[[313942]] [51CTO.com クイック翻訳] ご存知のとおり、ディープラーニングは人...
最近、ルカン氏を含む一群の大物が再びLLMを攻撃し始めた。最新のブレークスルーは、LLM にはまった...
あなたに関するあらゆることが、さまざまな形で世界に明らかにされています。 [[387859]] 3月...