ワンジ自動車ミリ波レーダーポイントクラウド技術の分析

レーダー点群のセマンティックセグメンテーションは、レーダーデータ処理における新たな課題です。このタスクを実行する方法を示し、手動でラベル付けされたレーダー反射率の大規模なデータセットを提供します。反射をクラスタリングして生成された特徴ベクトルを分類器への入力として取得する代わりに、レーダーポイントクラウド全体を入力として取得し、各反射のクラス確率を取得します。したがって、クラスタリングアルゴリズムと手動による特徴選択は不要になります。

1 はじめに

過去数年間で、画像分析は、画像内の中心となるオブジェクトを単純に分類し、オブジェクトまたはオブジェクトの一部を検出することから、セマンティックセグメンテーションという単一の複合タスクへと移行しました。セマンティックインスタンスセグメンテーションは、物理的に異なるオブジェクトの同じクラスラベルのピクセルを区別することでセマンティックセグメンテーションを強化し、ピクセル単位の分類に加えてオブジェクトインスタンスをグループ化します。

セマンティックセグメンテーションは通常、エンコーダー-デコーダー構造として表現されるディープ畳み込みニューラルネットワークによって実行されます。これらのアーキテクチャはすべて、規則的な画像構造、つまり等間隔のピクセルを持つ長方形のグリッドに依存しています。完全畳み込みネットワークを使用する場合、グリッドのサイズ、つまり画像の幅と高さが変化する可能性があります。長方形グリッドはピクセル間の距離と近傍関係を誘導し、空間拡張が 1 ピクセルより大きい畳み込みカーネルによって利用されます。したがって、カメラをセンサーとして使用する場合、これらの方法は正常に機能します。ミリ波レーダーと LiDAR センサーがカメラを補完し、機能上の安全性を維持します。これらの追加センサーは補完的であるだけでなく、冗長性も必要です。したがって、ミリ波レーダーとライダーから周囲の環境に関する高度な意味的理解も得ることが最善です。

この記事では、レーダーデータに対してセマンティックセグメンテーションを実行します。つまり、測定された各反射点にクラスラベルを割り当てます。私たちは動的オブジェクトに焦点を当て、自動車、トラック、歩行者、歩行者のグループ、自転車、静的オブジェクトの 6 つの異なるクラスをターゲットにしています。一定誤警報率 (CFAR) アルゴリズムを適用した後に取得されたレーダー検出結果はポイントクラウドを構成します。ポイントクラウド P は、N∈N ポイントの集合 pi∈Rd、i = 1、…、N として定義されます。ポイントクラウド内のポイントの順序は重要ではありません。反射ごとに、2 つの空間座標 (半径距離 r と方位角 φ)、自己運動補正ドップラー速度 vˆr、およびレーダー断面積 (RCS) σ を測定する必要があります。したがって、セマンティックセグメンテーションタスクでは 4D ポイントクラウドを処理する必要があります。レーダー反射の空間密度は劇的に変化するため、大規模なグリッドマッピング手法は計算上実行不可能になります。そのため、カメラ画像用の通常のネットワーク構造は適用できません。画像のような入力を必要としないアルゴリズムの必要性は、200 ミリ秒間にわたって 4 つのレーダーから収集されたレーダー検出データを示す図 1 から読み取ることができます。この図では、測定が行われなかった広い領域と反射が多い領域が確認できます。約 2,000 個の個別の反射を含むシーン全体のグリッドマップは、少なくとも 150 m x 200 m の広い空間領域をカバーする必要があり、セルサイズが 1 m x 1 m の非常に低い解像度であっても、グリッド内のピクセルの最大 6% がゼロ以外の値を持ちます。

図 1. 200 ミリ秒間のレーダー点群の蓄積。 3 つの異なる車種の反射を強調します。全文ビューの抜粋のみを表示

したがって、セグメンテーションアルゴリズムの基礎として PointNet++ を使用します。 PointNet++ はポイントクラウド上で直接動作することができ、元々はレーザースキャナーからの 3D 空間データを処理するために設計されました。本稿では、2 つの空間次元と 2 つの追加の特徴次元を処理できるようにアーキテクチャを変更します。

以前の研究では、クラスター化されたレーダー反射から得られた特徴ベクトルに対して分類が実行されました。新しいアプローチでは、レーダーターゲットをクラスターにグループ化し、これらのクラスターから事前定義された特徴ベクトルを生成するという 2 つの前処理手順を回避します。これらは、私たちの新しい方法が以前の方法よりも大幅に優れていることを示しています。

この論文の残りの部分は次のように構成されています。セクション 2 では、このトピックに関する関連研究と他のアプローチについて説明します。その後、ネットワークアーキテクチャについてさらに詳しく説明し、トレーニングとテストの手順について説明します。セクションIVでは、結果を示し、それを以前の方法と比較します。最後に、今後の取り組みに期待しています。

2 関連研究

セマンティックセグメンテーションは、カメラをセンサーとして使用する場合によく使用されるアプローチであり、ほとんどのアルゴリズムは画像データに合わせて調整されています。完全畳み込みネットワークの導入は、SegNet、U-Net、R-CNN、およびその後継の Fast R-CNN、Faster R-CNN、Mask R-CNN など、多くの類似した、そして後にさらに高度なニューラルネットワーク構造に影響を与えました。これらの技術をレーダーデータに適用するには、何らかの前処理を実行する必要があります。グリッドマップは、空間的に不均一なレーダー反射率を画像データに変換する方法を提供します。測定された反射は時間の経過とともに積分され、マップ内の対応する位置に補間されます。この方法では、グリッドの占有の事後確率を記述する占有グリッドマップや、各グリッドの反射の測定された RCS 値に関する情報を提供する RCS マップなど、さまざまなマップを作成できます。このアプローチは、マップ内の正しい位置で異なる時間にレーダー反射を補間するために、（追加のオブジェクトの速度や軌道ではなく）自己運動のみを考慮する必要があるため、静的オブジェクトに適しています。この研究で考慮される動的オブジェクトの場合、正確な拡張ターゲット追跡アルゴリズムが必要であるか、オブジェクトのダイナミクスが特徴として考慮され、動的オブジェクトがマップ内に拡張された反射テールを作成する必要があります。もう 1 つの難点は、比較的少数の測定値を表示するには潜在的に大きなグリッドが必要になるため、グリッドマッピングはスパースデータには効果的ではないことです。

私たちの知る限りでは、移動物体の自動車レーダーデータのセマンティックセグメンテーションはこれまで実行されたことがありません。分類は、小さなデータセットまたは大量のシミュレートされたデータに対してのみ実行されます。

3つの方法

A. ネットワーク構造

Qiら[21]は、ポイントクラウドを直接処理するためのPointNetおよびPointNet++メソッドを提供し、事前のマッピングステップの必要性を排除しました。屋内シーンの 3D スキャンのメッシュからポイントをサンプリングして取得した 3D ポイントクラウドに対してセマンティックセグメンテーションを実行します。私たちは彼らのアーキテクチャを私たちのアプローチの基礎として使用します。ただし、私たちの実験で使用するレーダーデータは、次の点で 3D 屋内データとは異なります。まず、各レーダー反射点には 3 つの空間座標ではなく 2 つの空間座標のみが含まれますが、ドップラー速度と自己運動補正用の RCS 値という 2 つの追加値により、点群全体の各点 pi は 4 次元になります。第二に、私たちのデータは密度とサンプリングレートに大きなばらつきがあることを示しています。スタンフォード大学の 3D セマンティック分析データセットからの 3D スキャンは、オフィス内部の詳細を確認できる高密度のポイントクラウドを提供しますが、私たちのレーダーデータではオブジェクトごとに反射の数が少ないため、小さいオブジェクトや遠いオブジェクトの輪郭さえも正しくキャプチャできません (図 1 を参照)。

マルチスケールグループ化モジュール (MSG) と特徴伝播モジュール (FP) は、PointNet++ で定義されています。 MSG モジュールは、中心点の周りのさまざまなサイズの近傍を考慮し、これらの近傍を記述する中心点の位置に結合された特徴ベクトルを作成します。このモジュールは、選択、グループ化、機能生成の 3 つのステップで構成されます。まず、入力ポイントクラウドを均一にサンプリングするために、最も遠いポイントサンプリングによって入力ポイントクラウドの Nsample ポイントが選択されます。グループ化のステップでは、選択された Nsample ポイントごとに近傍が作成されます。私たちのネットワークでは、近傍は中心点の周りの半径 r 内にある Nneigh 個の点で構成されます。近傍検索では、レーダー反射の 2 つの空間コンポーネントのみが考慮されます。反射点が、指定された検索半径内に Nneigh 個を超える近傍点を持つ場合、見つかった最初の Nneigh 個の点のみが以降の計算に使用されます。見つかった反射点の数が少ない場合は、固定サイズのデータ構造を確保するために最初の近傍点が繰り返されます。各MSGモジュールでは、rとNneighの異なる値を持つ複数の近傍が作成されます。最後のステップでは、形状が (Nsample, Nneigh, cin) の近傍テンソルにフィルターサイズ 1×1 の畳み込み層を適用して、Nsample ポイントごとに特徴が生成されます。ここで、cin はチャネル数です。これにより、サイズ (Nsample、Nneigh、cout) のテンソルが生成され、これに最終的な最大プーリング層が適用され、対応するフィルターの最も高いアクティブ化を持つ近傍の寄与のみが考慮されます。

MSG モジュールの後、出力ポイントクラウド内のポイントの数は入力ポイントクラウド内のポイントの数よりも少なくなるため、より深いレイヤーのポイントには、前のレイヤーのドメインポイントに関する情報を提供する抽象的な特徴がますます多く含まれるようになります。このプロセスは、各レイヤーで画像サイズが縮小される画像処理用の畳み込みネットワークに似ています。図 2 には、レーダー反射の空間位置と自己運動補正ドップラー速度が示され、各 MSG モジュール後の入力ポイントクラウドのサブサンプリングが描かれています。図には示されていませんが、MSG モジュール内の各ポイントに対して生成された高次元の特徴ベクトルがあります。シーンのカメラ画像を図 3 に示します。

セマンティックセグメンテーションでは、サブサンプリングされたポイントクラウドの情報が完全な入力ポイントクラウドに伝播されます。

図 2 は、自己運動補正されたドップラー速度とともに空間座標をプロットしたレーダーポイントクラウドの例の抜粋です。左から右へ: 入力レイヤーのポイントクラウドと、1 番目、2 番目、3 番目の MSG モジュール後のサブサンプリングされたポイントクラウド。データは 500 ミリ秒にわたって蓄積されます。このシーンのカメラ画像は図 3 にあります。

図3 図2と同じシーンのカメラ画像

このタスクは、特徴伝播モジュールによって実行されます。k 層の MSG モジュールの後に k 層の FP モジュールが続き、あまり満たされていないポイントクラウドの特徴を次の上位層に繰り返し伝播します。密なポイントクラウド内の各ポイント pi について、疎なポイントクラウド内の 3 つの最も近い近傍の特徴ベクトルの加重平均が計算され、特徴ベクトルが畳み込み層のセットに渡された後、ポイント pi に割り当てられます。 MSG モジュールの対応するレベルからの接続をスキップすると、機能の伝播が改善されます。

ネットワーク構造は図 4 に示されており、MSG モジュールのパラメータ値も定義されています。

B. データセット

この論文では、2 台の異なる実験車両、つまり車両 A と車両 B によって収集された実際のデータのみを使用します。車両 A には、車両の前部の 2 つの角と側面に取り付けられた 4 つの 77 GHz センサーが装備されています。 100 メートルの範囲内のターゲットを検出するには、センサーの短距離モードのみを使用します。各センサーの視野は ±45° です。

車両Bには、車両Aと同じ仕様のレーダーセンサーが8個搭載されています。 8 つのセンサーは、車両の 4 つの角と、車両の前部左側、前部右側、後部左側、後部右側に取り付けられています。

車両A（B）のデータセットには、4.5時間（6.5分）以上の運転測定値が含まれています。つまり、1億（500万）以上のレーダー反射が収集され、そのうち300万（100,000）は6,200（191）個の異なる移動物体に属しています。同じオブジェクトに属するすべての反射は手動でグループ化され、車、トラック、歩行者、歩行者グループ、自転車、静止物などのカテゴリのラベルが付けられました。 6 つのカテゴリの反射率分布を表 I に示します。この研究では、生のポイントクラウドのみから実際の動的オブジェクトを検出して分類することを目標としているため、以前の研究とは異なり、乱雑さは追加カテゴリとして研究されるのではなく、静的なものとして扱われます。以前の分類器は、実際のオブジェクトから取得されないクラスターと特徴ベクトルを処理する必要があったため、ジャンククラスと実際のオブジェクトを区別する必要がありました。これらの誤って作成されたクラスターと固有ベクトルは、不完全な前処理手順によって発生するものであり、ここではこれを回避しようとします。

表I 6つのカテゴリーのレーダー反射分布

C. トレーニングとテスト

実際のトレーニングを行う前に、ハイパーパラメータを修正する必要があります。 MSG モジュールの数、サンプルポイントの数 Nsample、各 MSG モジュール内の近傍の数とそれぞれの半径 r、各サンプルポイントの近傍ポイントの数 Nneigh、および各モジュール内の畳み込み層の数とサイズを決定する必要があります。これは、ランダムに選択された検証セットで妥当な構成をチェックし、それらの構成を変更してネットワークパフォーマンスをさらに最適化することによって行われます。パラメータ空間のサイズが非常に大きく、それに伴う計算コストも大きいため、パラメータ空間を完全にサンプリングすることは現実的ではありません。

図 4 は、最高のパフォーマンスを実現する最終的に選択されたアーキテクチャを示しています。

図4. ネットワークの構造

赤い矢印はスキップされた接続を示しており、これを通じて MSG モジュールから抽出された特徴が対応するレイヤーの FP モジュールに渡されます。 3つのMSGモジュールのカーネルサイズは、[[32, 32, 64]、[64, 64, 128]]、[[32, 32, 64]、[64, 64, 128]]、[[64, 64, 128]、[64, 64, 128]]です。

評価のために、5段階の交差検証を実施しました。つまり、データセットは 5 つのフォールドに分割され、各フォールドはデータの 20% を占め、各フォールドは 1 回テストに使用され、残りの 4 つのフォールドはトレーニングデータとして使用されます。

トレーニングには車両Aのデータのみが使用されます。車両 B からの測定データは、分類器の一般化能力を確認するためにのみ使用されます。ネットワークは、クロスエントロピーベースの損失関数と Adam 最適化スキームを使用した確率的勾配降下法を使用してトレーニングされます。で公開されている TensorFlow ソースコードの一部を使用しました。

静的データと動的データ間の大きな不均衡（約 9,700 万対 300 万）により、静的クラスの損失関数の重みが下げられ、最適化によってほぼすべてのポイントが静的クラスに割り当てられなくなります。

トレーニングは 30 エポック続き、その間にデータ拡張が実行されました。各特徴次元にランダムノイズが適用され、反射の空間位置と、自己運動補正のための測定された RCS 値およびドップラー速度が変更されました。速度特性は、動的オブジェクトの反射に対してのみ変更されます。さらに、各動的オブジェクトに対して乱数q∈[0,0.3]が生成され、このオブジェクトの各反射はエポック中に確率qで省略され、それによって動的オブジェクトの形状と密度が変化します。

ネットワーク自体には、単一の反射がいつ記録されたかという概念はありませんが、トレーニング中に、長さ T = 500 ms の時間ウィンドウをネットワークに提供することで、ポイントクラウドがより密になり、オブジェクトごとにより多くの反射を考慮できるようになります。最初の測定では、異なる時間帯の反射が車両座標系に変換されます。

ポイントクラウドの入力サイズは 3072 反射に固定されています。 500 ミリ秒の時間ウィンドウ内で 3072 を超える反射が測定された場合、静的カテゴリの反射は削除され、3072 未満の反射が測定された場合は、必要な回数だけ反射が再サンプリングされます。ネットワーク構造の最大プーリング層により、このオーバーサンプリングによってセマンティックセグメンテーションの結果は変わりません。

テスト中、次の 3072 回の反射が測定時間順にネットワークを通過するため、オーバーサンプリングやアンダーサンプリングは必要ありません。

トレーニングは、Nvidia GeForce GTX 1070 GPU を搭載した Linux ワークステーションで行われました。

4 件の結果

私たちのシステムは、6×6 混同行列とマクロ平均 F1 スコア (以下、単に F1 スコアと呼ぶ) に基づいて評価されます。 F1スコアは精度と再現率の調和平均に対応する[24]。マクロ平均では、クラスごとに個別の F1 スコアが計算され、その後 6 つの値が平均化されるため、クラス数に関係なく、各クラスは合計スコアに均等に貢献します。

A. 最高のパフォーマンスを実現するアーキテクチャ

まず、最高のパフォーマンスを発揮するアーキテクチャを使用して得られた結果を示します。 5 段階交差検証には、車両 A のデータのみを使用します。 2 つの空間座標 x と y (車両座標系) に加えて、自己運動補正されたドップラー速度と RCS 値を使用して入力ポイントクラウドを強化します。したがって、入力として 4D ポイントクラウドを提供します。

結果として得られた混同行列を図 5 に示します。

図 5. 図 4 で説明したネットワーク構造を使用した 5 倍交差検証後の相対混同行列。点群の入力特徴: x、y、vˆr、σ。

当然のことながら、静的ラベルを持つ多数派クラスは、最も高い真陽性値を示します。ただし、ドップラー速度にしきい値を設定し、そのしきい値を下回る速度の反射をすべて静的反射として分類するよりも、移動物体に属する反射と移動していない物体に属する反射を区別することははるかに難しいことに注意する必要があります。実際のシーンでは、移動物体に属さない反射の多くは、走行距離測定誤差、センサーのバイアス、時間同期誤差、ミラー効果、またはその他のセンサーアーティファクトによって発生する、ゼロ以外の自己運動補正ドップラー速度を示します。さらに、ドップラー速度がゼロの反射は、必ずしも静止した物体に属するとは限りません。回転する車の車輪の底部や歩行者の体の部分（歩行方向に対して垂直に動く）も、視線速度を示さない可能性があるからです。

車クラスのオブジェクトは 2 番目によく分類され、次に歩行者グループが続きます。 Truck クラスのオブジェクトは Cars と混同されることがよくあります。この混乱には 2 つの理由があります。まず、遠距離では各物体からの反射がわずかしか測定されないため、物体の空間的な範囲を推測することが困難になります。 2 番目に、たとえば大型 SUV と小型トラックを区別するのが難しいため、自動車とトラックのインスタンス間の遷移はかなりスムーズです。

この図から推測できるもう一つの注目すべき行動は、歩行者と歩行者グループの間の混乱度が高いことです。この動作は、トレーニングデータによって発生する可能性があります。人間の注釈者が 2 人の近くの歩行者の反射を個人に割り当てて、2 人の歩行者のインスタンスを作成できる場合もありますが、これは簡単ではなく、時間がかかりすぎる場合もあります。すべての反射が歩行者グループの単一のインスタンスにタグ付けされます。したがって、タスク自体の複雑さに加えて、ネットワークはグラウンドトゥルースデータの不一致にも対処する必要があります。多くの運転タスクでは、特定のエリアに歩行者が 1 人いるか 2 人いるかを知ることは重要ではないため、2 つのクラスを結合して 91% を超える真陽性率を生成できます。

データセットは非常に不均衡であるため、クラス数に正規化された相対混同行列のみを調べると誤解を招く可能性があります。そのため、図 6 には絶対値を持つ混同行列も示します。この視覚化では、ネットワークによって多くの誤検知の動的オブジェクトが作成されていることが強調されています (図の最後の行)。この効果は車のクラスで最も顕著で、予測された車の反射のうち動的オブジェクトは 68% のみです (図 6 の最初の列を参照)。ただし、自動車アプリケーションの場合、動的オブジェクトに対する高い偽陽性率の方が、高い偽陰性率よりも好ましい場合があります。静的クラスの損失関数の重みを下げると、偽陽性の値が高くなるため、このパラメータを使用すると、偽陽性と偽陰性のトレードオフを抑えることができます。

図 6 図 4 で説明したネットワーク構造を使用した 5 倍交差検証後の絶対混同行列。点群の入力特徴: x、y、vˆr、σ。

動的反射と静的反射の混同率 (図 5 の混同マトリックスの最後の列) は、無視されたオブジェクトの割合を表すものではないことに注意してください。動的オブジェクトの反射が 1 つだけ正しく分類され、同じオブジェクトの他の反射が静的として分類された場合、偽陰性カウントが増加しても、オブジェクトは検出されます。

B. 入力機能の変更

ネットワークにとってどのような情報が有用であるかをより深く理解するために、3つの異なる入力特徴セット f1 = x, y, vˆr 、f2 = x, y, σ 、f3 = x, y で5分割交差検証を繰り返し、その結果を元の特徴 f0 = x, y, vˆr, σ と比較しました。表IIに、各入力構成のF1スコアを示します。この表から以下の点が分かります。ネットワークに提示される入力機能が増えるほど、パフォーマンスは向上します。各反射の RCS 値を入力特徴に追加すると、F1 スコアがわずかに増加します (0.7303 から 0.7425)。一方、自己運動補正のためにドップラー速度を追加すると、より大きな影響があり、スコアがほぼ 0.1 増加します。ドップラー速度の特徴としての重要性はそれほど高くないにもかかわらず、入力特徴 f2 と f3 に対してネットワークのパフォーマンスが依然としてランダムな推測よりも大幅に優れていることは興味深いことです。つまり、反射の空間コンテキストはネットワークにとって非常に表現力豊かな特徴であり、分類ステップの基礎を形成し、その後に速度と RCS 値という追加の特徴が続きます。

表II 異なる入力特徴の分類スコア

C. 試験車両Bのデータ

これまでは、車両 A のデータのみがトレーニングとテストに使用されていました。次に、車両 A のデータのみでトレーニングされたネットワークを使用して、車両 B によって測定された反射のクラスを予測します。この設定は 2 つの点で異なります。まず、車両 B には 4 個ではなく 8 個のレーダーセンサーが搭載されており、車両 A の主に前面と側面のセットアップとは異なり、車両の周囲 360 度のビューが提供されます。一方、車両 A のデータはドイツの都市部と農村部の道路の両方で収集されましたが、車両 B のデータは米国でのみ収集されました。さまざまな道路や街路の設計、そして平均して大型の車が、アルゴリズムに課題をもたらします。

この新しいデータに最高のパフォーマンスを発揮するネットワークを適用すると、F1 スコアは 0.46 となり、5 倍のクロス検証で得られたスコアよりも大幅に低くなります。試験車両の前部にある 4 つのセンサーを後部にある 4 つのセンサーから独立して評価すると、F1 スコアは 0.48 に増加します。

車両 B のデータセットは車両 A のデータセットに比べて非常に小さいため、結果を慎重に解釈する必要があります。ただし、センサー設定を変更すると、分類器のパフォーマンスに何らかの影響が出ることは明らかです。

D. 従来の方法との比較

以前の研究では、クラスタリングに DBSCAN を使用し、分類に LSTM ネットワークを使用して、特徴ベクトルシーケンスのクラスラベルを生成しました。以前、グラウンドトゥルースクラスターで生成された特徴ベクトルのパフォーマンスを測定しました。本論文では、特徴ベクトルのクラスラベルをクラスターの元の反射に投影することによって、このアプローチの評価を行います。

同じデータセットで LSTM ネットワークと新しい方法をトレーニングし、同じテストセットで両方の方法を評価します。公平な比較を行うために、LSTM はグラウンドトゥルースクラスターの特徴ベクトルではなく、ポイントクラウドに DBSCAN を適用して取得したクラスターから生成された特徴ベクトルでテストされます。現在のアプローチとは異なり、LSTM は、特徴ベクトルが実際のオブジェクトに属していないクラスターから取得された場合、それをガベージとして分類することも学習します。 LSTM がそのような特徴ベクトルを拒否した場合、比較では関連するポイントを静的なものとして扱います。

私たちの新しい方法は、この選択されたテストセットで F1 スコア 0.734 を達成しましたが、DBSCAN + LSTM 方法では 0.597 しか達成されません。新しい方法では、生成される偽陽性の動的オブジェクトが少なくなり、すべてのクラスで真陽性の数が多くなります。最も興味深い特徴は、誤って静止していると判断された反射体が 3 倍も少なくなり、見落とされる物体も減った可能性があることです。動的オブジェクトから発生する反射と静的クラスから発生する反射の混同は、LSTM の分類結果が不十分なだけでなく、主にクラスタリングが不十分なために LSTM が一部の反射を分類できないことに起因します。

E. 視覚化

シーンを順方向に通過する際に、さまざまなネットワークレイヤーの出力を視覚化することは有用です。図 2 は、入力ステージと 3 つの MSG モジュール後のサンプルシーンの空間位置とドップラー速度を示しています。

1×1 畳み込みのみが実行されるため、異なるレイヤーの畳み込みカーネルを視覚化することは困難であり、フィルター自体の意味のある画像が存在しないため、視覚化が困難です。ただし、最後の畳み込み層の前に、さまざまなシーンをネットワークに渡し、ネットワーク出力を収集することができます。この出力では、各クラスから 1000 個のポイントとその 128 次元の特徴ベクトルをランダムに選択し、この高次元ポイントクラウドを t-SNE 次元削減アルゴリズムに渡して 2D ポイントクラウドを取得します。これは図 7 に反映されており、自動車、トラック、自転車、静的カテゴリの 4 つの異なるクラスターが見られることがわかります。図 5 の混同行列によれば、歩行者または歩行者グループからの反射は適切に分離されていません。自動車と自転車のクラスの反射により、ポイントクラウドの中心が豊かになり、分類が難しいポイントが表示されます。最後に、図 8 は図 2 と同じシーンを示していますが、ドップラー速度の代わりに予測されたクラスラベルが表示されています。歩行者、トラック、車の 3 つのクラスがすべて正しく識別されました。ただし、右端の歩行者の後ろにある雑然としたものの一部が歩行者グループとして誤って分類されており、車の後ろにある反射の一部も車クラスとして誤って分類されています。それにもかかわらず、シーンの意味情報は依然として適切に表現されています。

図 7. ネットワークの最後から 2 番目の畳み込み層の 128 次元特徴ベクトルの 2D 埋め込み。埋め込みは非線形 t-SNE 法を使用して実行されます。

図 8. サンプルシーンの各反射の予測クラスラベル。ポイントクラウドとカメラ画像を関連付けるために、境界ボックスが手動で追加されます。

5 結論と展望

この論文では、分類アルゴリズムとして PointNet++ を使用し、レーダーデータのセマンティックセグメンテーションの結果を示します。私たちの新しい方法は、クラスタリングと特徴生成という、現在は廃止された 2 つの前処理手順を含む以前のアプローチよりも優れていることを示します。さらに、RCS 値と自己運動補正ドップラー速度を利用することで分類結果を改善できることも実証しました。その中でもドップラー速度は分類結果に大きな影響を与えます。

今後の作業では、2つの異なる側面に焦点を当てます。一方で、時間情報をネットワークに組み込むことは有益であるように思われます。オブジェクトの一時的な進化は、少なくとも静的クラスインスタンスと動的クラスインスタンスの区別を改善する記述機能です。この目標を達成するための 1 つの方法は、リカレントニューラルネットワーク構造を PointNet++ に統合することです。より簡単な方法は、測定タイムスタンプを追加機能として提示することです。一方、セマンティックインスタンスセグメンテーションの拡張が必要です。現在、各リフレクションに対してクラスラベルのみが提供されており、リフレクションが属するオブジェクトインスタンスの概念についての知識はありません。したがって、シーン内に存在する異なるオブジェクトの数はわかりませんが、1 つのオブジェクトクラスに属する反射の量のみがわかります。クラス認識クラスタリングアルゴリズムは、リフレクションからインスタンスを生成する 1 つの方法ですが、インスタンス学習とクラス関連付けを組み合わせると、全体的なパフォーマンスが向上する可能性があります。

<<: ジャック・マー氏の予測は現実になるかもしれない。今後20年間で、仕事の50%が徐々に消滅するだろう。あなたもその中にいないことを祈ります

>>: 政府における人工知能の積極的な役割