座標系の変換を本当に理解していますか?自動運転にはマルチセンサーが不可欠

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

1. 先駆者と集中

この記事では、主に自動運転技術でよく使われるいくつかの座標系を紹介し、それらの間の関連付けと変換を完了し、最終的に統一された環境モデルを構築する方法について説明します。ここで重要なのは、車両からカメラへの剛体変換 (外部パラメーター)、カメラから画像への変換 (内部パラメーター)、および画像からピクセル単位への変換を理解することです。 3D から 2D への変換では、それに応じた歪みや変換などが生じます。
要点: 車両座標系 <-> カメラ本体座標系 <-> 画像平面座標系 <-> ピクセル座標系 難しさ: 画像の歪みを考慮する必要があります。補正のために、画像平面上で歪みの除去と歪みの追加の両方が実行されます。

II. はじめに

視覚システムには、ピクセル平面座標系 (u、v)、画像座標系 (x、y)、カメラ座標系 ()、ワールド座標系 () の 4 つの座標系があります。各座標系の間には関連性があるため、画像ピクセル座標を介して世界座標系の座標をどのように特定するかは、カメラキャリブレーションを通じて解決する必要があります。アルゴリズムの重要な部分は座標系の変換にあり、同次座標の表現を通じて変換を完了する必要があります。

3つのセンサー座標系

3.1 カメラ座標系

カメラの機能は、3次元世界の形や色の情報を2次元画像に圧縮することです。カメラベースの認識アルゴリズムは、車線、車両、歩行者などの 2 次元画像から 3 次元世界の要素と情報を抽出して復元し、それらの相対位置を計算します。知覚アルゴリズムとカメラに関連する座標系には、画像座標系（ピクセル座標系）、カメラ座標系、画像平面座標系などがあります。

3.1.1 画像座標系（またはピクセル座標系）

コンピュータに保存されている写真や画像は、通常、左上隅を原点とし、右を正の x 方向、下を正の y 方向とします。最も一般的に使用される単位は「ピクセル」です。画像座標系は、(Xv、Yv) とマークされた 2 次元座標系です。

3.1.2 カメラ座標系

画像座標系は右が x、下が y なので、カメラ座標系はレンズの主光軸の中心を原点とします。一般的に、右が正の x 方向、下が正の y 方向、正面が正の z 方向です。このように、x方向とy方向は画像座標系の方向と一致し、z方向は被写界深度となり、カメラ座標系は（Xc、Yc）として記録されます。

3.1.3 像面座標系（または結像座標系）

3次元空間から2次元画像への写像関係を定量的に記述するために、グラフィックスにおいて画像平面座標系が導入されている。これはカメラ座標系の変換であり、中心はカメラの主光軸上にあり、光軸の中心からの距離はカメラの焦点距離に等しい。 カメラは、光軸の中心、つまり実像面 (Xf、Yf) の後ろのフィルム上に縮小された反転像を形成することが分かっています。ただし、解析と計算の便宜上、光軸の中心より前方に仮想像面を設定します。仮想像面上の像は正像であり、実像と同じ大きさである。

画像平面座標系

3.5 世界座標系

状況に応じて、カメラによって取り込まれたあらゆるオブジェクトを表すことができます。単位：m

世界座標系、カメラ座標系、画像座標系ピクセル座標系

4つのLiDAR座標系

LiDAR（Light Detection and Ranging）は、レーザー光線を使用して物体までの距離を測定する長距離検知技術です。光線は360度回転して放射され、さまざまなターゲットのさまざまな反射によって電気雲が形成されます。自動運転やロボット工学の分野では、LiDAR は周囲の環境の 3D 情報を取得するための主要なセンサーとしてよく使用されます。ほとんどの場合、Lidar 座標系は右手系ですが、具体的な定義は Lidar メーカーによって異なる場合があります。

4.1 定義

X 軸: 通常は LiDAR の前面を指します。レーザービームが正面に発射されると、その方向への距離測定では X 軸に正の値が生成されます。 Y 軸: 通常は LiDAR の左側を指します。レーザービームがまっすぐ左に放射されると、その方向への距離測定により、Y 軸に正の値が生成されます。 Z 軸: 通常は LiDAR 上で上向きになり、X 軸と Y 軸に垂直になります。高さの測定は通常、Z 軸に沿って行われ、正の値は Lidar デバイスの上にあるオブジェクトを表し、負の値は Lidar デバイスの下にあるオブジェクトを表します。

4.2 重要性

車載 LiDAR システムの座標系は車両座標系と完全に一致しない場合があり、両者の間で座標を変換するには変換行列が必要です。
データ注釈、マップ生成、オブジェクト検出などのタスクでは、Lidar 座標系を明確に定義する必要があります。
カメラなどの他のセンサーとのデータ融合では、正しいデータの位置合わせと融合を実行するために、それぞれの座標系を知ることが重要です。
カメラ、レーダー、またはその他のセンサーとのデータ融合を実行する場合、通常、LiDAR とこれらのセンサー間の座標変換を実行するために、それらの間の外部キャリブレーションパラメーター (回転行列や変換行列など) を知る必要があります。

5台座標系

一般的な環境では、センサーや物体の位置を記述するために基準座標系が選択されます。この座標系は世界座標系と呼ばれます。車両座標系は、一般的に車両の後車軸の中心を原点とする空間座標系を指します（後車軸の中心は車両の揺れによって相対的に変化しないため） 。左前上部または右前上部、左（右）は一般的に水平、前は一般的に縦方向、上部は地面より上の空間を指します。座標系は車両の動きに合わせて移動します。検知して出力する必要があるすべての下流ターゲットは、車両座標系にある必要があります。BEV 視点ターゲットもこの座標系を参照します。

一般的に、3 次元空間座標系では、3 つの直交軸 X、Y、Z を使用して物体の位置を表し、これらの 3 つの直交軸の周りの回転角度 (ロール、ピッチ、ヨー) を使用して物体の姿勢を表します。時間座標系には 1 つの次元しかありません。便宜上、通常は空間座標と時間座標を別々に説明します。

6台のカメラの固有パラメータと外部パラメータ

6.1 カメラの内部

固有パラメータは、3 次元空間から 2 次元画像へのカメラの投影関係を決定するために使用されます。主にカメラ主点、カメラ焦点距離、歪み係数の 3 つのパラメータが含まれます。内部パラメータは通常販売者によって提供され、カメラのキャリブレーションも実行できます。自動運転アプリケーションでは、カメラの固有パラメータは一定であり、使用中に変化しませんが、使用前にキャリブレーションが必要です。カメラの撮影プロセスは、3 次元のカメラ座標系から 2 次元の画像平面座標系にマッピングし、さらに画像座標系にマッピングするプロセスとして抽象化できます。

6.2 焦点距離（f）

これは、イメージセンサーとカメラのレンズ間の距離を表します。通常、2つのパラメータが使用されます（）そして（ ) はそれぞれ画像の x 軸と y 軸を表します。
多くの場合、我々は（ )、つまりピクセルは両方向とも正方形です。

6.3 要点

これは画像内の点であり、通常は画像の中心に近い位置にあります。これは、画像平面に投影されたときに 3D 空間内の点に対応する 2D 点です。
通常、2つのパラメータが使用されます（）そして（）は、画像の x 軸と y 軸の座標に対応していることを示します。

6.4 歪み係数

実際のカメラのレンズでは歪みが生じ、画像が歪むことがあります。一般的な歪みには、放射状歪みと接線方向歪みがあります。
一般的に使用される半径方向の歪み係数は（）。
接線方向の歪み係数は（）。

カメラの固有パラメータは通常、行列として表現できます。

この行列は、固有行列またはカメラ行列と呼ばれることがよくあります。

6.5 カメラ外部関数

たとえば、2 次元画像から 3 次元カメラ座標系におけるオブジェクトの位置を推測し、距離や奥行きの情報を取得します。 2次元画像から3次元の距離情報を取得するには、ワールド座標系における物体の位置を取得する必要がある場合、ワールド座標系におけるカメラの位置と姿勢も知る必要があります。この姿勢表現はカメラの外部パラメータ、または略して外部パラメータと呼ばれ、カメラ座標とワールド座標系間の相対的な位置関係を決定するために使用されます。自動運転アプリケーションでは、この位置関係を取得するには、一連の調整と位置決め作業が必要です。カメラは他の座標系に対して回転+平行移動されます。回転外部パラメータは、前述のオイラー角[ヨー、パッチ、ロール]です。回転順序は通常(zyx)、単位は度です。平行移動外部パラメータは、カメラからターゲット座標系への平行移動距離、単位はメートルです。

7車座標系と世界座標系

7.1 車両座標系

これは車両に固定された座標系です。
通常、X 軸は車両の前方を指し、Y 軸は車両の右側 (または、慣例に応じて左側) を指し、Z 軸は車両の上部を指します。
この座標系の原点は、通常、特定のアプリケーションや規則に応じて、車両の中心、車両の後車軸など、車両上の固定点に配置されます。

7.2 世界座標系

これは、環境内のオブジェクトや車両を記述するために使用される固定されたグローバル座標系です。
ワールド座標系の原点と方向は通常、特定のアプリケーションまたはシナリオに基づいて選択されます。たとえば、マップ上の固定ポイントやシーンの中心に配置できます。
ワールド座標系は、複数のエンティティに共通の参照フレームを提供し、エンティティ間の相対的な配置とナビゲーションを可能にします。

関係と変換: - 車両は世界内を移動しているため、自車両座標系と世界座標系の関係は時間とともに変化します。 - これら 2 つの座標系を変換するには、通常、変換行列または変換 (通常は回転と変換で構成) が必要です。この変換は、さまざまなセンサー (GPS、IMU、LiDAR など) とアルゴリズム (SLAM など) を通じて取得できます。 - 変換は 4x4 同次座標行列として表すことができ、ある座標系から別の座標系に変換できます。

ほとんどの場合、車両座標系は世界座標系と同等であり、この記事でもそのように理解しています。

8つの座標系間の変換関係

8.1 ワールド座標系からカメラ座標系へ

オブジェクト間の座標系変換は、座標系の回転変換と平行移動変換の組み合わせとして表現することができ、ワールド座標系からカメラ座標系への変換関係についても同様です。異なる軸を中心に異なる角度を回転させると、異なる回転行列が生成されます。 Z軸を中心としたθ回転の模式図:

最後に、回転行列として簡単にまとめることができます。

変換: カメラ座標点 () を変換距離 () でワールド座標点に変換します

8.2 カメラ座標系から画像座標系へ

カメラ座標系から画像座標系へは透視投影の関係となり、3D から 2D に変換します。これはピンホールモデルの修正モデルとも言えます。三角形の相似定理を満たします。

8.3 画像座標系からピクセル座標系へ

これは、これまでの座標系変換とは異なります。この時点では回転変換はありませんが、座標原点の位置とサイズが一致していないため、拡大縮小変換と平行移動変換が設計されています。

8.4 4つの座標系の関係

最終的な変換関係から、3 次元の座標点は確かに画像内の対応するピクセル点を見つけることができますが、逆に、方程式の左側の値がわからないため、画像内の点から 3 次元の対応する点を見つけることは問題になります。

赤い枠は外部パラメータで、R と T はそれぞれ回転と移動です。固有パラメータはカメラの固有の特性であり、実際には焦点距離 f とピクセルサイズ dx、dy です。明らかに、それは光軸からの点の距離を表します。

9. 結論

自動運転の各種座標系を整理し、自動運転の各種座標系間の関係を表示し、最終的にピクセル座標系とワールド座標系間の変換関係を求める。

オリジナルリンク: https://mp.weixin.qq.com/s/tTRCjZBRZcnb59nX3FRR8w

<<: Google内部関係者、Bardチャットボットの有用性に疑問

>>: