自動運転と軌道予測についてはこちらの記事をお読みください。

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

自動運転では軌道予測が重要な役割を果たします。自動運転軌道予測とは、車両の運転過程におけるさまざまなデータを分析して、車両の将来の運転軌道を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画と制御にとって非常に重要です。軌道予測タスクには豊富なテクノロジースタックがあり、自動運転の動的/静的認識、高精度マップ、車線、ニューラルネットワークアーキテクチャ (CNN&GNN&Transformer) スキルなどに関する知識が必要です。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測における一般的な問題と、その始め方について確認します。

はじめる

1. プレビューする論文に取り組む順序はありますか?

A: まず、調査、問題の定式化、シーケンシャルネットワーク、グラフニューラルネットワーク、およびディープラーニングベースの手法の評価について見ていきます。

2. 行動予測は軌道予測ですか?

A: 結合されていますが、同じではありません。動作とは、一般的に、車線変更、停止、追い越し、加速、左折または右折、直進など、対象車両が将来どのような行動を取るかを指します。軌道は、時間情報を持つ特定の将来の可能性のある場所です。

3. Argoverse データセットに記載されているデータ構成におけるラベルとターゲットはどういう意味ですか?ラベルは予測対象の期間内の真実を参照していますか?

A: ここでおっしゃっているのは、右側の表の OBJECT_TYPE 列のことだと思います。 AV は自律走行車そのものを意味し、データセットでは各シーンで予測される 1 つ以上の障害物が指定されることが多いです。予測されるこれらのターゲットは一般にターゲットまたは焦点エージェントと呼ばれます。一部のデータセットでは、障害物が車両、歩行者、自転車であるかどうかなど、各障害物に意味ラベルも付けられます。

Q2: 車両と歩行者のデータ形式は同じですか?つまり、たとえば、1 つのポイントクラウドポイントが歩行者を表し、数十のポイントが車両を表すということですか?

A: この種の軌跡データセットは、実際には歩行者と車両の両方のオブジェクトの中心点の xyz 座標を提供します。

Q3: argo1 と argo2 のデータセットはどちらも予測される障害物を 1 つだけ指定していますか?では、マルチエージェント予測を行う際に、これら 2 つのデータセットはどのように使用されるのでしょうか?

A: Argo1 では 1 つだけ指定しますが、Argo2 では実際には複数、おそらく最大 20 個程度まで指定します。ただし、1 つだけ指定しても、独自のモデルが複数の障害物を予測することを妨げるものではありません。

4. 経路計画では通常、低速および静的障害物が考慮されます。軌道予測を組み合わせることの役割は何ですか? ?キースナップショット?

A: 車両の軌道を車両の計画軌道として「予測」します。uniadを参照できます。

5. 軌道予測には車両運動モデルに対する高い要件がありますか?正確な車両運動モデルを構築するには、数学と自動車理論が必要だということでしょうか?

A: NNネットワークは基本的に必要ありませんが、ルールベースのネットワークにはある程度の知識が必要です。

6. 初心者が知識を広げるにはどこから始めるべきでしょうか（まだコードが書けません）。

A: まずレビューを読んで、マインドマップを整理します。たとえば、「自動運転車の軌道予測のための機械学習: 包括的な調査、課題、および将来の研究の方向性」というレビューのオリジナルの英語版を読んでください。

7. 予測と意思決定にはどのような関係がありますか? なぜ予測はそれほど重要ではないと感じるのでしょうか?

 A1(stu): 默认预测属于感知吧，或者决策中隐含预测，反正没有预测不行。 A2(stu): 决策该规控做，有行为规划，高级一点的就是做交互和博弈，有的公司会有单独的交互博弈组

8. 現在、大手企業は一般的に、認識モジュールまたは規制・制御モジュールに属すると予想されていますか?

A: 予測は他の車両の軌道に基づいて行われ、規制と制御は自分の車両の軌道に基づいて行われます。これら 2 つの軌道は相互に影響し合うため、予測では通常、規制と制御が優先されます。

Q: 小鵬の知覚xnetなどの一部の公開情報も予測軌道を出力します。現時点では、予測作業は知覚モジュールの下に置かれているようですが、それとも両方のモジュールにそれぞれ異なる目標を持つ予測モジュールがあるのでしょうか?

A: それらは互いに影響し合うので、ある部分では予測と意思決定が同じグループになります。たとえば、あなたの車が他の車を押しつぶすように計画した軌道であれば、他の車は道を譲るはずです。そのため、一部の作業では、他の車種の入力の一部として、自身の車の計画を検討します。 M2I（M2I: 因子化限界軌道予測からインタラクティブ予測へ）を参照できます。この記事には同様のアイデアがあり、PiP: 自動運転のための計画情報に基づく軌道予測について学ぶことができます。

9.交差点に車線がない場合、Argoverse の車線中心線マップを取得するにはどうすればよいですか?

A: 手動でラベル付け

10. 軌道予測を使用して論文を書く場合、どの論文のコードをベースラインとして使用できますか?

A: HIVT は基準値として使用でき、多くの人が使用しています。

11.現在、軌道予測は基本的にマップに依存しています。新しいマップ環境に変更すると、元のモデルは適用できなくなりますか? 再トレーニングが必要ですか?

A: ある程度の一般化能力があり、再訓練なしでも効果は良好です

12. マルチモーダル出力の場合、最適な軌道を選択するときに、確率値が最も高い軌道が選択されますか?

 A(stu): 选择结果最好的Q2:结果最好是根据什么来判定呢？是根据概率值大小还是根据和gt的距离A: 实际在没有ground truth的情况下，你要取“最好”的轨迹，那只能选择相信预测概率值最大的那条轨迹了Q3: 那有gt的情况下，选择最好轨迹的时候，根据和gt之间的end point或者average都可以是吗A: 嗯嗯，看指标咋定义

軌道予測基本モジュール

1. Argoverse データセットで HD-Map を使用するにはどうすればよいでしょうか? 入力としてモーション予測と組み合わせて、運転シーングラフを作成できますか? 異種グラフを理解するにはどうすればよいでしょうか?

A: これはすべてコースでカバーされており、第 2 章を参照できます。また、第 4 章でもカバーされます。異種グラフと同種グラフの違い: 同種グラフでは、ノードの種類は 1 つだけであり、ノード間の接続は 1 つだけです。たとえば、ソーシャルネットワークでは、ノードの種類は「人」だけであり、エッジ接続の種類は「知り合い」だけであると想像できます。人々はお互いを知っているか、知らないかのどちらかです。ただし、人、いいね、ツイートごとにセグメント化することも可能です。知り合いを通じて人々はつながることもあれば、いいねを通じて人々はつながることもあり、ツイートのいいねを通じて人々はつながることもあります (メタパス)。ここで、ノードの多様な表現とノード間の関係には、異種グラフの導入が必要です。異種グラフには多くの種類のノードが存在します。ノード間の接続関係（エッジ）には多くの種類があり、これらの接続関係の組み合わせ（メタパス）はさらに多様です。これらのノード間の関係は異なる重要性を持つ可能性があり、異なる接続関係も異なる重要性を持つ可能性があります。

2. AA 相互作用では、予測された車両とどの車両の相互作用が考慮されますか?

A: 特定の半径内にある車を選択するか、K 個の最近傍を持つ車を検討することができます。さらに高度なヒューリスティック近隣スクリーニング戦略を考案することもできます。2 台の車が近隣であるかどうかをモデルに学習させることも可能です。

Q2: ある範囲で考えてみましょう。半径を選ぶ際に何か原則はありますか？さらに、これらの車両はどのタイムステップで選択されたのでしょうか?

A: 半径の選択について標準的な答えを出すのは困難です。これは本質的に、予測を行う際にモデルがどの程度のリモート情報を必要とするかを尋ねるものであり、畳み込みカーネルのサイズを選択することに少し似ています。2 番目の質問については、オブジェクト間の相互作用をモデル化したい時点でのオブジェクトの相対的な位置に基づいて近傍を選択するというのが私の個人的な原則です。

Q3: この場合、履歴時間領域をモデル化する必要がありますか?一定範囲内の周囲の車両は、異なる時間ステップで変化するのでしょうか、それとも現時点での周囲の車両情報のみを考慮するのでしょうか?

A: 大丈夫です。モデルをどのように設計するかによって異なります。

3. 先生、ユニアドエンドツーエンドモデルの予測部分の欠陥は何ですか?

A: モーションフォーマーの動作だけを見ると、比較的日常的なものです。多くの論文で同様の SA と CA が見られるでしょう。現在のSotaモデルの多くは比較的重い。例えば、デコーダーには巡回的な改良が施される。

A2: これは共同予測ではなく限界予測です。2. 予測と計画は別々に行われ、自我と周囲のエージェント間の相互作用を明示的に考慮していません。3. 対称性を考慮せずにシーン中心の表現を使用しているため、効果は必ず悪くなります。

Q2: 限界予測とは何ですか?

A: 詳細はシーントランスフォーマーを参照してください

Q3: 3 点目ですが、シーンセントリックでは対称性は考慮されません。この点についてどのように理解していますか。

A: HiVT、QCNet、MTR++ をお勧めします。もちろん、エンドツーエンドモデルの対称性を設計するのは簡単ではありません。

A2: シーンデータを入力すると考えることもできますが、ネットワークでは各ターゲットの視点から周囲のシーンを見るようにモデル化されます。このようにして、各ターゲットのエンコーディングを前方方向に中心に置き、後でこれらのエンコーディング間の相互作用を考慮することができます。

4. エージェントセントリックとは何ですか?

A: 各エージェントには、エージェントを中心とした独自のローカル領域があります。

5. 軌道予測ではヨーと方向は同じ意味で使用されますか?

A: 車の前方の方向として理解できます

6. argoverse マップの has_traffic_control 属性はどういう意味ですか?

A: 実は、正しく理解しているか分かりません。車線が信号や一時停止標識、速度制限標識などの影響を受けるかどうかのことを指していると思います。

7. 軌道予測におけるラプラス損失とフーバー損失の利点と欠点は何ですか？1車線のみを予測する場合

A: 両方試してください。どちらがより効果的かが有利になります。ラプラス損失では、良い結果を得るためには、まだいくつかの詳細に注意を払う必要がある。

Q2: パラメータを調整する必要があるということですか?

A: ラプラス損失は、実際には L1 損失と比較して追加のスケールパラメーターを予測します。

Q3: はい、しかし、1 つの軌道しか予測されない場合、これが何の役に立つのかわかりません。冗長な気がします。不確実性として理解していますが、正しいかどうかはわかりません。

A: 最小二乗法を最初から導出した場合は、一定の分散を持つガウス分布を仮定すると、MSE は実際には NLL であることがわかります。同様に、L1 損失も、一定の分散を持つラプラス分布を仮定する NLL です。したがって、LaplaceNLL は、非定数分散を持つ L1 損失として理解することもできます。この分散はモデル自体によって予測されます。損失を低くするために、モデルは、適合度の低いサンプルには大きな分散を与え、適合度の高いサンプルには小さな分散を与えます。

Q4: つまり、非常にランダムなデータセット (フレームの欠落やジッターを含む軌跡データ) の場合、モデルを分散に適合させる必要があるため、ラプラスは適していないということですか?データセットの品質は高くなければならない

A: この発言は必ずしも真実ではないと思います。効果の面では、モデルは最初に適合しやすいサンプルを学習し、次に学習が難しいサンプルを学習するように促されます。

Q5: この文章をどう理解したらよいかお聞きしたいです（ラプラス損失が有効であるためには、まだ注意すべき細かい点がいくつかあります）。A: 主に予測スケールについてです。モデルでは、分岐予測場所と分岐予測スケールは、相互干渉を避けるために、可能な限り分離する必要があります。スケールを予測するブランチは、出力結果が 0 より大きいことを保証する必要があります。ほとんどの人は、負でないことを確認するために exp をアクティベーション関数として使用しますが、ELU +1 を使用する方がよいことがわかりました。実際のところ、スケールの下限は 0 ではなく、スケール > 0.01 または > 0.1 などにするのが最適です。上記はすべて個人的な意見です。実は、これらの詳細はすべて私のオープンソースコード（周子康氏のgithubオープンソースコード）にありますが、気付かないかもしれません。

リンクを貼ってください: https://github.com/ZikangZhou/QCNet

https://github.com/ZikangZhou/HiVT

8. 軌道予測に VAE を使用した人はいますか? リンクを教えてください。

https://github.com/L1aoXingyu/pytorch-beginner/tree/master/08-AutoEncoder

9. 皆さんに質問があります。ポリラインとは一体何でしょうか? また、ポリラインはベクトルで構成されていると言われています。これらのベクトルはノードと同等でしょうか?

 A：Polyline就是折线，折线就是一段一段的，每一段都可以看成是一段向量Q2：请问这个折线段和图神经网络的节点之间的边有关系吗？或者说Polyline这个折现向量相当于是图神经网络当中的节点还是边呀？ A：一根折线可以理解为一个节点。轨迹预测里面没有明确定义的边，边如何定义取决于你怎么理解这个问题。 Q3: VectorNet里面有很多个子图，每个子图下面有很多个Polyline，把Polyline当做向量的话，就相当于把Polyline这个节点变成了向量，相当于将节点进行特征向量化对吗?然后Polyline里面有多个Vector向量，就是相当于是构成这个节点的特征矩阵么? A: 一个地图里有很多条polyline;一个Polyline就是一个子图；一个polyline由很多段比较短的向量组成，每一段向量都是子图上的一个节点

10. multipath++ などの論文では、マップ上の 2 つのポイントを 1 つの単位として扱いますが、vectornet などの論文では、線を 1 つの単位として扱います。この 2 つに違いはありますか?

 A: 节点的粒度不同，要说效果的话那得看具体实现；速度的话，显然粒度越粗效率越高Q2：从效果角度看，什么时候选用哪种有没有什么原则？ A: 没有原则，都可以尝试

11. スコアの滑らかさを判断する方法はありますか？

A: これには、0 ～ 19 フレームや 1 ～ 20 フレームなどの流れるような入力を入力し、2 つのフレーム間の対応する軌跡のスコアの差の二乗を比較して、統計を行う必要があります。

Q2: トーマス教授が推奨する指標は何ですか? 現在、1次微分と2次微分を使用しています。しかし、あまり明白ではないようですが、1 次および 2 次導関数のほとんどは 0 の付近に集中しています。

A: 連続するフレームの対応する軌跡のスコアの差の二乗を使用できると思います。たとえば、n 個の連続する入力がある場合は、それらを合計して n で割ります。ただし、シーンはリアルタイムで変化し、インタラクションが発生したときや、交差点以外のシーンから交差点にシーンが移動したときには、スコアが急激に変化するはずです。

12.hivt 内のトラックは、例えば ×0.01+10 のように拡大縮小されていませんか?分布は可能な限り 0 に近くなります。いくつかの方法は使用されていますが、他の方法は使用されていないようです。トレードオフをどのように定義するのでしょうか?

A: データを標準化するためだけです。役に立つかもしれないが、おそらく大したことはないだろう。

13.HiVT のマップのカテゴリ属性が、連結ではなく埋め込み後に数値属性に追加されるのはなぜですか?

A: 加算と連結にはほとんど違いはありません。ただし、カテゴリ埋め込みと数値埋め込みの融合に関しては、実際には完全に同等です。

Q2: 完全同等性をどのように理解すればよいでしょうか?

A: 2 つを連結して線形レイヤーに通します。これは実際には、値を線形レイヤーに埋め込み、カテゴリを線形レイヤーに埋め込み、2 つを加算することと同じです。カテゴリを線形レイヤーに埋め込むことは実際には意味がありません。理論的には、この線形レイヤーは nn.Embedding のパラメータと統合できます。