この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 自動運転では軌道予測が重要な役割を果たします。自動運転軌道予測とは、車両の運転過程におけるさまざまなデータを分析して、車両の将来の運転軌道を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画と制御にとって非常に重要です。軌道予測タスクには豊富なテクノロジー スタックがあり、自動運転の動的/静的認識、高精度マップ、車線、ニューラル ネットワーク アーキテクチャ (CNN&GNN&Transformer) スキルなどに関する知識が必要です。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測における一般的な問題と、その始め方について確認します。 はじめる1. プレビューする論文に取り組む順序はありますか?A: まず、調査、問題の定式化、シーケンシャル ネットワーク、グラフ ニューラル ネットワーク、およびディープラーニング ベースの手法の評価について見ていきます。 2. 行動予測は軌道予測ですか?A: 結合されていますが、同じではありません。動作とは、一般的に、車線変更、停止、追い越し、加速、左折または右折、直進など、対象車両が将来どのような行動を取るかを指します。軌道は、時間情報を持つ特定の将来の可能性のある場所です。 3. Argoverse データセットに記載されているデータ構成におけるラベルとターゲットはどういう意味ですか?ラベルは予測対象の期間内の真実を参照していますか?A: ここでおっしゃっているのは、右側の表の OBJECT_TYPE 列のことだと思います。 AV は自律走行車そのものを意味し、データセットでは各シーンで予測される 1 つ以上の障害物が指定されることが多いです。予測されるこれらのターゲットは一般にターゲットまたは焦点エージェントと呼ばれます。一部のデータセットでは、障害物が車両、歩行者、自転車であるかどうかなど、各障害物に意味ラベルも付けられます。 Q2: 車両と歩行者のデータ形式は同じですか?つまり、たとえば、1 つのポイント クラウド ポイントが歩行者を表し、数十のポイントが車両を表すということですか? A: この種の軌跡データセットは、実際には歩行者と車両の両方のオブジェクトの中心点の xyz 座標を提供します。 Q3: argo1 と argo2 のデータセットはどちらも予測される障害物を 1 つだけ指定していますか?では、マルチエージェント予測を行う際に、これら 2 つのデータ セットはどのように使用されるのでしょうか? A: Argo1 では 1 つだけ指定しますが、Argo2 では実際には複数、おそらく最大 20 個程度まで指定します。ただし、1 つだけ指定しても、独自のモデルが複数の障害物を予測することを妨げるものではありません。 4. 経路計画では通常、低速および静的障害物が考慮されます。軌道予測を組み合わせることの役割は何ですか? ?キースナップショット?A: 車両の軌道を車両の計画軌道として「予測」します。uniadを参照できます。 5. 軌道予測には車両運動モデルに対する高い要件がありますか?正確な車両運動モデルを構築するには、数学と自動車理論が必要だということでしょうか?A: NNネットワークは基本的に必要ありませんが、ルールベースのネットワークにはある程度の知識が必要です。 6. 初心者が知識を広げるにはどこから始めるべきでしょうか(まだコードが書けません)。A: まずレビューを読んで、マインドマップを整理します。たとえば、「自動運転車の軌道予測のための機械学習: 包括的な調査、課題、および将来の研究の方向性」というレビューのオリジナルの英語版を読んでください。 7. 予測と意思決定にはどのような関係がありますか? なぜ予測はそれほど重要ではないと感じるのでしょうか? 8. 現在、大手企業は一般的に、認識モジュールまたは規制・制御モジュールに属すると予想されていますか?A: 予測は他の車両の軌道に基づいて行われ、規制と制御は自分の車両の軌道に基づいて行われます。これら 2 つの軌道は相互に影響し合うため、予測では通常、規制と制御が優先されます。 Q: 小鵬の知覚xnetなどの一部の公開情報も予測軌道を出力します。現時点では、予測作業は知覚モジュールの下に置かれているようですが、それとも両方のモジュールにそれぞれ異なる目標を持つ予測モジュールがあるのでしょうか? A: それらは互いに影響し合うので、ある部分では予測と意思決定が同じグループになります。たとえば、あなたの車が他の車を押しつぶすように計画した軌道であれば、他の車は道を譲るはずです。そのため、一部の作業では、他の車種の入力の一部として、自身の車の計画を検討します。 M2I(M2I: 因子化限界軌道予測からインタラクティブ予測へ)を参照できます。この記事には同様のアイデアがあり、PiP: 自動運転のための計画情報に基づく軌道予測について学ぶことができます。 9.交差点に車線がない場合、Argoverse の車線中心線マップを取得するにはどうすればよいですか?A: 手動でラベル付け 10. 軌道予測を使用して論文を書く場合、どの論文のコードをベースラインとして使用できますか?A: HIVT は基準値として使用でき、多くの人が使用しています。 11.現在、軌道予測は基本的にマップに依存しています。新しいマップ環境に変更すると、元のモデルは適用できなくなりますか? 再トレーニングが必要ですか?A: ある程度の一般化能力があり、再訓練なしでも効果は良好です 12. マルチモーダル出力の場合、最適な軌道を選択するときに、確率値が最も高い軌道が選択されますか? 軌道予測基本モジュール1. Argoverse データセットで HD-Map を使用するにはどうすればよいでしょうか? 入力としてモーション予測と組み合わせて、運転シーン グラフを作成できますか? 異種グラフを理解するにはどうすればよいでしょうか?A: これはすべてコースでカバーされており、第 2 章を参照できます。また、第 4 章でもカバーされます。異種グラフと同種グラフの違い: 同種グラフでは、ノードの種類は 1 つだけであり、ノード間の接続は 1 つだけです。たとえば、ソーシャル ネットワークでは、ノードの種類は「人」だけであり、エッジ接続の種類は「知り合い」だけであると想像できます。人々はお互いを知っているか、知らないかのどちらかです。ただし、人、いいね、ツイートごとにセグメント化することも可能です。知り合いを通じて人々はつながることもあれば、いいねを通じて人々はつながることもあり、ツイートのいいねを通じて人々はつながることもあります (メタパス)。ここで、ノードの多様な表現とノード間の関係には、異種グラフの導入が必要です。異種グラフには多くの種類のノードが存在します。ノード間の接続関係(エッジ)には多くの種類があり、これらの接続関係の組み合わせ(メタパス)はさらに多様です。これらのノード間の関係は異なる重要性を持つ可能性があり、異なる接続関係も異なる重要性を持つ可能性があります。 2. AA 相互作用では、予測された車両とどの車両の相互作用が考慮されますか?A: 特定の半径内にある車を選択するか、K 個の最近傍を持つ車を検討することができます。さらに高度なヒューリスティック近隣スクリーニング戦略を考案することもできます。2 台の車が近隣であるかどうかをモデルに学習させることも可能です。 Q2: ある範囲で考えてみましょう。半径を選ぶ際に何か原則はありますか?さらに、これらの車両はどのタイムステップで選択されたのでしょうか? A: 半径の選択について標準的な答えを出すのは困難です。これは本質的に、予測を行う際にモデルがどの程度のリモート情報を必要とするかを尋ねるものであり、畳み込みカーネルのサイズを選択することに少し似ています。2 番目の質問については、オブジェクト間の相互作用をモデル化したい時点でのオブジェクトの相対的な位置に基づいて近傍を選択するというのが私の個人的な原則です。 Q3: この場合、履歴時間領域をモデル化する必要がありますか?一定範囲内の周囲の車両は、異なる時間ステップで変化するのでしょうか、それとも現時点での周囲の車両情報のみを考慮するのでしょうか? A: 大丈夫です。モデルをどのように設計するかによって異なります。 3. 先生、ユニアドエンドツーエンドモデルの予測部分の欠陥は何ですか?A: モーションフォーマーの動作だけを見ると、比較的日常的なものです。多くの論文で同様の SA と CA が見られるでしょう。現在のSotaモデルの多くは比較的重い。例えば、デコーダーには巡回的な改良が施される。 A2: これは共同予測ではなく限界予測です。2. 予測と計画は別々に行われ、自我と周囲のエージェント間の相互作用を明示的に考慮していません。3. 対称性を考慮せずにシーン中心の表現を使用しているため、効果は必ず悪くなります。 Q2: 限界予測とは何ですか? A: 詳細はシーントランスフォーマーを参照してください Q3: 3 点目ですが、シーン セントリックでは対称性は考慮されません。この点についてどのように理解していますか。 A: HiVT、QCNet、MTR++ をお勧めします。もちろん、エンドツーエンド モデルの対称性を設計するのは簡単ではありません。 A2: シーンデータを入力すると考えることもできますが、ネットワークでは各ターゲットの視点から周囲のシーンを見るようにモデル化されます。このようにして、各ターゲットのエンコーディングを前方方向に中心に置き、後でこれらのエンコーディング間の相互作用を考慮することができます。 4. エージェントセントリックとは何ですか?A: 各エージェントには、エージェントを中心とした独自のローカル領域があります。 5. 軌道予測ではヨーと方向は同じ意味で使用されますか?A: 車の前方の方向として理解できます 6. argoverse マップの has_traffic_control 属性はどういう意味ですか?A: 実は、正しく理解しているか分かりません。車線が信号や一時停止標識、速度制限標識などの影響を受けるかどうかのことを指していると思います。 7. 軌道予測におけるラプラス損失とフーバー損失の利点と欠点は何ですか?1車線のみを予測する場合A: 両方試してください。どちらがより効果的かが有利になります。ラプラス損失では、良い結果を得るためには、まだいくつかの詳細に注意を払う必要がある。 Q2: パラメータを調整する必要があるということですか? A: ラプラス損失は、実際には L1 損失と比較して追加のスケール パラメーターを予測します。 Q3: はい、しかし、1 つの軌道しか予測されない場合、これが何の役に立つのかわかりません。冗長な気がします。不確実性として理解していますが、正しいかどうかはわかりません。 A: 最小二乗法を最初から導出した場合は、一定の分散を持つガウス分布を仮定すると、MSE は実際には NLL であることがわかります。同様に、L1 損失も、一定の分散を持つラプラス分布を仮定する NLL です。したがって、LaplaceNLL は、非定数分散を持つ L1 損失として理解することもできます。この分散はモデル自体によって予測されます。損失を低くするために、モデルは、適合度の低いサンプルには大きな分散を与え、適合度の高いサンプルには小さな分散を与えます。 Q4: つまり、非常にランダムなデータ セット (フレームの欠落やジッターを含む軌跡データ) の場合、モデルを分散に適合させる必要があるため、ラプラスは適していないということですか?データセットの品質は高くなければならない A: この発言は必ずしも真実ではないと思います。効果の面では、モデルは最初に適合しやすいサンプルを学習し、次に学習が難しいサンプルを学習するように促されます。 Q5: この文章をどう理解したらよいかお聞きしたいです(ラプラス損失が有効であるためには、まだ注意すべき細かい点がいくつかあります)。A: 主に予測スケールについてです。モデルでは、分岐予測場所と分岐予測スケールは、相互干渉を避けるために、可能な限り分離する必要があります。スケールを予測するブランチは、出力結果が 0 より大きいことを保証する必要があります。ほとんどの人は、負でないことを確認するために exp をアクティベーション関数として使用しますが、ELU +1 を使用する方がよいことがわかりました。実際のところ、スケールの下限は 0 ではなく、スケール > 0.01 または > 0.1 などにするのが最適です。上記はすべて個人的な意見です。実は、これらの詳細はすべて私のオープンソースコード(周子康氏のgithubオープンソースコード)にありますが、気付かないかもしれません。 リンクを貼ってください: https://github.com/ZikangZhou/QCNet https://github.com/ZikangZhou/HiVT 8. 軌道予測に VAE を使用した人はいますか? リンクを教えてください。https://github.com/L1aoXingyu/pytorch-beginner/tree/master/08-AutoEncoder 9. 皆さんに質問があります。ポリラインとは一体何でしょうか? また、ポリラインはベクトルで構成されていると言われています。これらのベクトルはノードと同等でしょうか? 10. multipath++ などの論文では、マップ上の 2 つのポイントを 1 つの単位として扱いますが、vectornet などの論文では、線を 1 つの単位として扱います。この 2 つに違いはありますか? 11. スコアの滑らかさを判断する方法はありますか?A: これには、0 ~ 19 フレームや 1 ~ 20 フレームなどの流れるような入力を入力し、2 つのフレーム間の対応する軌跡のスコアの差の二乗を比較して、統計を行う必要があります。 Q2: トーマス教授が推奨する指標は何ですか? 現在、1次微分と2次微分を使用しています。しかし、あまり明白ではないようですが、1 次および 2 次導関数のほとんどは 0 の付近に集中しています。 A: 連続するフレームの対応する軌跡のスコアの差の二乗を使用できると思います。たとえば、n 個の連続する入力がある場合は、それらを合計して n で割ります。ただし、シーンはリアルタイムで変化し、インタラクションが発生したときや、交差点以外のシーンから交差点にシーンが移動したときには、スコアが急激に変化するはずです。 12.hivt 内のトラックは、例えば ×0.01+10 のように拡大縮小されていませんか?分布は可能な限り 0 に近くなります。いくつかの方法は使用されていますが、他の方法は使用されていないようです。トレードオフをどのように定義するのでしょうか?A: データを標準化するためだけです。役に立つかもしれないが、おそらく大したことはないだろう。 13.HiVT のマップのカテゴリ属性が、連結ではなく埋め込み後に数値属性に追加されるのはなぜですか?A: 加算と連結にはほとんど違いはありません。ただし、カテゴリ埋め込みと数値埋め込みの融合に関しては、実際には完全に同等です。 Q2: 完全同等性をどのように理解すればよいでしょうか? A: 2 つを連結して線形レイヤーに通します。これは実際には、値を線形レイヤーに埋め込み、カテゴリを線形レイヤーに埋め込み、2 つを加算することと同じです。カテゴリを線形レイヤーに埋め込むことは実際には意味がありません。理論的には、この線形レイヤーは nn.Embedding のパラメータと統合できます。 14. ユーザーとしては、HiVT を実際に導入する場合の最小ハードウェア要件が気になるのではないでしょうか。A: 分かりませんが、私が得た情報によると、HiVT を使って歩行者を予測するのは NV なのか、それとも他の自動車メーカーなのかは分かりませんので、実際の導入は間違いなく可能です。 15. 占有ネットワークに基づく予測には何か特別な点がありますか?何かおすすめの紙はありますか?A: 占有率に基づく将来予測の最も有望な解決策は次のとおりです: https://arxiv.org/abs/2308.01471 16.計画軌道の予測を考慮したお勧めの論文はありますか?他の障害物を予測する際に、車両の予定軌道を考慮することですか?A: この公開データセットは入手が難しく、通常、車両の計画された軌道は提供されません。古代には、「PiP(昊然歌)」と呼ばれる文章がありました。 M2Iのような条件付き予測を行う記事は、あなたが望むものと考えられると思います。 17. 予測アルゴリズムのパフォーマンス テストに適した、学習に役立つシミュレーション プロジェクトはありますか?A(stu): この論文では、次の点について議論します: シミュレータを賢く選択する 自動運転用オープンソースシミュレータのレビュー 18. Argoverse データセットを使用する場合、必要な GPU メモリの量をどのように見積もればよいですか?A: 使い方によって異なります。以前は 1070 で HiVT を実行できましたが、今ではほとんどのコンピューターで実行できるはずです。 オリジナルリンク: https://mp.weixin.qq.com/s/EEkr8g4w0s2zhS_jmczUiA |
>>: NTU Yu Yangによる徹底分析:「世界モデル」とは何か?
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
有名アイドルプロジェクト「ラブライブ!」がAI論文を発表しました。そうです。最近、プレプリント論文プ...
人工知能は、人間の知能の拡張と拡大をシミュレートするための理論、方法、技術、アプリケーション システ...
企業のデジタル ツインを作成し、ロボティック プロセス オートメーション (RPA) などの自動化テ...
生産性、精度、意思決定能力を向上させるために人工知能 (AI) を導入する手法は、さまざまな業界で広...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
IBM は人工知能コンピューティングを改革する方法に取り組んでいます。 IBM の研究者は、人工知能...
第3回HUAWEI CONNECT 2018が2018年10月10日に上海万博展示コンベンションセン...