この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 原題: MotionLM: 言語モデルとしてのマルチエージェント動作予測 論文リンク: https://arxiv.org/pdf/2309.16534.pdf 著者: Waymo 会議: ICCV 2023 論文のアイデア:道路エージェントの将来の行動の信頼性の高い予測は、自律走行車の安全な計画の重要な要素です。ここでは、連続的な軌跡を離散的なモーショントークンのシーケンスとして表現し、このドメインでの言語モデリングタスクとしてマルチエージェントのモーション予測を定式化します。私たちのモデル MotionLM にはいくつかの利点があります。まず、マルチモーダル分布を学習するためにアンカーや明示的な潜在変数の最適化を必要としません。対照的に、シーケンス トークンの平均対数確率を最大化する単一の標準言語モデリング目標を利用します。第二に、私たちのアプローチは、インタラクションのスコアリングの前に個々のエージェントの軌跡生成が実行される事後インタラクションヒューリスティックを回避します。対照的に、MotionLM は、単一の自己回帰デコード プロセスでインタラクティブ エージェントの将来の結合分布を生成します。さらに、モデルを順次分解することで、時間的な因果条件を導出することが可能になります。提案された方法は、Waymo Open Motion Dataset でのマルチエージェント動作予測において新たな最先端のパフォーマンスを確立し、インタラクティブ チャレンジ リーダーボードで 1 位にランクされました。 主な貢献:本稿では、マルチエージェントの動作予測を言語モデリングタスクとして定式化し、因果言語モデリング損失でトレーニングされた離散動作トークン上の時間因果デコーダーを導入します。 私たちのモデルでは、サンプリングと、ジョイント軌道の加重パターン認識を容易にするシンプルなロールアウト集約スキームを組み合わせて、Waymo Open Motion Dataset インタラクション予測チャレンジで新たな最先端のパフォーマンスを確立しました (ランク付けされたジョイント mAP メトリックが 6% 向上)。 私たちは、このアプローチについて広範囲にわたるアブレーション実験を実施し、現在の共同予測モデルではほとんどサポートされていない時間的因果関係に関する条件付き予測の能力を分析します。 ネットワーク設計:この論文の目標は、最小予測、結合予測、条件付き予測などのさまざまな下流タスクに適用できる一般的な方法で、マルチエージェント相互作用の分布をモデル化することです。これには、運転シナリオの多様な様相を捉えることができる表現力豊かな生成フレームワークが必要です。さらに、ここでは時間的な依存性の保存を考慮しています。つまり、私たちのモデルでは、推論は有向非巡回グラフに従い、各ノードには時間的に早い親と時間的に遅い子があり、これにより条件付き予測が因果介入に近づきます[34]。これは、そうでなければ時間的因果関係に従わないことになる特定の偽の相関関係を排除するためです。時間的な依存性を保持しない結合モデルでは、計画における重要な用途である実際のエージェントの応答を予測する能力が制限される可能性があることがわかります。この目的のために、私たちは未来デコーダーの自己回帰分解を活用します。ここでは、エージェントのモーショントークンが以前にサンプリングされたすべてのトークンに条件付きで依存し、軌道が順番に展開されます (図 2)。 図1.私たちのモデルは、エージェントのセットに対して離散的なモーション トークンのシーケンスを自己回帰的に生成し、一貫したインタラクティブな軌道予測を生成します。 図2. MotionLM アーキテクチャ。 まず、モデル化された各エージェント(左)に関連付けられた異種のシーンの特徴を、形状R、N、·、Hのシーン埋め込みにエンコードします。ここで、R はロールアウトの数、N は共同でモデル化されたエージェントの数、H は各埋め込みの次元です。推論中、並列サンプリングのためにバッチ次元で埋め込みを R 回繰り返します。次に、軌道デコーダーは、複数のエージェントに対して、時間的に因果関係のある方法(中心)で T 個の離散モーション トークンを展開します。最後に、非最大抑制で初期化された k-means クラスタリングを使用した単純な集約によって、ロールアウトの典型的なパターンを回復できます (右図)。 図3. 3 つの WOMD シナリオの最初の 2 つの予測共同ロールアウト モードが表示されます。 色のグラデーションは、t = 0 秒から t = 8 秒までの時間経過を示しており、ジョイント モードが緑から青に遷移し、サブジョイント モードがオレンジから紫に遷移する確率が最も高くなります。 3 種類の相互作用が観察されています。隣接車線のエージェントが車線変更時間に基づいて車線変更エージェントに道を譲る (左)、歩行者が車両の進行状況に基づいて追い越し車両の後ろを歩く (中央)、曲がる車両が追い越し中の自転車に道を譲る (最も可能性の高いモード) か、自転車が近づく前に曲がる (二次モード) (右)。 図4.共同ロールアウトの因果ベイジアン ネットワーク表現 (左)、介入後の因果ベイジアン ネットワーク (中央)、因果条件付け (右)。 実線は時間的な因果関係を表し、破線は因果関係の情報の流れを表します。時間依存性の制約のないモデルは因果的条件付けをサポートしますが、時間的因果的条件付けはサポートしません。これは、エージェントの応答を予測しようとするときに問題になる可能性があります。 実験結果:引用:Seff, A., Cera, B., Chen, D., Ng, M., Zhou, A., Nayakanti, N., Refaat, KS, & Sapp, B. (2023). MotionLM: 言語モデリングとしてのマルチエージェント動作予測。 翻訳: ... オリジナルリンク: https://mp.weixin.qq.com/s/MTai0rA8PeNFuj7UjCfd6A |
<<: 自社開発のAIチップのトレンドが始まっており、テクノロジー依存からの脱却は始まりに過ぎない
>>: 元GitHub CEO:AIプログラミングアシスタントCopilotは価格よりも安く、損失はない
OpenAI シリーズは終わりに近づいていますが、イースターエッグがあるとは思っていませんでした。ま...
[51CTO.com クイック翻訳] 現在、世界中のあらゆる場所で大量のデータが絶えず生成されており...
機械学習におけるモデルのデプロイメントとは、機械学習モデルを既存の運用環境に統合し、入力を受け入れて...
人工知能、データサイエンス、機械学習はすべて同じ分野に属します。問題は、この場合、どちらが正しい目的...
デジタル時代において、ビッグデータと人工知能はビジネス界の重要な原動力となっています。大量のデータが...
12月5日、OpenAIは企業ユーザーの開拓に力を入れているものの、同社の幹部の一部は、この技術がす...
Photoshop Elements 2020エディション数日前、Adobe は最新バージョンの ...
[[198915]]エンコーダー/デコーダー アーキテクチャは、多くの分野で最先端のパフォーマンスを...
最近の急速な技術発展により、真のスマートシティの時代が近づいてきました。人工知能、クラウドおよびエッ...
Iconfinder は、デザイナー、開発者、その他のクリエイティブ ワーカー向けに優れたアイコンを...
ビッグデータデジタル変革への投資は、特にインフレが継続する中で、リスク管理の強化、コストの削減、顧客...
[[331263]] 【51CTO.comオリジナル記事】 1. はじめに前回の記事では、レコメンデ...
人工知能(AI)については多くの誇大宣伝がなされていますが、それは人類のこれまでの発明と同じくらい画...
[[426834]]国慶節のゴールデンウィークが近づいてきました。旅行の計画はお決まりですか?昨今...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...