MotionLM: 言語モデルとしてのマルチエージェント動作予測

MotionLM: 言語モデルとしてのマルチエージェント動作予測

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

原題: MotionLM: 言語モデルとしてのマルチエージェント動作予測

論文リンク: https://arxiv.org/pdf/2309.16534.pdf

著者: Waymo

会議: ICCV 2023

論文のアイデア:

道路エージェントの将来の行動の信頼性の高い予測は、自律走行車の安全な計画の重要な要素です。ここでは、連続的な軌跡を離散的なモーショントークンのシーケンスとして表現し、このドメインでの言語モデリングタスクとしてマルチエージェントのモーション予測を定式化します。私たちのモデル MotionLM にはいくつかの利点があります。まず、マルチモーダル分布を学習するためにアンカーや明示的な潜在変数の最適化を必要としません。対照的に、シーケンス トークンの平均対数確率を最大化する単一の標準言語モデリング目標を利用します。第二に、私たちのアプローチは、インタラクションのスコアリングの前に個々のエージェントの軌跡生成が実行される事後インタラクションヒューリスティックを回避します。対照的に、MotionLM は、単一の自己回帰デコード プロセスでインタラクティブ エージェントの将来の結合分布を生成します。さらに、モデルを順次分解することで、時間的な因果条件を導出することが可能になります。提案された方法は、Waymo Open Motion Dataset でのマルチエージェント動作予測において新たな最先端のパフォーマンスを確立し、インタラクティブ チャレンジ リーダーボードで 1 位にランクされました。

主な貢献:

本稿では、マルチエージェントの動作予測を言語モデリングタスクとして定式化し、因果言語モデリング損失でトレーニングされた離散動作トークン上の時間因果デコーダーを導入します。

私たちのモデルでは、サンプリングと、ジョイント軌道の加重パターン認識を容易にするシンプルなロールアウト集約スキームを組み合わせて、Waymo Open Motion Dataset インタラクション予測チャレンジで新たな最先端のパフォーマンスを確立しました (ランク付けされたジョイント mAP メトリックが 6% 向上)。

私たちは、このアプローチについて広範囲にわたるアブレーション実験を実施し、現在の共同予測モ​​デルではほとんどサポートされていない時間的因果関係に関する条件付き予測の能力を分析します。

ネットワーク設計:

この論文の目標は、最小予測、結合予測、条件付き予測などのさまざまな下流タスクに適用できる一般的な方法で、マルチエージェント相互作用の分布をモデル化することです。これには、運転シナリオの多様な様相を捉えることができる表現力豊かな生成フレームワークが必要です。さらに、ここでは時間的な依存性の保存を考慮しています。つまり、私たちのモデルでは、推論は有向非巡回グラフに従い、各ノードには時間的に早い親と時間的に遅い子があり、これにより条件付き予測が因果介入に近づきます[34]。これは、そうでなければ時間的因果関係に従わないことになる特定の偽の相関関係を排除するためです。時間的な依存性を保持しない結合モデルでは、計画における重要な用途である実際のエージェントの応答を予測する能力が制限される可能性があることがわかります。この目的のために、私たちは未来デコーダーの自己回帰分解を活用します。ここでは、エージェントのモーショントークンが以前にサンプリングされたすべてのトークンに条件付きで依存し、軌道が順番に展開されます (図 2)。

図1.私たちのモデルは、エージェントのセットに対して離散的なモーション トークンのシーケンスを自己回帰的に生成し、一貫したインタラクティブな軌道予測を生成します。

図2. MotionLM アーキテクチャ。

まず、モデル化された各エージェント(左)に関連付けられた異種のシーンの特徴を、形状R、N、·、Hのシーン埋め込みにエンコードします。ここで、R はロールアウトの数、N は共同でモデル化されたエージェントの数、H は各埋め込みの次元です。推論中、並列サンプリングのためにバッチ次元で埋め込みを R 回繰り返します。次に、軌道デコーダーは、複数のエージェントに対して、時間的に因果関係のある方法(中心)で T 個の離散モーション トークンを展開します。最後に、非最大抑制で初期化された k-means クラスタリングを使用した単純な集約によって、ロールアウトの典型的なパターンを回復できます (右図)。

図3. 3 つの WOMD シナリオの最初の 2 つの予測共同ロールアウト モードが表示されます。

色のグラデーションは、t = 0 秒から t = 8 秒までの時間経過を示しており、ジョイント モードが緑から青に遷移し、サブジョイント モードがオレンジから紫に遷移する確率が最も高くなります。 3 種類の相互作用が観察されています。隣接車線のエージェントが車線変更時間に基づいて車線変更エージェントに道を譲る (左)、歩行者が車両の進行状況に基づいて追い越し車両の後ろを歩く (中央)、曲がる車両が追い越し中の自転車に道を譲る (最も可能性の高いモード) か、自転車が近づく前に曲がる (二次モード) (右)。

図4.共同ロールアウトの因果ベイジアン ネットワーク表現 (左)、介入後の因果ベイジアン ネットワーク (中央)、因果条件付け (右)。

実線は時間的な因果関係を表し、破線は因果関係の情報の流れを表します。時間依存性の制約のないモデルは因果的条件付けをサポートしますが、時間的因果的条件付けはサポートしません。これは、エージェントの応答を予測しようとするときに問題になる可能性があります。

実験結果:

引用:

Seff, A., Cera, B., Chen, D., Ng, M., Zhou, A., Nayakanti, N., Refaat, KS, & Sapp, B. (2023). MotionLM: 言語モデリングとしてのマルチエージェント動作予測。  翻訳: ...

オリジナルリンク: https://mp.weixin.qq.com/s/MTai0rA8PeNFuj7UjCfd6A

<<:  自社開発のAIチップのトレンドが始まっており、テクノロジー依存からの脱却は始まりに過ぎない

>>:  元GitHub CEO:AIプログラミングアシスタントCopilotは価格よりも安く、損失はない

ブログ    

推薦する

Wi-Fi の AI がワイヤレス接続をどのように形作るか

2023年までに、おそらく人工知能ほど普及するテクノロジーはなくなるでしょう。生成型 AI の爆発的...

...

人工知能開発の新たな方向性

1. 大規模収集:あらゆる方向から情報を収集するデータ収集システムは、信号、センサー、アクチュエータ...

...

...

...

C# データ構造とアルゴリズム スタックの簡単な分析

コンピュータ サイエンスでは、スタックは、テーブルの末尾での挿入または削除操作に制限された線形テーブ...

AIは感情に関してより賢くなってきているのでしょうか?人間もそうすべきだ

人々は、一人でいるときと公共の場では行動が大きく異なりますが、基本的な性格は同じままです。観客のいな...

...

IoTとAIの組み合わせ:さまざまなスマートフォンが互いに学習できるようにする

センサーといえば、まず思い浮かぶのはウェアラブルデバイスです。今ではウェアラブルデバイスが広く普及し...

360 が顔認識分野に参入。「セキュリティ」の壁をどう克服するか?

スマートフォンや駅で顔認識技術が大規模に導入され始めており、誰もがこの新しい技術に精通しているはずで...

世界初の人工知能地震監視システムが始動:1秒以内に正確な推定

最近、中国科学技術大学の研究チームは中国地震局と協力し、世界初の人工知能地震監視システム「スマート地...

...

ChatterBotライブラリを使用してチャットボットを作成する

[[437576]]さまざまな機械学習アルゴリズムを実装して応答性の高い会話を生成する Chatte...

調査レポート:2021年の人工知能開発動向予測

人工知能技術の広範な応用は、私たちの生活と仕事のあらゆる側面に大きな影響を与えています。他のテクノロ...