歩行者の軌道予測に効果的な方法と共通基本方法は何ですか?トップカンファレンスの論文を共有しましょう!

歩行者の軌道予測に効果的な方法と共通基本方法は何ですか?トップカンファレンスの論文を共有しましょう!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

軌道予測は過去 2 年間で非常に人気がありましたが、ほとんどの焦点は車両の軌道予測にあります。本日、Heart of Autonomous Driving は、トップ カンファレンス NeurIPS - SHENet で歩行者の軌道予測アルゴリズムを紹介します。制限されたシナリオでは、人間の移動パターンは通常、ある程度、限られたルールに従います。この仮定に基づいて、SHENet は暗黙的なシーンの規則性を学習することで、人の将来の軌道を予測します。この記事はHeart of Autonomous Drivingによってオリジナルであると認定されています。

著者の個人的な理解

人間の動きにはランダム性と主観性があるため、現在のところ、人の将来の軌道を予測することは依然として困難な問題です。 ただし、シーンの制約 (フロア プラン、道路、障害物など) や、人と人の間、または人と物体の間の相互作用により、制約のあるシーンでの人間の移動パターンは通常、ある程度まで限られた規則性に従います。したがって、この場合、個人の軌跡もこれらの法則のいずれかに従うはずです。言い換えれば、ある人物のその後の軌跡は、他の人によってたどられた可能性があるということです。この仮定に基づいて、私たちのアルゴリズム (SHENet) は暗黙のシーンルールを学習することで、人の将来の軌道を予測します。具体的には、シーン内の人々と環境の過去のダイナミクスに内在する規則性をシーン履歴と呼びます。シーン履歴情報は、グループの履歴の軌跡と、個人と環境の相互作用の 2 つのカテゴリに分類されます。この論文では、軌道予測にこれら 2 種類の情報を活用するために、シーン履歴をシンプルかつ効果的に活用する新しいフレームワーク、シーン履歴マイニング ネットワーク (SHENet) を提案します。特に、将来のパスの候補として代表的なグループ軌跡を抽出するために使用されるグループ軌跡ライブラリ モジュールと、軌跡の改良のために個人の過去の軌跡とその周囲との相互作用をモデル化するために使用されるクロスモーダル相互作用モジュールという 2 つのコンポーネントが設計されています。 さらに、前述の人間の動作のランダム性と主観性によって生じる真の軌道の不確実性を軽減するために、SHENet ではトレーニング プロセスと評価メトリックに滑らかさを取り入れています。 最後に、さまざまな実験データセットで検証し、SOTA 方式と比較して優れたパフォーマンスを実証しました。

導入

人間の軌道予測 (HTP) は、ビデオ クリップから対象者の将来の経路を予測することを目的としています。 これは、車両が歩行者の状態を事前に感知し、衝突の可能性を回避できるようにするため、スマート交通にとって非常に重要です。 HTP 機能を備えた監視システムは、警備員が容疑者の逃走経路を予測するのに役立ちます。 近年多くの研究が行われていますが、主にランダム性と人間の動きの主観性という 2 つの課題のため、実際のシナリオに適用できるほど信頼性が高く一般化できるものはほとんどありません。 しかし、制約のある現実世界のシナリオでは、この課題は絶対に解決不可能というわけではありません。 図 1 に示すように、シーンの以前にキャプチャされたビデオを考慮すると、人間の動きのパターンは通常、シーン内の対象人物が従ういくつかの基本法則に準拠しているため、対象人物 (赤いボックス) の将来の軌道はより予測しやすくなります。 したがって、軌道を予測するには、まずこれらの法則を理解する必要があります。 私たちは、これらの規則性は、歴史的な人間の軌跡(図 1 、左)、個人の過去の軌跡、その環境、およびそれらの間の相互作用(図 1 、右)に暗黙的にエンコードされており、これをエピソード歴史と呼んでいると主張します。

図 1: シーン履歴を活用する概略図: 人間の軌跡予測のための過去のグループ軌跡と個々の環境の相互作用。

履歴情報は、履歴グループ軌跡 (HGT) と個体環境相互作用 (ISI) の 2 つのカテゴリに分類されます。 HGT は、シーン内のすべての履歴軌跡のグループ表現を指します。 HGT を使用する理由は、シーン内に新しいターゲット人物がいる場合、前述のランダム性により、その人物のパスには、履歴の軌跡の単一のインスタンスよりも、グループの軌跡の 1 つとの類似性、主観性、規則性が高くなる可能性が高いためです。 しかし、グループの軌跡は個人の過去の状態や対応する環境との相関性が低く、個人の将来の軌跡にも影響を与える可能性があります。 ISI は、コンテキスト情報を抽出することで、履歴情報をより包括的に活用する必要があります。 既存の方法では、個人の過去の軌跡と歴史的軌跡の類似性はほとんど考慮されません。 ほとんどの試みは、個人と環境の相互作用のみを調査しており、個人の軌跡、環境の意味情報、およびそれらの関係をモデル化することに多大な労力が費やされています。 MANTRA は類似性をモデル化するために再構成方式でトレーニングされたエンコーダーを使用し、MemoNet は履歴軌跡の意図を保存することで類似性を簡素化しますが、どちらも類似性の計算をグループ レベルではなくインスタンス レベルで実行するため、トレーニングされたエンコーダーの機能に左右されます。 上記の分析に基づいて、HTP に HGT と ISI を共同で利用する、シンプルでありながら効果的なフレームワーク、Scene History Mining Network (SHENet) を提案します。 特に、このフレームワークは、(i) グループ トラジェクトリ ベース (GTB) モジュールと、(ii) クロスモーダル インタラクション (CMI) モジュールという 2 つの主要コンポーネントで構成されています。 GTB は、過去のすべての個々の軌跡から代表的なグループ軌跡を構築し、将来の軌跡予測のための候補パスを提供します。 CMI は、観測された個々の軌跡と周囲の環境を個別にエンコードし、クロスモーダル トランスフォーマーを使用してそれらの相互作用をモデル化し、検索された候補の軌跡を絞り込みます。

さらに、上記の 2 つの特性 (ランダム性と主観性) の不確実性を軽減するために、トレーニング プロセスに曲線平滑化 (CS) を導入し、現在の評価メトリックである平均および最終変位誤差 (ADE と FDE) を導入して、2 つの新しいメトリック、CS-ADE と CS-FDE を取得します。 さらに、HTP 研究の発展を促進するために、PAV という異なる動作パターンを持つ新しい挑戦的なデータセットを収集します。 このデータセットは、MOT15 データセットから固定カメラビューと複雑な人間の動きを含むビデオを選択することによって取得されます。

この研究の貢献は次のようにまとめられます。1) HTP の個々の軌跡を検索するためにグループ履歴を導入します。 2) HTP のために 2 種類のシーン履歴 (つまり、グループの履歴と個人と環境の相互作用) を共同で活用する、シンプルでありながら効果的なフレームワーク SHENet を提案します。 3) 新たな挑戦的なデータセット PAV を構築し、さらに、人間の移動パターンのランダム性と主観性を考慮して、ベースライン HTP よりも優れたパフォーマンスを実現するための新しい損失関数と 2 つの新しいメトリックを提案します。 4) ETH、UCY、PAV に関する包括的な実験を実施し、SHENet の優れたパフォーマンスと各コンポーネントの有効性を実証します。

関連研究

単一モダリティアプローチ 単峰性法は、過去の軌跡から個々の動作の規則性を学習して、将来の軌跡を予測します。 たとえば、Social LSTM は、ソーシャル プーリング モジュールを通じて個々の軌跡間の相互作用をモデル化します。 STGAT は注意モジュールを使用して空間的な相互作用を学習し、近隣に適切な重要性を割り当てます。 PIE は、時間的注意モジュールを使用して、各時間ステップで観測された軌跡の重要度を計算します。

マルチモーダルアプローチ さらに、マルチモーダルアプローチでは、環境情報が HTP に与える影響も調べます。 SS-LSTM は、シーンのグローバル情報を取得するためのシーン インタラクション モジュールを提案します。 Trajectron++ はグラフ構造を使用して軌跡をモデル化し、環境情報や他の個体と対話します。 MANTRA は外部メモリを利用して長期的な依存関係をモデル化します。 過去の単一エージェントの軌跡をメモリに保存し、環境情報をエンコードして、このメモリから検索された軌跡を絞り込みます。

前回の作品との違い ユニモーダル アプローチとマルチモーダル アプローチはどちらも、シーン履歴の単一または部分的な側面を使用し、グループの履歴の痕跡は無視します。 私たちの研究では、シーン履歴情報をより包括的に統合し、異なるタイプの情報をそれぞれ処理するための専用モジュールを提案しています。 私たちのアプローチと以前の研究、特にメモリベースの方法とクラスタリングベースの方法との主な違いは次のとおりです。i) MANTRA と MemoNet は過去の個々の軌跡を考慮しますが、私たちが提案する SHENet は、さまざまなシナリオでより一般的な過去のグループ軌跡に焦点を当てています。 ii) 軌道予測のために人々と近隣住民をグループ化し、軌道を一定数のカテゴリにクラスタリングして軌道を分類する作業もあります。SHENet は、個々の軌道予測の参照として代表的な軌道を生成します。

方法

全体紹介

提案されたシーン履歴マイニング ネットワーク (SHENet) のアーキテクチャを図 2 に示します。これは、グループ トラジェクトリ ベース モジュール (GTB) とクロスモーダル インタラクション モジュール (CMI) という 2 つの主要コンポーネントで構成されています。 正式には、観察されたシーンのビデオにおけるすべての軌跡を考えると   シーンイメージと対象者  最後のタイムステップでの過去の軌跡(タイムステップ t での p 番目の人物の位置を表す)が与えられた場合、SHENet では、次のフレームでの歩行者の将来の位置を、実際の軌跡にできるだけ近くなるように予測する必要があります。 提案されたGTBは  グループの軌跡を表すために圧縮されています。 次に、観測された軌道をキーとして、最も近い代表グループ軌道を将来の軌道候補として検索します。 同時に、過去の軌跡画像とシーン画像はそれぞれ軌跡エンコーダとシーンエンコーダに渡され、それぞれ軌跡特徴とシーン特徴が生成されます。 エンコードされた特徴はクロスモーダルトランスフォーマーに送られ、真の軌跡と実際の軌跡の間のオフセットを学習する。   。 による  に追加  最終的な予測は  。 トレーニングフェーズ中に、 までの距離がしきい値よりも高い場合、人の軌跡 (つまり、および ) が軌跡ライブラリに追加されます。 トレーニングが完了すると、バンクは推論のために固定されます。

図 2: SHENet のアーキテクチャは、グループ トラジェクトリ ベース モジュール (GTB) とクロスモーダル インタラクション モジュール (CMI) の 2 つのコンポーネントで構成されています。 GTB は、すべての履歴軌道を代表的なグループ軌道のセットにクラスタ化し、最終的な軌道予測の候補を提供します。 トレーニングフェーズでは、GTB は予測された軌道の誤差に基づいて対象者の軌道をグループ軌道ライブラリに組み込み、表現能力を拡張することができます。 CMI は、対象者の過去の軌跡と観測されたシーンを、それぞれ軌跡エンコーダーとシーンエンコーダーへの入力として受け取り、特徴抽出を行います。その後、クロスモーダルトランスフォーマーを通じて過去の軌跡と周囲の環境との相互作用を効果的にモデル化し、それを改良して候補の軌跡を提供します。

図 3: クロスモーダル変圧器の図。 軌跡の特徴とシーンの特徴はクロスモーダル トランスフォーマーに送られ、検索軌跡と実際の軌跡の間のオフセットを学習します。

グループトラックライブラリモジュール

グループ軌跡ライブラリ モジュール (GTB) は、シーン内の代表的なグループ軌跡を構築するために使用されます。 GTB のコア機能は、バンクの初期化、トラックの検索、トラックの更新です。

トラックライブラリの初期化 記録された多数の軌跡には冗長性があるため、それらを単純に使用するのではなく、軌跡ライブラリの初期値として、スパースで代表的な軌跡のセットを生成します。 具体的には、訓練データ内の軌跡を次のように表す。   そしてそれぞれ  観測軌道のペアに分割  そして将来の軌道  、 したがって  観察セット  および対応する将来のコレクション  。 次に、各軌跡のペア間のユークリッド距離を計算し、K-medoids クラスタリング アルゴリズムを使用して軌跡クラスターを取得します。   の初期メンバーは、同じクラスターに属する軌跡の平均です (アルゴリズム 1、ステップ 1 を参照)。それぞれの軌跡は、人々の集団の移動パターンを表しています。

トラック検索と更新 グループ軌跡ライブラリでは、各軌跡を過去と未来のペアとして表示できます。 数値的に言えば、   、で  過去と未来の軌跡の組み合わせを表し、  はい  における過去と未来のペアの数。 与えられた軌道   、観測された  その計算の鍵として  過去のトラック  類似度スコアと代表的な軌跡を見つける  最大類似度スコアに従って(アルゴリズム 1、手順 2 を参照)。 類似度関数は次のように表すことができます。

オフセットを追加することで  (式2参照)を代表軌道に加える  観測対象者の予測軌道を得る  (図2参照)。 初期軌道ライブラリはほとんどの場合うまく機能しますが、ライブラリを改善するために の一般化(アルゴリズム1のステップ3を参照)では、距離閾値θに応じて更新するかどうかを決定します。  

クロスモーダルインタラクションモジュール

このモジュールは、個人の過去の軌跡と環境情報との相互作用に焦点を当てています。 これは、人間の動きとシーン情報をそれぞれ学習する 2 つのユニモーダル エンコーダーと、それらの相互作用をモデル化するクロスモーダル トランスフォーマーで構成されています。

トラックエンコーダ 軌道エンコーダは、Transformerネットワークのマルチヘッドアテンション構造を採用しており、   自己注意 (SA) レイヤー。 SAレイヤー  のサイズは、異なる時間ステップで人間の動きを捉え、動きの特徴を次元から変換します。   プロジェクト  、で  軌跡エンコーダの埋め込み次元です。 したがって、人間の動作の表現を取得するには、軌跡エンコーダを使用します。

シーンエンコーダー 事前トレーニング済みの Swin Transformer は特徴表現において魅力的なパフォーマンスを持っているため、これをシーン エンコーダーとして採用します。 それは、   シーンの意味的特徴は  (事前学習済みシーンエンコーダ  )は、人や道路などの意味クラスの数です。  そして  空間解像度です。 後続のモジュールが動作表現と環境情報を簡単に融合できるようにするために、意味的特徴をサイズ () から () に再形成し、複数の知覚層を介して次元 () から () に投影します。 その結果、シーンエンコーダーを使用する  シーン表現を取得する 

クロスモーダルトランスフォーマー シングルモダリティ エンコーダーは、人間の動きと環境情報との相互作用を無視して、独自のモダリティから特徴を抽出します。 持っている  レイヤーのクロスモーダルトランスフォーマーは、この相互作用を学習することで候補軌道を洗練することを目指しています。   (セクション3.2を参照)。 我々は、環境情報によって制約された重要な人間の動きを捉えるためのストリーム構造と、人間の動きに関連する環境情報を取り出すためのストリーム構造の 2 つを採用しています。 クロスアテンション (CA) レイヤーとセルフアテンション (SA) レイヤーは、クロスモーダルコンバーターの主なコンポーネントです (図 3 を参照)。 環境の影響を受ける重要な人間の動きを捉え、その動きに関連する環境情報を取得するために、CA レイヤーは 1 つのモダリティをクエリと見なし、もう 1 つのモダリティを 2 つのモダリティと対話するキーと値と見なします。 SA レイヤーは、シーン制約付きモーションまたはモーション関連の環境情報内の要素 (クエリ) と他の要素 (キー) 間の類似性を計算し、より優れた内部接続を促進するために使用されます。 そのため、クロスモーダルトランスフォーマーを使用します  マルチモーダル表現を取得します()。 検索の軌跡を予測する そして真の軌道  間のオフセット  、私たちは  最後の要素 (LE)   そして、グローバルプーリング層(GPL)後の出力    。 オフセット  次のように表現できます。

ここで、[; ] はベクトル連結を表し、MLP は多層知覚層を表します。

目的関数を最小化するために、SHENet のフレームワーク全体をエンドツーエンドでトレーニングします。 トレーニング中、シーンエンコーダーはADE20Kで事前トレーニングされているため、セグメンテーション部分を固定し、MLPヘッドのパラメータを更新します(セクション3.3を参照)。 既存の研究に従って、ETH/UCY データセット上の予測軌道と実際の軌道間の平均二乗誤差 (MSE) を計算します。  

より困難な PAV データセットでは、曲線平滑化 (CS) 回帰損失を使用します。これにより、個々のバイアスの影響を軽減できます。 軌道を平滑化した後に MSE を計算します。 CS 損失は次のように表すことができます。

ここでCSは曲線平滑化の機能を表す[2]。

実験

実験のセットアップ

データセット 私たちは、ETH、UCY、PAV、およびスタンフォード ドローン データセット (SDD) データセットでこの方法を評価します。ユニモーダル法は軌跡データのみに焦点を当てますが、マルチモーダル法ではシーン情報を考慮する必要があります。

ETH/UCY データセットと比較すると、PAV は、静止カメラからキャプチャされ、HTP タスクに十分な軌跡を提供する PETS09-S2L1 (PETS)、ADL-Rundle-6 (ADL)、Venice-2 (VENICE) などの複数のモーション モードを備えているため、より困難です。 ビデオはトレーニング セット (80%) とテスト セット (20%) に分割され、PETS/ADL/VENICE にはそれぞれ 2,370/2,935/4,200 のトレーニング シーケンスと 664/306/650 のテスト シーケンスが含まれています。 私たちは  未来を予測するための観測フレーム  フレームを使用して、さまざまな方法による長期予測結果を比較することができます。

ETH/UCY や PAV データセットとは異なり、SDD は大学キャンパスの鳥瞰図からキャプチャされた大規模なデータセットです。 複数の相互作用するエージェント (歩行者、自転車、車など) とさまざまなシナリオ (歩道や交差点など) で構成されます。 前回の研究に続き、過去 8 フレームを使用して将来の 12 フレームを予測します。

図 4: 提案されたメトリック CS-ADE と CS-FDE の図解。

図 5: 曲線の平滑化後のいくつかのサンプルの視覚化。

評価指標  ETH および UCY データセットでは、HTP の標準メトリックである平均変位誤差 (ADE) と最終変位誤差 (FDE) を採用しています。 ADE は、すべての時間ステップにおける予測軌道と実際の軌道の平均差です。   エラー、FDEは最終時間ステップでの予測軌道と実際の軌道の差です。  エラー。 PAV の軌道には多少のジッター(急カーブなど)があります。 したがって、合理的な予測は、従来の指標ADEとFDEを使用した非現実的な予測とほぼ同じ誤差を生み出す可能性があります(図7(a)を参照)。 軌跡自体のパターンと形状に焦点を当て、ランダム性と主観性の影響を減らすために、CS-Metric:CS-ADEとCS-FDEを提案します(図4を参照)。 CS-ADE は次のように計算されます。

ここでCSは曲線平滑化関数であり、セクション3.4のLcsと同じように定義されます。 CS-ADE と同様に、CS-FDE は軌道平滑化後の最終的な変位誤差を計算します。

図 5 は、大まかな実際の軌跡を滑らかな軌跡に変換するトレーニング データの例を示しています。

実装の詳細  SHENet では、グループ軌道ライブラリの初期サイズは に設定されています。 トラック エンコーダーとシーン エンコーダーの両方に 4 つの自己注意 (SA) レイヤーがあります。 クロスモーダル Transformer には、6 つの SA レイヤーとクロスアテンション (CA) レイヤーがあります。 すべての埋め込み次元を 512 に設定しました。軌道エンコーダーの場合、サイズは  人間の動作情報(ETH/UCY   、PAV   )。 シーンエンコーダーの場合、サイズが 150 × 56 × 56 のセマンティック機能を出力します。サイズを 150 × 56 × 56 から 150 × 3136 に変更し、次元 150 × 3136 から 150 × 512 に投影します。 4 つの NVIDIA Quadro RTX 6000 GPU で 100 エポックにわたってモデルをトレーニングし、固定学習率 1e−5 で Adam オプティマイザーを使用します。

アブレーション実験

表 1 では、グループ トラジェクトリ ベース (GTB) モジュールと、トラジェクトリ エンコーダ (TE)、シーン エンコーダ (SE)、およびクロス モーダル インタラクション (CMI) モジュールを含むクロス モーダル インタラクション (CMI) モジュールを含む SHENet の各コンポーネントを評価します。

GTBの影響 まず、GTB のパフォーマンスを調べます。 CMI(TE、SE、CMT)と比較すると、GTB は PETS で FDE を 21.2% 改善します。これは大きな改善であり、GTB の重要性を示しています。 ただし、GTB のみ (表 1 の行 1) では不十分であり、CMI よりもパフォーマンスが低下します。 そこで、CMI モジュールの各部分の役割を調査しました。 TEとSEの影響  TEとSEの性能を評価するために、TEから抽出した軌跡特徴とSEから抽出したシーン特徴(表1の行3)を連結し、TEのみを使用した場合と比較して、より小さな動きでADLとVENICEのパフォーマンスを向上させました。これは、環境情報を軌跡予測に組み込むことで結果の精度を向上できることを示しています。CMTの効果 表 1 の 3 行目と比較すると、CMT (表 1 の 4 行目) はモデルのパフォーマンスを大幅に向上させることができます。 注目すべきは、PETS における TE および SE シリーズの性能よりも優れており、ADE が 7.4% 向上していることです。 完全な CMI では、GTB 単独と比較して ADE が平均 12.2% 改善されました。

SOTAとの比較

ETH/UCY データセットで、私たちのモデルを最先端の方法である SS-LSTM、Social-STGCN、MANTRA、AgentFormer、YNet と比較します。 結果は表2にまとめられています。私たちのモデルは平均 FDE を 0.39 から 0.36 に削減し、最先端の方法である YNet と比較して 7.7% の改善を実現しました。 特に、軌道が大きく動く場合、私たちのモデルは ETH 上の以前の方法よりも大幅に優れており、ADE と FDE はそれぞれ 12.8% と 15.3% 向上しました。

表 2: ETH/UCY データセットにおける最先端 (SOTA) 手法の比較。 * は、単峰型アプローチよりも小さいセットを使用することを示します。 上位 20 位までのベストが評価に使用されます。

表 3: PAV データセットにおける SOTA 手法との比較。

長期予測におけるモデルの性能を評価するために、PAVで実験を行い、各軌道を  観察フレーム、  将来のフレーム。 表 3 は、SS-LSTM、Social-STGCN、Next、MANTRA、YNet といった従来の HTP 方式とのパフォーマンス比較を示しています。 YNet の最先端の結果と比較すると、提案された SHENet CS-ADE と CS-FDE はそれぞれ平均で 3.3% と 10.5% 向上します。 YNet は軌跡のヒートマップを予測するため、軌跡の動きが小さい場合 (VENICE など) にパフォーマンスが向上します。 それでも、私たちの方法は VENICE では依然として競争力があり、大きな動きや交差のある PETS では他の方法よりもはるかに優れたパフォーマンスを発揮します。 特に、私たちの方法は、YNet と比較して PETS で CS-FDE を 16.2% 向上させます。 従来のADE/FDE指標においても大きな進歩を遂げました。

分析する

距離閾値θ   θ は軌道ライブラリの更新を決定するために使用されます。 θの典型的な値は、軌道の長さに応じて設定されます。 真値の軌跡がピクセル単位で長い場合、予測誤差の絶対値は通常大きくなります。 ただし、それらの相対的な誤差は同程度です。 したがって、誤差が収束すると、θ はトレーニング誤差の 75% に設定されます。 実験では、PETSではθ = 25、ADLではθ = 6に設定しました。 実験結果では、表 4 に示すように、75% のトレーニング エラーが得られることが示されています。

表4: PAVデータセットにおけるさまざまなパラメータθの比較。 結果は 3 つの条件の平均です。

表5: PAVデータセットにおけるクラスターの初期数Kの比較。

Kはメドイド内のクラスターの数である 表5に示すように、初期クラスターKの数を変えて設定した場合の効果を調べます。 特にクラスターの初期数が 24 ~ 36 の場合、クラスターの初期数は予測結果にそれほど影響しないことがわかります。 したがって、実験では K を 32 に設定できます。

銀行の複雑性分析 検索と更新の時間計算量はそれぞれO(N)とO(1)です。 それらの空間計算量は O(N) です。 グループ軌跡の数 N ≤ 1000。クラスタリングプロセスの時間計算量はββ 、空間計算量はββです。 βはクラスター化された軌跡の数です。   クラスターの数です。  クラスタリング手法の反復回数です。

図 6: 私たちの方法と最先端の方法の定性的な視覚化。 青い線は観測された軌道です。 赤い線と緑の線は予測された軌道と実際の軌道を示しています。

図 7: CS なし/ありの定性的な視覚化。

定性的な結果

図6はSHENetと他の方法の定性的な結果を示しています。 対照的に、人が道路の脇まで歩いてから引き返す(緑の曲線)という非常に困難なケースでは、他のすべての方法ではうまく処理できないのに対し、私たちが提案する SHENet では依然として処理できることに驚きました。 これは、当社が特別に設計した履歴グループ軌跡ライブラリ モジュールの役割によるものです。 さらに、記憶に基づくアプローチMANTRA[20]とは対照的に、我々は個人だけではなくグループの軌跡を検索します。 これはより一般的なものであり、より困難なシナリオにも適用できます。 図 7 には、曲線平滑化 (CS) の有無による YNet と SHENet の定性的な結果が含まれています。 最初の行はMSE損失の使用を示しています  結果。 過去の軌跡には多少のノイズ(突然の急カーブなど)が伴うため、YNet の予測軌跡ポイントは密集してしまい、明確な方向を示すことができませんが、私たちの手法では、過去のグループ軌跡に基づいて潜在的なパスを提供できます。 2 つの予測は視覚的には異なりますが、数値誤差 (ADE/FDE) はほぼ同じです。対照的に、我々が提案するCS損失は  定性的な結果は図 7 の 2 行目に示されています。提案された CS はランダム性と主観性の影響を大幅に軽減し、YNet と私たちの方法の両方で合理的な予測を生成することがわかります。

結論は

本稿では、HTP のシーン履歴を最大限に活用する新しいアプローチである SHENet を提案します。 SHENet には、すべての履歴軌跡に基づいてグループ軌跡ライブラリを構築し、ライブラリから観察対象者の代表軌跡を取得するための GTB モジュールが含まれています。また、代表軌跡を改良するための CMI モジュール (人間の動きと環境情報の相互作用) も含まれています。 HTP ベンチマークで SOTA パフォーマンスを達成し、私たちのアプローチは困難なシナリオで大幅な改善と一般化を実証しています。 しかし、現在の枠組みでは、銀行建設プロセスが人間の動きにのみ焦点を当てているなど、まだ未開拓の側面がいくつかあります。 今後の作業には、インタラクション情報(人間の動きやシーンの情報)を使用した軌跡ライブラリのさらなる調査が含まれます。

オリジナルリンク: https://mp.weixin.qq.com/s/GE-t4LarwXJu2MC9njBInQ

<<:  最も需要の高い AIGC 関連の仕事 11 選

>>:  需要が高まる最高AI責任者

ブログ    

推薦する

ショアのアルゴリズム: RSA 暗号解読の「不滅の神話」

RSA 暗号化は、かつては最も信頼性の高い暗号化アルゴリズムと考えられていましたが、Shor のア...

わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

画像を 3D に変換する方法としては、通常、スコア蒸留サンプリング (SDS) 方式が採用されていま...

我が国は人工知能などの主要な技術標準に関する研究を強化します

標準は経済活動や社会の発展を技術的に支えるものであり、人々の生活に深く関わっています。最近、中国共産...

エネルギー分野における人工知能の機会と課題

エネルギー部門は、現代経済において最も強力かつ収益性の高い部門の 1 つです。しかし、ほとんどのエネ...

生成 AI とデータ品質は共存できますか?

このハイテク時代では、生成型人工知能については誰もが知っているか、少なくとも聞いたことがあると思いま...

データサイエンティストと開発者向けの新しいツールであるAmazon SageMakerが中国で利用可能になりました

【51CTO.comオリジナル記事】機械学習は誕生以来、多くの分野で応用されてきましたが、現時点では...

Karpathy が OpenAI を離れ、2 時間の AI コースを開始! GPTトークナイザーをゼロから構築する

OpenAIを去った技術の第一人者、カルパシー氏はついにオンラインで2時間のAI講座を開始した。 —...

人工知能とIoTがガソリン小売業界を変革

ネットワークは常に企業の神経系であり、ビジネス プロセスとトランザクションはネットワークを通じてのみ...

Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能の未来は人類にとって何を意味するのでしょうか?

人工知能(AI)について多くの人が最初に尋ねる質問は、「それは良いものか、悪いものか?」です。答えは...

Pythonでシンプルだが強力な顔認識システムを書く

face_recognition は、強力でシンプル、使いやすい顔認識オープンソース プロジェクトで...

李開復氏:将来、人間の仕事の半分はAIに奪われるが、失業しない分野は2つだけ

中関村オンラインニュース:李開復氏は先日、未来フォーラムで人工知能をテーマにしたメディアインタビュー...

ファインマン・ラプソディ:体内に入ることができる「外科医」

1959年、ノーベル物理学賞受賞者のリチャード・ファインマンは、カリフォルニア工科大学での「体の底...

...

...