Google Chinaのエンジニアは破壊的なアルゴリズムモデルを提案し、Waymoはそれをテストして予測精度を向上させた。

「周囲の車両や歩行者は、次の数秒で何をするだろうか？」これは、安全な自動運転を実現するために答えなければならない重要な質問であり、自動運転分野における行動予測問題です。

自動運転企業のクリス・アームソン氏は昨年のインタビューで、認識力と予測能力が重要だと語っていた。今後5秒間に何が起こるかを予測できるモデルがあれば、自動運転の開発は大きく加速するだろう。

行動予測の難しさは、周囲の歩行者や車両の不確実性と、ルール外のさまざまな行動にあります。こうした状況を確実に予測することは難しく、トレーニングデータを通じてさまざまな動作の可能性を分析することによってのみ、より合理的な予測を実現できます。もう一つの難しさは、死角と閉塞の問題です。

このような状況に直面した場合、人間の運転手は通常、自身の運転経験に基づいて周囲の情報についての予想を形成します。この実証的研究は、行動予測の基礎は環境の認識と理解にあることを示しています。

この点に関して、Waymo と Google の中国エンジニアチームが新しいモデル VectorNet を提案しました。

このモデルでは、チームは初めて、ベクトルを使用して地図情報と移動オブジェクトの表現を簡素化し、周囲の環境情報を抽象的に把握する方法を提案しました。このアプローチは、画像によるレンダリングという従来の方法を放棄し、データ量と計算量を削減する効果を実現します。

ベクトル化に基づいて、モデルはすべてのベクトル間に意味的関係を追加し、機械（自動運転車両）が環境情報を見るだけでなく、環境内のさまざまな要素間の関係をさらに理解できるようにします。自動運転の文脈では、要素間の関係を理解することは動作の予測に役立ちます。

実際のテストでは、モデルの動作予測精度は既存の方法よりも約 20% 高く、メモリと計算要件は約 80% 削減されました。

この論文は、コンピュータービジョン分野の3大国際会議の1つであるCVPRに採択された。Waymoはブログ投稿で、この技術によって行動予測の精度が向上したとも明言している。

世界を抽象的に「理解する」

Waymo がブログで指摘したように、この研究の画期的な意義は、世界を抽象的に表現するためにベクトルの使用を提案した初めての研究であるという点です。

無人車両を例にとると、周囲の環境情報は大きく分けて2つに分けられます。 1 つ目は地図機能で、車線、横断歩道、信号、速度標識、一時停止標識などの道路固有の要素が含まれます。2 つ目のカテゴリは、無人車両の周囲の物体の移動軌跡です。

VectorNetの論文では、ベクトルで表現する方法では、ベクトル自体にさまざまな情報を入力できると述べられています。これらには、1. ベクトルの開始位置、2. ベクトルの終了位置、3. 車線や赤信号などのベクトルに対応する道路要素、4. 速度制限標識に必要な速度や、車両が前進するか停止するかを示す信号など、ベクトルに対応する要素の属性が含まれます。

4種類の情報はそれぞれ異なる情報と機能に対応しており、これらの情報を組み合わせることで、エンジニアはベクトル方式を使用して周囲の環境全体を多数のベクトルの組み合わせに抽象化し、機械内で周囲の環境をキャプチャして再構築することができます。

これまで業界では、周囲の環境の情報や物体を表現するために、車線などの地図情報や車両などの移動体をラスターグラフィックス上に描画し、畳み込みニューラルネットワーク（CNN）を通じてモデル化して、その後の動作予測などの演算を実現する手法が広く用いられてきたと理解されています。

しかし、欠点は、オブジェクトを画像上にレンダリングすることは、非常に計算集約的なプロセスであるということです。もともと機械は周囲の少数の物体を表現するだけでよく、データ量自体も非常に少なかったのですが、画像にレンダリングされたことでデータ量が大幅に増加しました。

したがって、オブジェクトを画像上にレンダリングする従来の方法は、時間と空間の点で非効率的な方法であると言えます。

さらに、畳み込みニューラルネットワークには、自動運転の動作を予測する上で根本的な限界があります。行動予測には通常、長距離道路の幾何学的特徴を捉える必要があるため、畳み込みニューラルネットワークは長距離道路情報の処理には適していません。

畳み込みニューラルネットワークは、計算に 3×3、5×5 の畳み込みカーネルを使用するため、この方法はローカル環境情報を非常にうまくキャプチャできます。ただし、車線などの長い環境情報は画像全体に渡ることが多いため、小さな畳み込みカーネルでは車線全体の幾何学的特徴をキャプチャするのに十分な受容野がありません。

論文では、畳み込みの受容野が予測の質に非常に重要であると述べられています。テストでは、より大きな畳み込みカーネルによってもたらされる受容野の拡大により、無人車両の挙動予測の結果が改善されることが示されていますが、コストも膨大で、計算コストはさらに増加します。

VectorNet モデルでは、環境情報を画像にレンダリングする必要はなく、抽象的で簡略化されたベクトル形式で表現します。これにより、モデルとデータのサイズが大幅に削減され、モデルの計算速度は畳み込みニューラルネットワークよりも桁違いに速くなります。

そのため、VectorNet は実際のアプリケーションで非常に実用的であり、Waymo の自動運転テストにおける動作予測の精度を向上させることができます。

業界関係者は、「これまで、学術界では予測モデルに多くの研究が注がれてきたと思うが、これらの研究では基本的な問題が見落とされている。つまり、現在の入力表現はまだ十分に行われていないということだ。現在、誰もがレンダリング＋畳み込みニューラルネットワークを使って入力表現を行い、それに基づいてさまざまな予測モデルを使って軌道を予測している。そのため、入力表現自体に依然として大きな問題がある場合、予測モデルの設計が効果的であるとは言い難い」と語った。

この声明では、このモデルの最大の貢献は、「地図をどのように表現し、ニューラルネットワークを使用して地図の内容を学習するか」という新しいモデルを提案していることであるとも強調されています。

機械に世界を「理解」させる

世界を抽象的に表現することは、VectorNet モデルの第一歩に過ぎません。ベクトルグラフを作成した後は、異なる要素間の接続を理解し、要素間の意味情報を学習することがより現実的なステップとなり、最終的には機械学習が「世界を見る」から「世界を理解する」への発展を実現できるようになります。

これまで、畳み込みニューラルネットワークは位置関係をエンコードするのには優れていましたが、複数の要素間の接続を学習するのは困難でした。

対照的に、グラフニューラルネットワークは、空間的な位置関係ではなく接続関係に重点を置いています。メッシュ構造では、通常のグラフニューラルネットワークは、線とノード間の意味関係を学習するのは非常に得意ですが、ノード間の位置関係を学習することはできません。これは、グラフニューラルネットワークの最大の問題でもあります。

自動運転が頼りにする地図情報は、位置情報だけでなく周囲の要素間の意味情報も重要です。一方では、車両、車線、信号などの要素の位置情報を正確に表現する必要があります。同時に、複雑な交通シナリオでは、車両などのオブジェクトの移動状態は、信号、道路交通規制などの要因の組み合わせによって影響を受け、周囲のオブジェクトの動きも車両の移動決定に影響を与えます。これが要素間の意味関係です。

周囲の車両の動作をより正確に予測するには、意味情報を理解することが重要です。

チームは、ベクトルを使用して周囲の情報を表現することをベースに、すべてのベクトル間の意味的なつながりを確立する階層型グラフニューラルネットワークを提案し、地図上のすべての要素の位置情報と要素間の意味情報を同時にモデルに組み込むことができました。

そうすることは、周囲のすべての要因が車両の移動動作の決定に影響を与える可能性があることを初期段階で手動でモデルに伝えることと同じです。その後の学習では、モデルは多くの要因のうちどの要因が車両の動きに影響を与えるか、また異なる要因間の影響度合いを自動的に学習できます。

Waymo のブログによると、VectorNet は広く使用されている ResNet と比較して予測精度が 18% 向上しています。さらに重要なのは、動作予測を行う際に ResNet のメモリの 29% しか使用せず、計算量も後者の 20% に過ぎないことです。

図 | テスト結果の比較

さらに、周囲の環境をより深く理解することで、機械は学習において人間の運転手と同様の経験を積むことも可能になります。さまざまな要素間の意味的関係を学習することで、周囲の状況の可能性について推論できるようになります。たとえば、道路脇の駐車標識が誤ってブロックされた場合、人間の運転手は過去の経験に基づいて標識の内容を推測できます。VectorNet のトレーニングでは、一部の地図機能をランダムにブロックすることで、VectorNet の予測能力をさらに強化できます。以前の学習経験に基づいて、不足している地図情報をより適切に推測し、最終的には必要に応じてタイムリーに対応できます。

実際、その後のトレーニングで、VectorNet は学習を通じて一連の「注意メカニズム」を形成しました。論文で示された例では、自動運転車両が移動して車線を変更するときに、機械が現在の車線と目標車線に関する情報にさらに注意を払う必要があることを認識していることを示しています。これは、モデルが周囲の環境情報についてさらに「理解」したことを示しており、モデルの解釈可能性を示しています。

[[326911]]

図 | 論文著者チーム、左から右へ：趙星、孫塵、高吉洋

この論文の著者チームは Google と Waymo から構成されています。このうち、高吉陽は現在、Waymoのシニアソフトウェアエンジニアである。清華大学で学士号を取得し、2018年に南カリフォルニア大学で電気工学の博士号を取得。趙星は浙江大学で学士号を取得し、その後マサチューセッツ工科大学で修士号と博士号を取得。現在はWaymoの研究員。孫塵も清華大学で学士号を取得し、その後2015年に南カリフォルニア大学で博士号を取得。現在はGoogleの研究員である。

<<: パンデミックの中で、これらの16の業界は技術のアップグレードを緊急に必要としている

>>: 新型コロナウイルス感染症の流行中に音声テクノロジーが再び注目を集めているのはなぜでしょうか?