Waymo - 自動運転技術の解説

[[437828]]

今日は、Google の自動運転車 Waymo がどのようにそれを実現するかを見てみましょう。

Waymo は 25 以上の都市の公道で 2,000 万マイル以上走行しました。彼らはまた、シミュレーション環境内で数百億マイルを走行しました (この記事の後半で説明)。さらに、Waymo は米国でタクシーサービスを運営しており、文字通り運転手なしで乗客を輸送しています。

Waymo の急速な成長を受けて、今日の午後は Waymo のテクノロジーを詳しく紹介し、この巨大企業の背後にある現実を理解していただきます。

他の自動運転車と同様に、Waymo の実装は、認識、位置特定、計画、制御という 4 つの主要なステップを経て進みます。

この記事では、制御に関する内容については説明しません。 Waymo にとって、予測 (計画の一部) はもう 1 つの中核となる柱であり、この記事では別途説明します。

まずは認識から始めましょう

感知

ほとんどのロボットシステムのコアコンポーネントは、認識タスクです。 Waymo の場合、認識には障害物の推定と自動運転車の位置特定が含まれます。

センサーとミッション

Waymo の認識システムは、カメラ、LIDAR、レーダーを組み合わせて使用します。 Waymo のほとんどの作業は 4 つの LiDAR で行われるため、Tesla とは正反対のシステムと考えてください。

ここで、Waymo の自動運転タスクの複雑さを見てみましょう。これは、同社のコンピュータービジョンシステムが認識する必要があるすべての事柄の概要を示すものです。

ご覧のとおり、障害物に関して必要な情報のレベルはかなり高いです。

車は普通車、パトカー、救急車、消防車、スクールバスに分類されます。
特殊車両に遭遇した場合、システムはサイレンとライトを観察し、それに応じて行動することができます。
検出された障害物にはそれぞれ、移動中、停止中などの状態があります。

ご覧のとおり、認識システムは「状態」を考慮して、それを予測システムに提供します。

しかし、この認識システムはすぐに、特に厄介な状況に陥ってしまいます。次に例を示します。

反射の問題

上記の反射の問題は、決して唯一の厄介な問題ではありません。たとえば、変装したり、トラックの屋根の上に横になったり、STOP サインを持って歩いたりすることができます。システムが遭遇する可能性のある問題に注意する必要があるエッジケースは、おそらくさらに多く想像できるでしょう。

Waymo ノート:

しかし、過去数年にわたって、上記の問題の多くは解決されました。

LiDARのおかげで反射の問題を解決できます。反射は LiDAR には表示されません。ポイントクラウドのみが実際の障害物 (ここではバス) の形状を示します。 LiDAR について詳しく学びましょう。
マップのおかげで、「一時停止の標識を持つ男性」の問題は修正されました。最初のステップは STOP 標識を検出することです。2 番目のステップでは、この情報を地図および事前の知識と照合します。 Waymo は標識を検出するたびに、「地図にここに STOP 標識がありますか? ない場合は工事中ですか? ない場合は停止する必要はありません!」と質問します。

建築

私は最近、Tesla コンピュータービジョンアーキテクチャについて議論しながら、HydraNet アーキテクチャを調査しました。複数のニューラルネットワークを同時に実行するように設計されたアーキテクチャです。「ヒドラ」という言葉は、複数の頭を持つシステムを意味します。

Waymo は HydraNets については語らなかったが、そのビジョンシステムについては何か語った。

最初に驚かれるかもしれないのは、Waymo のアーキテクチャは固定ではなく推定であるということです。

これはニューラルアーキテクチャ検索 (NAS) セルです。

これは、ResNet のような大規模なニューラルネットワークの構成要素です。このアイデアは AutoML に採用されています。 AutoML の背後にある考え方は、ニューラルネットワークアーキテクチャをアルゴリズムによって推定する必要があるというものです。

これらのアーキテクチャは NAS ユニットを使用して構築され、最適な組み合わせが優先されます。

10,000 のアーキテクチャがテストされ、100 のモデルが事前に選択され、最終的な勝者 1 人が選ばれました。勝利の基準は、精度と推論コストです。

データセットとモデル

Google はアクティブラーニングと呼ばれるプロセスを使用しています。

アクティブラーニングの考え方は次のとおりです。

ラベル付けされていないデータごとに、予測のためにモデルに送信します。
モデルが予測に非常に自信がある場合は、自動的にラベルが付けられます。
不明な場合は、データは人間の注釈者に送信されます。この方法では、人間の注釈者は難しいデータのみに注釈を付け、残りは自動的に注釈が付けられます。

アクティブラーニングに関する詳細情報。

Waymo は、TPU (Tensor Processing Units) と Google のディープラーニングフレームワーク TensorFlow を活用し、アクティブラーニングを使用してモデルをトレーニングします。

テスラと同様に、これは閉ループです。

この図は非常にわかりやすいです。一番下の「リリース」から始めて左へ移動します。

モデルが公開されると、データの収集が始まります。
一部のデータはニューラルネットワークと人間の注釈者によって選択され、注釈が付けられました。
ラベル付けされたデータセットは AutoML アーキテクチャ検索に送信され、最適なモデルが評価されます。
最適なモデルが検証、テストされ、展開されます。

次に、新しい反復を開始します...

これらの知覚のための機械学習モデルの目標は、3D 世界を正確に推定することです。

位置

測位とは、車両の位置を1～3cmの精度で取得することを意味します。 GPS を使用する企業もあれば、カメラや LiDAR 情報を追加する企業もありますが...

Waymo は、地図、LIDAR、GPS を使用して車両の位置を特定します。

Google は Google マップでの経験も活用しました。

Google マップチームは長年にわたり、LIDAR、カメラ、GPS を使用した高精度のマッピングに取り組んできました。これらは自動運転車に使用される精密センサーです。

Waymo ノート:

Waze も Google マップも Waymo とそのローカリゼーションモジュールには関与していませんが、マップで得られた経験は非常に有益です。

Google はほぼ全世界の地図を作成しました。相対位置検出から通り 2 が表示された場合、自分の位置が正確にわかります。彼らは過去20年間、まさにこのことに取り組んできました。

Waymo の測位モジュールは、地図、カメラ、GPS、アルゴリズムで構成されており、世界中の車両の位置を正確に特定できます。 Waymo は、モジュールの堅牢性と信頼性を高めるために、モジュールに多くの冗長性を取り入れています。

予測する

行動予測

Waymo の自動運転車の最も重要な機能は行動予測です。 Google は、Tesla のように車両群の力を活用することはできない。テスラは顧客の何十万台もの車からデータを収集しています。 Waymo はこれを実行できませんが、独自の車両群を保有しており、近年かなり増加していると思われます。

自動運転車で最終的に目指すのは、人間の行動を理解し、それを予測することです。これを行動予測といいます。

これらの行動予測は、リカレントニューラルネットワークを使用して行われます。つまり、過去の情報を使用して将来の行動を予測します。したがって、何をすべきかを正確に把握し、予測の信頼性を測定することができます。

動作予測は次のようになります。

車両が歩行者の視線を感知した場合、事故のリスクは低くなります。
歩行者が注意を払わずに走っているのが観察された場合、リスクは高くなります。

Waymo のシステムはこれを認識しています。これはどうやって行うのですか?専門家のバイアスをモデルに入力します。その予測システムは、機械学習と人間の知識を組み合わせたハイブリッドです。人間の知識には、交通規則や不可能なこと（例えば、人間が時速 50 km で歩いたり走ったりすることは不可能）も含まれます。

シミュレーション

Waymo は実際に運転するだけでなく、シミュレーションもたくさん行います。 Waymo は、現実世界のデータを入力して新しいシナリオを出力するシミュレーターを構築しました。

現実の生活で起こる状況を例に挙げてみましょう。次に、シミュレータを使用して変更します。人間のドライバーよりも優れた性能を持つ車を想像してください。そして、人間のドライバーよりも優れていない車を想像してください。

これは、ニコラス・ケイジがあらゆる可能性のあるシナリオを想像し、その中で生き残るものを選択する能力を持つ映画「ネクスト」に似ています。

[[437832]]

次

Waymo はリアルタイムで前後に再生でき、動作をシミュレートすることもできます。小説全体を構築し、アルゴリズムがどのように機能するかを確認できます。シミュレーターは真の力を発揮します。実際、Waymo はこれらのシミュレーションで平均 25,000 台の仮想車両を 24 時間 365 日稼働させ、1 日あたり 10,000,000 マイル走行しています。

下の写真をご覧ください。右側では、黄色い線が2つに分かれているのがわかります。

これはドミニク・トレットとブライアン・オコナーにとっての別れではない。これら 2 本の線は、車両がどのような動作をするかを予測したものです。車に関する情報が多ければ多いほど、予測の精度と信頼性が高まります。残り一つになるまで…

より多くのシナリオをシミュレートするために、Waymo は DeepMind と深層強化学習を使用してエージェントと運転ポリシーを作成しています。

強化学習では、ポリシーは動作です。 Waymo は、誰かの前に危険に割り込もうとする怒ったドライバーや、不注意なスクーターのドライバーをシミュレートできます。毎回、彼らはアルゴリズムの動作と正確性を調べました。

ドライバーについて正確かつ十分に訓練された予測が行われると、取るべき軌道を生成することが可能になります。これは意思決定と軌道生成とも呼ばれます。 Waymo の運転モデルは ChauffeurNet と呼ばれます。

軌道は (x,y,z) 点の連続です。

計画モジュールの目標は、安全性、速度、実現可能性の観点から、誤差が最も少ない軌道を生成することです。

Waymo の完全な計画モジュールを見てみましょう。

複雑に思えるかもしれませんが、心配しないでください。そのためにこの記事を書いたのです。

まず上から始め、「特徴ネットワーク」を知覚、位置特定、予測の出力として考えてみましょう。

左側にエージェント RNN が表示されます。これは本質的には、自律走行車の軌道を生成するネットワークです。これらの軌道は、方向 (実現可能性)、速度 (交通規則)、ウェイポイント (長さ)、エージェント (実現可能性、形状など) を考慮します。 Agent RNN の目標は、実現可能で現実的な軌道をシミュレートすることです。
すると右側に道路マスクネットが見えます。これは、生成した軌道が道路上にない場合に、大きなペナルティを受けるネットワークです。 Waymo はこのようにして、私たちが歩道を走行しないようにしています。
最後に、一番右にあるのは Perception RNN です。これは、他の車両との衝突や相互作用をペナルティするネットワークです。たとえば、車両から 1 メートル離れている場合の損失は、1.5 メートル離れている場合よりも大きくなります。

要約すると、ネットワークは道路上に留まり衝突を回避する実行可能な軌道を生成します。

最後に、軌道は反発子とアトラクターも考慮します。私たちは車線の中央に留まり、障害物を避けて中央を走りたいと考えています。

適切な軌道を生成するプロセスでは、逆強化学習と呼ばれる手法も使用されます。

逆強化学習では、実際の人間の軌跡（真実）を調べ、この軌跡がなぜ良い軌跡となるのかを判断します。これにより、生成された軌道が改善され、よりリアルになります。

要約する

知覚とは、障害物、信号、道路を検出することです。 Waymo は、アクティブラーニングを使用してデータを収集し、AutoML を使用してアーキテクチャを生成し、より効率的なアーキテクチャ (精度と推論時間) を選択します。
ローカリゼーションは、主に自分がどこにいるかを見つける知覚タスクです。 Waymo はこれを実現するために Google マップの知識を活用します。
予測は、リカレントニューラルネットワークと強化学習を使用してシミュレータ内で行われ、エージェントが軌道を適切に推定できるようにトレーニングされます。
計画とは、実現可能性に基づいて軌道を生成し、道路上に留まり、衝突を回避することです。車両は人間の注釈者から学習して、より現実的な軌道を生成します。

Waymo のシステムは、自動運転車に関する 11 年間の研究と実験の集大成です。自動運転技術の世界では、人々がテスラのシステムを好む傾向があり、路上での経験が非常に貴重であることに気づいたため、自動車の製造方法に反発が出ている。

どのような意見であれ、Google と Waymo が自動運転車に膨大な労力と技術を投入していることは否定できません。

Waymo にはまだ長い道のりが残っています。。。

Waymo の主な問題の一つは、地図の使用方法です。Waymo は地図なしでは運転できません。世界全体をより正確に地図化することは可能ですが、これをスケールするのは非常に困難です。

Waymo の主な視覚システムは LiDAR で構成されていますが、これは実際には大きな問題です。LiDAR は雪、雨、霧の中ではまったく見えません。

その結果、Waymo はアリゾナ州フェニックスやカリフォルニア州サンフランシスコなど、常に乾燥していて晴天が続く場所を頻繁に走行することになります。

Waymo ノート:

Waymo は最近、非常に湿度の高いミシガン州、嵐の多いマイアミ、雨の多いワシントン州での走行を開始しました。

テスラを見てみると、同社はすでにニューヨークのダウンタウンとパリで自動運転車を走らせています。テスラはドライバーのおかげで、すでにこれらの場所を知っています。スケーリングははるかに簡単かもしれませんが、結局のところ、LIDAR に依存すると問題が発生する可能性があります。

Waymo は、L5 自動運転競争における Tesla の直接のライバルです。

<<: WOTグローバルテクノロジーイノベーションカンファレンス2022：12の人気トピックがオンライン化されることが確定しましたので、ご確認ください！

>>: MITとHKUは、Transformerを超える精度を持つ物理モデルに基づく視覚推論フレームワークを提案

パニックになってるんですか？ロボットは共感の兆しを発達させ始めており、ロボットパートナーの次の動きを予測することができます。

Waymo - 自動運転技術の解説

パニックになってるんですか？ロボットは共感の兆しを発達させ始めており、ロボットパートナーの次の動きを予測することができます。

APICloud CEO 劉欣: モバイルアプリケーションは人工知能の実装にとって最も直接的な媒体である

清華大学の朱俊氏のチームは、拡散モデルを打ち破り、シュレーディンガー橋に基づく新しい音声合成システムを開発した。

Go 言語アルゴリズムの美しさ - 高度なソート

「人工知能」の時代が来るのか？将来的には「産業の新たな高地」となると予想され、多くの国がすでに計画を立てている。

「人と風景のインタラクティブ生成」に新たなブレークスルー！天津大学と清華大学がナレーターをリリース：テキスト駆動型で自然に制御可能｜ICCV 2023

大規模モデルの推論速度が 3.6 倍に向上しました。「Medusa」の論文はこちらです。Jia Yangqing: 最もエレガントな加速推論ソリューションの 1 つ

人工知能技術は将来のネットワークセキュリティの起爆点と原動力となるかもしれない

AIサークルが爆発した！マイクロソフトがトランスフォーマーのブロックを解除、シーケンスの長さが10億以上に拡大

推薦する

人工知能の分野でデータの機密性をどのように保護するか?

AIアラインメントを説明する4万語：北京大学と複数の大学チームがアラインメントの包括的なレビューを発表

スタンフォード大学の非接触型デバイスは、アクチュエータをスリーブに「縫い付ける」ことで、タッチ情報を遠隔で送信できる。

素晴らしい！ニューラルネットワークがフロントエンドコードを作成します

AIは教育分野にどのように貢献できるのでしょうか?

Facebook の科学者: アルゴリズムモデルにジャンクデータを入力するのはやめてください...

マルチエージェント強化学習の大規模モデルに関する予備的研究

ディープラーニング最適化アルゴリズムがどのように機能するかを知りたいですか?クリックしてください！急いで

パニックになってるんですか？ロボットは共感の兆しを発達させ始めており、ロボットパートナーの次の動きを予測することができます。

企業が AIoT に細心の注意を払うべきなのはなぜでしょうか?

20年間のAIベテランの告白