Waymo - 自動運転技術の解説

Waymo - 自動運転技術の解説

[[437828]]

今日は、Google の自動運転車 Waymo がどのようにそれを実現するかを見てみましょう。

Waymo は 25 以上の都市の公道で 2,000 万マイル以上走行しました。彼らはまた、シミュレーション環境内で数百億マイルを走行しました (この記事の後半で説明)。さらに、Waymo は米国でタクシー サービスを運営しており、文字通り運転手なしで乗客を輸送しています。

Waymo の急速な成長を受けて、今日の午後は Waymo のテクノロジーを詳しく紹介し、この巨大企業の背後にある現実を理解していただきます。

他の自動運転車と同様に、Waymo の実装は、認識、位置特定、計画、制御という 4 つの主要なステップを経て進みます。

この記事では、制御に関する内容については説明しません。 Waymo にとって、予測 (計画の一部) はもう 1 つの中核となる柱であり、この記事では別途説明します。

まずは認識から始めましょう

感知

ほとんどのロボット システムのコア コンポーネントは、認識タスクです。 Waymo の場合、認識には障害物の推定と自動運転車の位置特定が含まれます。

センサーとミッション

Waymo の認識システムは、カメラ、LIDAR、レーダーを組み合わせて使用​​します。 Waymo のほとんどの作業は 4 つの LiDAR で行われるため、Tesla とは正反対のシステムと考えてください。

ここで、Waymo の自動運転タスクの複雑さを見てみましょう。これは、同社のコンピューター ビジョン システムが認識する必要があるすべての事柄の概要を示すものです。

ご覧のとおり、障害物に関して必要な情報のレベルはかなり高いです。

  • 車は普通車、パトカー、救急車、消防車、スクールバスに分類されます。
  • 特殊車両に遭遇した場合、システムはサイレンとライトを観察し、それに応じて行動することができます。
  • 検出された障害物にはそれぞれ、移動中、停止中などの状態があります。

ご覧のとおり、認識システムは「状態」を考慮して、それを予測システムに提供します。

しかし、この認識システムはすぐに、特に厄介な状況に陥ってしまいます。次に例を示します。

反射の問題

上記の反射の問題は、決して唯一の厄介な問題ではありません。たとえば、変装したり、トラックの屋根の上に横になったり、STOP サインを持って歩いたりすることができます。システムが遭遇する可能性のある問題に注意する必要があるエッジケースは、おそらくさらに多く想像できるでしょう。

Waymo ノート:

しかし、過去数年にわたって、上記の問題の多くは解決されました。

  • LiDARのおかげで反射の問題を解決できます。反射は LiDAR には表示されません。ポイント クラウドのみが実際の障害物 (ここではバス) の形状を示します。 LiDAR について詳しく学びましょう。
  • マップのおかげで、「一時停止の標識を持つ男性」の問題は修正されました。最初のステップは STOP 標識を検出することです。2 番目のステップでは、この情報を地図および事前の知識と照合します。 Waymo は標識を検出するたびに、「地図にここに STOP 標識がありますか? ない場合は工事中ですか? ない場合は停止する必要はありません!」と質問します。

建築

私は最近、Tesla コンピューター ビジョン アーキテクチャについて議論しながら、HydraNet アーキテクチャを調査しました。複数のニューラル ネットワークを同時に実行するように設計されたアーキテクチャです。 「ヒドラ」という言葉は、複数の頭を持つシステムを意味します。

Waymo は HydraNets については語らなかったが、そのビジョン システムについては何か語った。

最初に驚かれるかもしれないのは、Waymo のアーキテクチャは固定ではなく推定であるということです。

これはニューラル アーキテクチャ検索 (NAS) セルです。

これは、ResNet のような大規模なニューラル ネットワークの構成要素です。このアイデアは AutoML に採用されています。 AutoML の背後にある考え方は、ニューラル ネットワーク アーキテクチャをアルゴリズムによって推定する必要があるというものです。

これらのアーキテクチャは NAS ユニットを使用して構築され、最適な組み合わせが優先されます。

10,000 のアーキテクチャがテストされ、100 のモデルが事前に選択され、最終的な勝者 1 人が選ばれました。勝利の基準は、精度と推論コストです。

データセットとモデル

Google はアクティブラーニングと呼ばれるプロセスを使用しています。

アクティブラーニングの考え方は次のとおりです。

  • ラベル付けされていないデータごとに、予測のためにモデルに送信します。
  • モデルが予測に非常に自信がある場合は、自動的にラベルが付けられます。
  • 不明な場合は、データは人間の注釈者に送信されます。この方法では、人間の注釈者は難しいデータのみに注釈を付け、残りは自動的に注釈が付けられます。

アクティブラーニングに関する詳細情報。

Waymo は、TPU (Tensor Processing Units) と Google のディープラーニング フレームワーク TensorFlow を活用し、アクティブ ラーニングを使用してモデルをトレーニングします。

テスラと同様に、これは閉ループです。

この図は非常にわかりやすいです。一番下の「リリース」から始めて左へ移動します。

  • モデルが公開されると、データの収集が始まります。
  • 一部のデータはニューラル ネットワークと人間の注釈者によって選択され、注釈が付けられました。
  • ラベル付けされたデータセットは AutoML アーキテクチャ検索に送信され、最適なモデルが評価されます。
  • 最適なモデルが検証、テストされ、展開されます。

次に、新しい反復を開始します...

これらの知覚のための機械学習モデルの目標は、3D 世界を正確に推定することです。

位置

測位とは、車両の位置を1~3cmの精度で取得することを意味します。 GPS を使用する企業もあれば、カメラや LiDAR 情報を追加する企業もありますが...

Waymo は、地図、LIDAR、GPS を使用して車両の位置を特定します。

Google は Google マップでの経験も活用しました。

Google マップ チームは長年にわたり、LIDAR、カメラ、GPS を使用した高精度のマッピングに取り組んできました。これらは自動運転車に使用される精密センサーです。

Waymo ノート:

Waze も Google マップも Waymo とそのローカリゼーション モジュールには関与していませんが、マップで得られた経験は非常に有益です。

Google はほぼ全世界の地図を作成しました。相対位置検出から通り 2 が表示された場合、自分の位置が正確にわかります。彼らは過去20年間、まさにこのことに取り組んできました。

Waymo の測位モジュールは、地図、カメラ、GPS、アルゴリズムで構成されており、世界中の車両の位置を正確に特定できます。 Waymo は、モジュールの堅牢性と信頼性を高めるために、モジュールに多くの冗長性を取り入れています。

予測する

行動予測

Waymo の自動運転車の最も重要な機能は行動予測です。 Google は、Tesla のように車両群の力を活用することはできない。テスラは顧客の何十万台もの車からデータを収集しています。 Waymo はこれを実行できませんが、独自の車両群を保有しており、近年かなり増加していると思われます。

自動運転車で最終的に目指すのは、人間の行動を理解し、それを予測することです。これを行動予測といいます。

これらの行動予測は、リカレント ニューラル ネットワークを使用して行われます。つまり、過去の情報を使用して将来の行動を予測します。したがって、何をすべきかを正確に把握し、予測の信頼性を測定することができます。

動作予測は次のようになります。

  • 車両が歩行者の視線を感知した場合、事故のリスクは低くなります。
  • 歩行者が注意を払わずに走っているのが観察された場合、リスクは高くなります。

Waymo のシステムはこれを認識しています。これはどうやって行うのですか?専門家のバイアスをモデルに入力します。その予測システムは、機械学習と人間の知識を組み合わせたハイブリッドです。人間の知識には、交通規則や不可能なこと(例えば、人間が時速 50 km で歩いたり走ったりすることは不可能)も含まれます。

シミュレーション

Waymo は実際に運転するだけでなく、シミュレーションもたくさん行います。 Waymo は、現実世界のデータを入力して新しいシナリオを出力するシミュレーターを構築しました。

現実の生活で起こる状況を例に挙げてみましょう。次に、シミュレータを使用して変更します。人間のドライバーよりも優れた性能を持つ車を想像してください。そして、人間のドライバーよりも優れていない車を想像してください。

これは、ニコラス・ケイジがあらゆる可能性のあるシナリオを想像し、その中で生き残るものを選択する能力を持つ映画「ネクスト」に似ています。

[[437832]]

Waymo はリアルタイムで前後に再生でき、動作をシミュレートすることもできます。小説全体を構築し、アルゴリズムがどのように機能するかを確認できます。シミュレーターは真の力を発揮します。実際、Waymo はこれらのシミュレーションで平均 25,000 台の仮想車両を 24 時間 365 日稼働させ、1 日あたり 10,000,000 マイル走行しています。

下の写真をご覧ください。右側では、黄色い線が2つに分かれているのがわかります。

これはドミニク・トレットとブライアン・オコナーにとっての別れではない。これら 2 本の線は、車両がどのような動作をするかを予測したものです。車に関する情報が多ければ多いほど、予測の精度と信頼性が高まります。残り一つになるまで…

より多くのシナリオをシミュレートするために、Waymo は DeepMind と深層強化学習を使用してエージェントと運転ポリシーを作成しています。

強化学習では、ポリシーは動作です。 Waymo は、誰かの前に危険に割り込もうとする怒ったドライバーや、不注意なスクーターのドライバーをシミュレートできます。毎回、彼らはアルゴリズムの動作と正確性を調べました。

ドライバーについて正確かつ十分に訓練された予測が行われると、取るべき軌道を生成することが可能になります。これは意思決定と軌道生成とも呼ばれます。 Waymo の運転モデル​​は ChauffeurNet と呼ばれます。

軌道は (x,y,z) 点の連続です。

計画モジュールの目標は、安全性、速度、実現可能性の観点から、誤差が最も少ない軌道を生成することです。

Waymo の完全な計画モジュールを見てみましょう。

複雑に思えるかもしれませんが、心配しないでください。そのためにこの記事を書いたのです。

まず上から始め、「特徴ネットワーク」を知覚、位置特定、予測の出力として考えてみましょう。

  • 左側にエージェント RNN が表示されます。これは本質的には、自律走行車の軌道を生成するネットワークです。これらの軌道は、方向 (実現可能性)、速度 (交通規則)、ウェイポイント (長さ)、エージェント (実現可能性、形状など) を考慮します。 Agent RNN の目標は、実現可能で現実的な軌道をシミュレートすることです。
  • すると右側に道路マスクネットが見えます。これは、生成した軌道が道路上にない場合に、大きなペナルティを受けるネットワークです。 Waymo はこのようにして、私たちが歩道を走行しないようにしています。
  • 最後に、一番右にあるのは Perception RNN です。これは、他の車両との衝突や相互作用をペナルティするネットワークです。たとえば、車両から 1 メートル離れている場合の損失は、1.5 メートル離れている場合よりも大きくなります。

要約すると、ネットワークは道路上に留まり衝突を回避する実行可能な軌道を生成します。

最後に、軌道は反発子とアトラクターも考慮します。私たちは車線の中央に留まり、障害物を避けて中央を走りたいと考えています。

適切な軌道を生成するプロセスでは、逆強化学習と呼ばれる手法も使用されます。

逆強化学習では、実際の人間の軌跡(真実)を調べ、この軌跡がなぜ良い軌跡となるのかを判断します。これにより、生成された軌道が改善され、よりリアルになります。

要約する

  • 知覚とは、障害物、信号、道路を検出することです。 Waymo は、アクティブ ラーニングを使用してデータを収集し、AutoML を使用してアーキテクチャを生成し、より効率的なアーキテクチャ (精度と推論時間) を選択します。
  • ローカリゼーションは、主に自分がどこにいるかを見つける知覚タスクです。 Waymo はこれを実現するために Google マップの知識を活用します。
  • 予測は、リカレントニューラルネットワークと強化学習を使用してシミュレータ内で行われ、エージェントが軌道を適切に推定できるようにトレーニングされます。
  • 計画とは、実現可能性に基づいて軌道を生成し、道路上に留まり、衝突を回避することです。車両は人間の注釈者から学習して、より現実的な軌道を生成します。

Waymo のシステムは、自動運転車に関する 11 年間の研究と実験の集大成です。自動運転技術の世界では、人々がテスラのシステムを好む傾向があり、路上での経験が非常に貴重であることに気づいたため、自動車の製造方法に反発が出ている。

どのような意見であれ、Google と Waymo が自動運転車に膨大な労力と技術を投入していることは否定できません。

Waymo にはまだ長い道のりが残っています。 。 。

Waymo の主な問題の一つは、地図の使用方法です。Waymo は地図なしでは運転できません。世界全体をより正確に地図化することは可能ですが、これをスケールするのは非常に困難です。

Waymo の主な視覚システムは LiDAR で構成されていますが、これは実際には大きな問題です。LiDAR は雪、雨、霧の中ではまったく見えません。

その結果、Waymo はアリゾナ州フェニックスやカリフォルニア州サンフランシスコなど、常に乾燥していて晴天が続く場所を頻繁に走行することになります。

Waymo ノート:

Waymo は最近、非常に湿度の高いミシガン州、嵐の多いマイアミ、雨の多いワシントン州での走行を開始しました。

テスラを見てみると、同社はすでにニューヨークのダウンタウンとパリで自動運転車を走らせています。テスラはドライバーのおかげで、すでにこれらの場所を知っています。スケーリングははるかに簡単かもしれませんが、結局のところ、LIDAR に依存すると問題が発生する可能性があります。

Waymo は、L5 自動運転競争における Tesla の直接のライバルです。

<<:  WOTグローバルテクノロジーイノベーションカンファレンス2022:12の人気トピックがオンライン化されることが確定しましたので、ご確認ください!

>>:  MITとHKUは、Transformerを超える精度を持つ物理モデルに基づく視覚推論フレームワークを提案

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能の明るい未来

[[407856]]私たちが今、そして近い将来に下す決断は、人工知能 (AI) がどのように発展し、...

自動運転タクシー市場が急成長中。最初にこの市場を活用できるのは、Google、Uber、それともTeslaのどれでしょうか?

ウェイモは世界クラスのレベル4自動運転車工場を建設し、テスラは「世界クラスのチップ」を発表し、ウーバ...

エイリアンがトレンド検索リストのトップに!米国が初のUFO公聴会を開催

昨日、米国議会の公聴会が中国国内の複数のメディアのトレンド検索のトップに躍り出た。 これを一言でまと...

人工知能が世界を席巻し、人類はサイボーグへと向かう必要がある

テスラのCEOイーロン・マスク氏はドバイでのイベントで人工知能の将来について語った。同氏は、人間より...

OpenAIの公式プロンプトエンジニアリングガイド:ChatGPTはこのようにプレイできます

ChatGPT や GPT-4 などの大規模言語モデル (LLM) の出現により、迅速なエンジニアリ...

量子コンピューティングと人工知能の関係は何ですか?

量子コンピューティングは、学術誌だけでなく、一般の新聞や雑誌でも頻繁に議論される、非常に人気の高いト...

機械学習モデルの再トレーニングの究極ガイド

機械学習モデルのトレーニングは通常、一連の入力機能と出力ターゲット間のマッピングを学習することによっ...

...

650億のパラメータ、すべてのパラメータを8つのGPUで微調整可能:Qiu Xipengのチームは大規模モデルの閾値を下げました

大規模モデルに向けて、テクノロジー大手はより大規模なモデルをトレーニングしており、学界はそれらを最適...

...

12の性能項目で1位を獲得、GPT-4に最も近い中国最大級のモデルが登場!いよいよ本格的に営業開始です!

中国はいつになったら、極めて強力な一般化能力を持つさまざまな知的存在を創造し、人類の真の助手となるこ...

疫病流行中の人間の行動にAIが混乱!データ変更による作業の「異常」は手動での制御が必要

[[327938]]ビッグデータダイジェスト制作著者: 劉俊環半年前に Taobao をオープンした...

人工知能技術の到来。デジタル変革をどう理解するか?

科学技術の進歩により、人間は肉体的な力から機械の代替まで、自然を変革する能力を獲得し、現在では人工知...

周明氏との対話: ラストマイルを解決するために大きなモデルを使用するときは、理想主義にならないでください。

ゲスト | 周明執筆者 | Yun Zhaoある夜、湘源の湧き水が、広大で無限に湧き出しました。 C...

AIはどのようにして責任を持つようになるのでしょうか?英国規格協会が答えを持っている

人工知能(AI)は、現在世界で最も革新的で影響力のある技術の1つであり、さまざまな分野や産業に浸透し...