テスラのエンジニアたちは、データの拡大に伴ってエンジニアの数を増やすことなく、データの拡大に真に適応できる自動運転技術を開発する方法に取り組んでいます。これは、何十億マイルもの走行からコンピューター ビジョンのエラー サンプルを蓄積することを意味します。人間の入力は信号源です。人間の行動は、機械に何が間違っていたかを伝えることができ、また、シナリオによっては、機械に何を正しく行うべきかを伝えることもできます。テスラが完全自動運転技術の分野で成功するかどうかに関わらず、一つ確かなことは、テスラが都市環境に半自動運転車を導入するだろうということだ。 テスラのAI担当シニアディレクター、アンドレイ・カルパシー氏が最近講演を行った。彼は演説の中で、半ば冗談めかして「作戦休暇」の謎を明かした。アイデアは、テスラの機械学習パイプラインを自動化し、エンジニア全員が休暇を取って、テスラの半自動運転機能が自動的に改善され続けるようにすることです。テスラの車は引き続きデータを自動的にアップロードし、手動でデータに注釈を付ける作業員は必要に応じてデータにラベルを付け続け、ニューラル ネットワークは新しいデータで自動的にトレーニングされ、その後、改善されたネットワークが車に展開されます。このプロセスは何度も繰り返されます。 エンジニアに休暇を取らせるのは冗談に過ぎません。なぜなら、やるべき仕事は常にあり、イノベーションのペースは決して止まらないからです。また、プロセス全体を完全に自動化できる場合でも、メカニズムが期待どおりに機能しているかどうかを確認するために人間がメカニズムを監視するのが賢明です。ただし、重要なのは、オートパイロット、召喚、およびその他のコンセプト機能の改善が主に自動化されていることです。ソフトウェア開発は伝統的にエンジニアの仕事でした。 「業務休暇」の目標は、テスラのエンジニアを工場のエンジニアのようにすることです。工場が稼働する前に、これらのエンジニアたちは長い時間をかけて多くの準備作業を行いました。工場が稼働し始めると、それを維持管理するために多数の非エンジニアリング人員が必要になります。問題が発生したときに機械を点検し、システムを修正したり改善したりするエンジニアが依然として必要です。しかし、一般的に、工場の運営はエンジニアの仕事とは無関係です。対照的に、従来のソフトウェア開発プロセスは、エンジニアが自ら製品を構築するようなものです。 テスラの機械学習プロセスを示すアンドレイ・カルパシー氏のプレゼンテーションのスライド テスラは、センサーとコンピューターを搭載し、インターネットに接続された世界最大のデータ収集車両ネットワークを保有しており、増え続けるデータ量に適応できる自動化目標を達成する方法を作り上げたいと考えている。この方法の最大のボトルネックは、ラベル付け作業員に支払われる給料です。コンピューター ビジョン タスクでは、Tesla はアルゴリズムの機能を継続的に向上させるために、新しく生成され手動でラベル付けされたカメラ データをトレーニング セットに継続的に追加する必要があります。ただし、この方法は、収集可能なデータの規模がますます拡大していることに適応するのが難しく、このデータのサブセットしか処理できず、そのサイズは Tesla が負担できるラベル付けコストに対応します。テスラは信号機の写真を1兆枚収集できるかもしれないが、同じ規模で信号機にラベルを付ける(写真内の信号を赤、緑、黄色でマークする)コストを負担することはできない。 手動によるラベル付けが必要なタスクの場合、Tesla のアプローチでは、ラベル付けされたデータの量を純粋に増やすのではなく、より高品質なデータを取得することで機械学習プロセスを加速します。最も価値のあるトレーニング データ サンプルは、既存のニューラル ネットワーク モデルでは正しく予測できないものです。おそらく、モデルはオブジェクトのクラスを誤って予測したり、存在しないオブジェクトを誤って報告したり、写真に写っているオブジェクトを見逃したりしたのでしょう。 「運用休日」に代表される自動化プロセスを通じて、テスラは競合他社よりも多くの貴重なデータサンプルを収集することができます。 テスラ車が、Navigate on Autopilot モード (テスラ車が自動的に車線変更できるようにする自動運転技術のバージョン) で高速道路を走行しているところを想像してください。テスラは自動的に車線変更シーケンスを開始したが、隣の車線にピックアップトラックが入ろうとしていることに気づかなかった。テスラ車の運転手はすぐにハンドルを切り、オートパイロットモードを終了し、車線変更のプロセスをキャンセルした。この手動介入により、テスラ車の 8 台のカメラ、レーダー データ、GPS データなどを組み合わせて取得されるスナップショットがトリガーされ、これには短いビデオ クリップが含まれる場合があります。テスラの手動アノテーターがビデオクリップを確認し、テスラのニューラルネットワークが 2 台のピックアップトラックを検出しなかったことを確認します。アノテーターは 2 台のトラックの周りに 3D ボックスを描き、「軽トラック」というラベルを付けます。その後、アノテーションが付けられたビデオクリップはテスラ本社に送信され、トレーニングデータセットに含められます。 では、人間のドライバーが完全に制御しながらテスラが高速道路を走っているところを想像してみてください。突然、テスラの前を走っていたミニバンの運転手が急ブレーキをかけ、それに応じてテスラの運転手も急ブレーキをかけた。テスラ車のコンピューター自動運転ソフトウェアは、実際には静かに動作します。人間のドライバーの運転軌跡を静かに「観察」し、自動運転モデルが常に同じ運転軌跡を採用する確率を推定します。この場合、自動運転ソフトウェアはミニバンを検出できませんでした。自動運転ソフトウェアにとって、人間の運転手が空いている高速道路で急ブレーキをかけることは、単なる偶然の行為に過ぎなかった。すると、ドライバーの軌跡に低い確率が割り当てられることになります。言い換えれば、自動運転ソフトウェアはドライバーの行動に「驚いた」ことになります。人間のドライバーの運転軌跡と機械が生成した運転軌跡の間のこの「驚き」または「相違」によりスナップショットがトリガーされ、それがテスラのデータラベラーにアップロードされます。 (これがテスラの「シャドウモード」の仕組みだと理解しています。) 自動運転車に関して恐ろしいことの 1 つは、モデルのエラー率が低くなるにつれて、エラー率を半分に保つために、より多くの誤ったデータ サンプルをトレーニングする必要があることです。システムで生成されるエラーが減るにつれて、システムの改善率を維持するために必要なエラー サンプルの数が増加します。必要なエラー サンプルの数が増えるほど、すべてを収集するのが難しくなります。 Waymo が重大なコンピューター ビジョン エラー (つまり、安全ドライバーが確認できる、車の異常な動作を引き起こすエラー) を 10,000 マイルあたり約 1 件のエラーにまで削減したと仮定します。 (これは実際のデータではなく、説明のために作り上げた例です。) Waymo は 1 か月あたり約 100 万マイル走行するため、深刻なコンピューター ビジョン エラーのサンプルは 1 か月あたり 100 件しかありません。これらの誤った例にラベルを付けるのは非常に簡単ですが、それらを見つけるのは骨の折れる作業です。比較すると、Waymo が 1 か月あたり 10 億マイル走行すると、1 か月あたり 10 万個のエラー サンプルが生成されます。このようにして、走行距離に応じて収集されるエラー サンプルの数が増加します。 2018 年 11 月に Navigate on Autopilot がリリースされてから 12 か月で、Navigate on Autopilot モードの Tesla 車両は 10 億マイル走行しました。平均すると月間8,300万マイルになります。過去 12 か月間でオートパイロット ナビゲーションを搭載したテスラ車の数がほぼ 2 倍になったため、この月間数値は引き続き増加し、今後 12 か月間でこの月間数値が 50% 増加する可能性があります (テスラの現在の生産率が少なくとも低下しないと仮定した場合)。現在、オートパイロット 2.0 以上のハードウェアを搭載したテスラ車は約 65 万台あります。平均走行距離が米国の平均と一致すると仮定すると、走行距離の合計(完全に人間の運転手によって走行したマイルと自動運転で走行したマイルを含む)は、1 か月あたり約 7 億 2,500 万マイルになります。どちらの運転モードでも、上で説明したように「運行休日」のデータが提供されます。自動運転モードでは、人間による介入は、機械がエラーを起こしたか、または人間の運転手が自動運転には状況が困難すぎると判断したことを示します。手動運転モードでは、人間と自動運転の間の「乖離」によって機械のエラーも発生します。 これまでは、「運用休暇」サイクルにおける人間のラベラーについてのみ説明してきました。プロセスからエンジニアだけでなく、ラベラーも排除したらどうなるでしょうか?この処理プロセス全体を機械に任せたらどうなるでしょうか? 機械学習における驚くべき発見の 1 つは、トレーニングにラベル付けが不十分なデータを使用した場合でも、ラベル付けが不十分なデータの 1,000 倍の量を使用すれば、ラベル付けが適切に行われたデータを使用した場合と同じ結果が得られることがあるということです。 Facebook は、Instagram のタグ (対応する写真の実際の内容とはほとんど関係がないことが多い) を使用してニューラル ネットワークをトレーニングし、トレーニングされたモデルがオブジェクトを正確に分類できることを発見しました。ここでのポイントは、Facebook が Instagram のタグ付けされた画像 10 億枚を使用して、手動で注釈を付けた画像 100 万枚とほぼ同じ精度を達成したことです。 Facebook はまた、2 種類の画像を組み合わせることで、どちらか一方を単独でトレーニングするよりも高い精度を達成できることも発見しました。 テスラには 65 万人の人間のドライバーがおり、大量の低品質のラベル付きデータが生成されています。いわゆる弱教師ありアプローチ(注釈者が画像に手作業で注釈を付ける完全教師ありアプローチとは対照的)では、上記で説明したデータのラベル付け(後続の手動ラベル付け用)の操作は、低品質のラベル付けと見なすことができます。自動運転ソフトウェアがどこかに障害物を検出したが、人間の運転手がそこを運転した場合、その場所は自動的に障害物なしとしてマークされます。逆に、自動運転ソフトウェアが特定のエリアがまったく空いていることを検出したが、人間のドライバーがそのエリアの横を走行中に停止した場合、そのエリアは自動的に障害物があるものとしてマークされます。これは面倒なアプローチですが、希少で高価なラベルを豊富で無料のラベルで補うことができます。 (このアプローチについて詳しく知りたい場合は、こちらの研究論文をお読みください。https://arxiv.org/pdf/1610.01238.pdf) テスラの自動運転の仕事では、候補者に「豊富で多様なラベル付きデータに加えて、軽くラベル付けされた大量のデータを使用できる方法を設計する」ことが長い間求められてきました。テスラの Autonomy Day イベントで、カルパシー氏は私が先ほど説明したものと同様のアプローチについて説明しました。テスラは、人間のドライバーのビデオクリップを使用して、前方の道路のカーブや傾斜を認識して推測するニューラルネットワークをトレーニングしました。 (ビデオはクリックできます:https://youtu.be/v5l-jPsAK7k) 弱教師あり学習法は、データ拡張のニーズに真に適応した方法です。制限はもはや人件費(エンジニアの人件費とラベル付け担当者の人件費を含む)ではなく、道路の走行距離、インターネットを介して送信されるデータ パケット、および Tesla 本社の多数の GPU です。機械学習プロセスは、実際には単独で実行される複雑なマシンであり、機械学習はマシンの各パーツが実行できる速度と同じ速度で実行できます。時間がかかったのは、プロセスを開発し、それを機能させる方法を見つけるのにかかった時間です。 運用休日はコンピュータービジョンよりもはるかに簡単に予測できます。車両や歩行者の軌道を予測することに関しては、無料で高品質なラベルが豊富にあります。それが未来です。自動運転ソフトウェアは車の現在の軌道を観察し、5 秒後に車はこの 5 秒間に実際に移動した軌道を記録します。歩行者がどこに行くかを予測すると、その歩行者はあなたの予測がどれだけ正確だったかをすぐに示してくれます。したがって、システムはエラーを自動的に検出し、誤ったサンプルには正しい将来の軌跡が自動的にラベル付けされます。これは素晴らしい理想的なシナリオです。人的資源はもはや制約ではなく、資本ももはや制約ではありません。制約となるのは車両とコンピューターだけです。 パス計画も理想的なシナリオです。同じ原則を適用できますが、重点は異なります。プランナーは、車がどのような動作をすべきかを決定しようとします。車は、8 台のサラウンド カメラと前方レーダーで捉えた運転シーン全体を観察します。手動モードでは、ニューラル ネットワークがテスラの人間のドライバーの行動を予測し、予測が間違っている場合は自動的にエラーにフラグを立てます (繰り返しますが、これは私が「シャドウ モード」と理解しているものです)。ドライバーは観察された運転シナリオに自分の行動を注釈付けました。自動運転モードと手動モードの原理は同じですが、人間のドライバーが介入するとエラーサンプルがマークされる点が異なります。模倣学習と呼ばれるこのアプローチは、最近、DeepMind チームによって、人間のプレイヤーの 70% 以上よりも StarCraft を上手にプレイできるニューラル ネットワークをトレーニングするために使用されました。 Waymo も模倣学習の可能性を探っており、自動運転車のスタートアップ企業 Aurora もこの種のアプローチを好んでいる。 (ただし、Waymo と Aurora には、大量のトレーニング データを提供できる Tesla のような 65 万人の人間ドライバーはいません。) まとめると、「運用休日」には 4 つの主な利点があると思います。
予測と計画は、物体の軌跡を追跡し、運転シーンを観察するコンピューター ビジョン メソッドを通じて行われます。コンピューター ビジョンのエラーにより、予測や計画が失敗する可能性があります。したがって、他の部分が最適に機能するためには、コンピューター ビジョンのエラーを修正する必要があります。 逆に、コンピューター ビジョンのエラーが発生していなくても、予測または計画エラーによってビデオ クリップのアップロードがトリガーされる可能性があります。このように不適切にラベル付けされたビデオ クリップは、人間による手作業によるレビューの作業負荷を増加させます。したがって、予測や計画におけるエラーを減らすことで、注釈者の時間を解放し、コンピューター ビジョン手法によって発生したエラーに集中できるようになります。自動ビデオタグ付けの精度を向上させることで、コンピュータービジョン機能の進歩を加速させることができます。 テスラのアプローチは、データの規模が拡大するにつれて人間による補助の必要性を最小限に抑え、エンジニアを大規模な自動運転機械学習の最前線に置くことです。自動エラーマーキングにより、注釈者の注釈効率が向上します。模倣学習を使用すると、エンジニアが経路計画アルゴリズムに費やす作業量が削減されます。すべての運転操作を手間をかけて手作業でコーディングするのではなく、アルゴリズムがデータからそれらの動作を自動的に学習できます。テスラ車は毎月7億2500万マイル走行することを考えると、自動運転の分野ではテスラのアプローチがどれほど効果的かを判断できる前例がない。 懐疑論者の中には、コンピュータービジョンの問題を完全に解決することは不可能だと考える人もいます。たぶんそうなのでしょうね。しかし、実際に起こるまでは、確実なことは分かりません。 100 マイルごとに 1 回しか故障しないレベル 4 または 5 の自動運転システムを開発するよりも、100 マイルごとに 1 回故障し、人間の介入が必要となるレベル 2 の自動運転システムを開発する方がはるかに簡単です。テスラが完全な自動運転にはまだ程遠いものの、市街地走行が可能なレベル2の自動運転システムを開発することはほぼ確実だ。将来を見据える上で残る主な疑問は、機械のエラーが減るにつれてドライバーが警戒を怠らず、必要に応じて介入するのか、それとも誤った安心感に陥ってしまうのか、ということだ。テスラは、ドライバーが常に注意を払っていることを確認するために、ドライバー監視システムを実装する必要があるかもしれない。ドライバーに向けて設置されたカメラと既存のステアリングホイールトルクセンサーは、トルクセンサー単独よりも効果的である可能性があります。 テスラにとっての超楽観的なシナリオは、最終的に完全自動運転システムを開発し、ロボタクシーを導入するというものだ。このような状況下では、テスラの市場シェアが10倍に拡大することはできないとしても、おおよそ2倍、3倍に拡大することは可能だ。もう少し楽観的なシナリオとしては、テスラが市街地走行用のレベル 2 システムをリリースし、テスラがより多くの車と「完全自動運転」アドオンのユニットを販売するということが挙げられます。売上高の伸びと自動車の粗利益は投資家が注視する2つの重要な指標であり、テスラのCity Level 2システムはその両方に予想外の貢献をもたらす可能性がある。 (アンドレイ・カルパシー氏の講演のビデオはここでご覧いただけます。彼は「オペレーショナル・バケーション」について説明しています) 利益相反: 私は/私たちは TSLA の長期パートナーです。この記事は私が自分で書いたものであり、その中で述べられている意見は私自身のものです。この作業に対して、私たちはいかなる金銭的報酬も受け取りません(Seeking Alpha からの手数料を除く)。この記事で株式が言及されているこれらの企業とは一切取引関係がありません。 |
<<: AI業界で働く人々はどうすれば失業を回避できるのでしょうか?
>>: パフォーマンスが最大120倍向上! Didiのインターンは、自動構造化分岐削減および圧縮アルゴリズムフレームワークを提案した。
ChatGPT の大規模な停止の後、Altman 氏は本日、開発者会議でのすべての製品アップデートが...
絶えず変化するテクノロジー環境において、ChatGPT とその AI チャットボットは先頭に立って、...
「AI技術はKuaishou製品ライン全体に浸透しています。AI技術による多次元のエンパワーメントに...
再度調査中! 世界最大の半導体設計ソフトウェア(EDA)サプライヤーであるシノプシスは、中国に重要な...
過去10年間で、AIはコンピュータービジョン、音声認識、機械翻訳、ロボット工学、医学、計算生物学、タ...
7BサイズのモデルはAIエージェントも処理できますか?最近、Kuaishouは「KwaiAgent...
1. 新しく職場に入る1. 職場に入るときに直面する問題初めて職場に入るとき、新卒から社会人へと移...
今日のスマートフォンやノートパソコンに搭載されている顔認識機能のおかげで、顔認識テクノロジーの概念は...
過去数十年にわたり、私たちは情報に関する一連の根本的な変化と課題を経験してきました。今日、情報へのア...