Tesla FSD V12 はどのようにして誕生したのでしょうか?マスク氏：大画面に走行距離がリアルタイムで表示され、従業員は問題を解決するたびにゴングを鳴らす

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

マスク氏によるエンドツーエンドの自動運転に関する最新のライブ放送：

Tesla FSD V12 はどのようにして作られたのでしょうか?

伝記作家ウォルター・アイザックソンは、近々出版予定の著書『イーロン・マスク』でいくつかのネタバレをしています。

コード制御ではなく完全なニューラルネットワークを実現するために、システムは毎日、テスラの車両群から約1600億フレームのビデオを取得してトレーニングしていると報告されています。

しかし、奇妙で異常に混雑した交差点に関するデータなど、最も有用なビデオは1% 未満でした。

マスク氏は、彼らが構想するニューラルネットワークが機能するには、少なくとも100万本のビデオでトレーニングする必要があると述べた。

今年の初めまでに、FSD V12 は 1,000 万件のビデオ分析を完了しました。

これらの数字に加えて、マスク氏は実際の開発プロセス中にいくつかの特別な管理方法も確立しました。

たとえば、この本では、チームメンバーが作業する作業エリアに設置された 85 インチの巨大なモニターについて説明されており、そこには、何の介入もなく車が何マイル走行したかがリアルタイムで表示されます。

Lao Ma 氏は、数字が更新されるのを見ることで従業員のモチベーションを高めることを可能にしています。

さらに興味深いのは、彼は全員にゴングも渡し、エンジニアは介入問題を解決するたびにそれを鳴らさなければならなかったことです。

それで、Tesla FSD V12 の開発ストーリーは何でしょうか?早速見てみましょう。

毎日1600億フレームのビデオトレーニングが取得されます

FSD v12 より前は、Tesla の自動操縦システムは常にルール判断に依存していました。

つまり、車のカメラがまず車線、歩行者、車両、標識、信号などを識別し、その後、テスラのエンジニアが手作業で書いた数十万行の C++ コードを使用して、赤信号で停止する、青信号で進む、衝突するほどの速度の車両がない場合にのみ交差点を通過するなど、さまざまな状況に対処します。

すべてのアクションにはルールと条件付き判断コードがあります。

しかし現在、テスラの自動運転システムへの最も重要なアップグレードとして、FSD v12 は、人間が車を運転する様子を捉えた数十億フレームのビデオを分析するだけで、自ら運転を学習するようになった。

マスク氏は8か月前に従業員にこの新しいアプローチを全面的に採用し始めた。

チームの若手エンジニアであるダヴァル・シュロフ氏は次のように語る。

これは ChatGPT のトレーニングに似ていますが、車向けです。

では、彼らが構想したニューラルネットワークが適切に機能するには、どの程度のトレーニングが必要になるのでしょうか?

答えは少なくとも 100 万本のビデオクリップです。

マスク氏は、これは大きな問題ではないと述べた。

私たちには自然の利点があります。

他の自動車メーカーや AI 企業と比較すると、テスラは世界中で合計 200 万台近くの車両を保有しており、毎日運転クリップを収集できます。

この本ではまた、テスラが訓練のために毎日約1600億フレームのビデオを艦隊から取得していることも明らかにされている。

しかし、マスク氏はツイッターでこう反応した。

大量のデータを管理するのは困難であり、そのほとんどは破棄されてしまいます。重要なのは、奇妙な交差点や異常に交通量が多い交差点のデータなど、1% 未満を占める希少な動画です。

しかしいずれにせよ、今年の初めには、V12 のニューラルネットワークプランナーは 1,000 万本のビデオクリップの分析を完了していました。

一つの疑問は次のとおりです。

あらゆる点で人間を模倣しているので、人間のドライバーの平均的なレベルにしか到達できないのでしょうか?

この点に関して、若いエンジニアのダヴァル・シュロフ氏は次のように語りました。

いいえ、テスラは人間が状況をうまく処理したときのデータのみを使用するためです。

そのため、データラベラーの仕事は不可欠です。

ニューヨーク州バッファローでは、マスク氏から「五つ星のUberドライバー」のような行動をするよう指示された。

「スコアのないビデオゲームはつまらない」

V12の開発中、マスク氏はテスラ本社に頻繁に出向き、最前線の作業現場に直接赴き、エンジニアたちと即興で議論を交わした。

本の説明によれば、彼は彼らの横にひざまずいていた。

マスク氏も「ハエを殺すのに巡航ミサイルを使うべきではない、ハエたたきで十分だ」と固く信じていたため、疑問を抱いていたことも言及する価値がある。

ニューラルネットワークは本当に必要でしょうか?それはちょっとやりすぎではないでしょうか？

研究チームは、ニューラルネットワークがコーディング手法よりも効果的であることを示す例を挙げて、彼の「気が散る考え」を払拭した。

そのデモンストレーションでは、道路にはゴミや倒れたコーンなどさまざまな障害物が散乱していたが、ニューラルネットワークプランナーはそれらの障害物を回避して車を誘導し、車線を横断し、必要に応じていくつかのルールを破って横断を成功させた。

従業員は実演しながら、マスク氏にこう語った。

コードからニューラルネットワークに切り替えることで、構造化されていない環境でも車がクラッシュすることはなくなります。

これには老馬も大満足し、いくつかの「007風」の空想が生まれた。

爆弾が四方八方で爆発し、UFOが空から落ちてきて、車は何もぶつからずに猛スピードで通り過ぎていった。

「スコアのないビデオゲームはつまらない」というのと同じように、従業員のモチベーションを上げるために、マスク氏は全員に目標も設定した。

人間の介入なしに車が完全自動運転モードで走行したマイル数。

マスク氏は、従業員がこの指標を毎日見て、常に更新されることでモチベーションを高めたいと考えている。

そこで、全員が作業するエリアに85インチの巨大モニターを設置し、走行距離をリアルタイムで表示できるようにした。

介入事件が発生するたびに、従業員は問題の根本原因を解決しなければなりません。解決した後は、祝意を表すためにゴングを鳴らさなければなりません。

このゴングも机の近くに設置されています。

非常にユニークな経営手法といえるでしょう。

規制当局の承認後にのみリリース

V12は急速に進歩しています。

マスク氏は今年4月中旬に初めてこのシステムをテストした。

彼に同行したのは、テスラの自動運転ソフトウェア担当ディレクターのアショク・エルスワミー氏と、後列に座っていた3人のチームメンバーだった。

ラオ・マーさんはハンドルから手を離し、地図から目的地の駐車場を選択し、テスラの本社ビルから出発した。

テストは25分間かかり、高速道路や生活道路を走行し、複雑なカーブを走行し、自転車、歩行者、ペットも参加しました。

その結果、車が過度に慎重になっていると感じて介入した数回を除いて、彼は一度もハンドルに触れなかった。

マスク氏は、ある時点ではシステムが彼よりも優れた解決策を思いついたとも語った。

テスト後のオートパイロットの週次会議では、ほとんどが黒いTシャツを着た20人のエンジニアが会議テーブルの周りに座って判定を聞いた。

最終的に、マスク氏は、このアプローチが未来への道であると信じており、テスラはこのプログラムを前進させるためにリソースを投入すべきだと発表した。

そして、その4ヵ月後、マスク氏は古い方式に代わるFSD V12を正式に発表したという話が伝えられている。

今は、リリース前に規制当局の承認を待つだけです（今年遅くなるか来年になる可能性があります）。

しかし、規制当局が慎重に検討する必要がある疑問が 1 つあります。

新しい FSD V12 は完全に人間の運転を模倣して運転しますが、人間のドライバーは、たとえ優秀なドライバーであっても、交通ルールを破ることがあります。

自動運転車にも同じことを許可すべきでしょうか?

もう一つ

マスク氏がわずか2億5000万ドル（約18万人民元）のコストでテスラ車を製造する予定だというニュースは、かなり前からあった。

この伝記の中で、著者はついにいくつかの新しい情報をもたらしました。それは、サイバートラックピックアップに似た外観デザインを採用するというものです。

さらに、自動運転タクシーも依然としてマスク氏の構想の中にある。

マスク氏は次のように明らかにした。

その誕生により、テスラの価値はすぐに1兆ドルの領域に押し上げられることになる。

<<: ジェネレーティブAIは企業にとって新たなリスクとなっているが、重要な問題を放置すべきではない

>>:

ブログ

たった2枚の写真でAIは完全なモーションプロセスを生成できる

ブログ

Tesla FSD V12 はどのようにして誕生したのでしょうか?マスク氏：大画面に走行距離がリアルタイムで表示され、従業員は問題を解決するたびにゴングを鳴らす

毎日1600億フレームのビデオトレーニングが取得されます

「スコアのないビデオゲームはつまらない」

規制当局の承認後にのみリリース

もう一つ

Google 研究者: AI が優秀すぎて「ラインを落とした」

人工知能の代表的な応用分野トップ10の一覧と技術原理の図解

GenAI が近づくにつれて、データガバナンスはどのように進化するべきでしょうか?

清華大学が転移学習アルゴリズムライブラリをオープンソース化：PyTorch実装に基づき、既存のアルゴリズムの簡単な呼び出しをサポート

ロシアメディア：人工知能は顔認識技術を使って宗教的傾向を判断できる

インターネット業界における顔認識機能の認知に関する調査報告書

2023年版CV初心者ガイドの概要

たった2枚の写真でAIは完全なモーションプロセスを生成できる

推薦する

従来のGANを解釈可能に修正し、畳み込みカーネルの解釈可能性と生成された画像の真正性が保証される

このアルゴリズムチームは 2020 年に何をしましたか?

Googleは従業員に対し、生成AIの秘密を「漏らしたり」、直接コードを書いたりしないように警告している。

機械学習を使用すべきでないのはどのような場合ですか?

人間がロボットや AI より得意とする 7 つの仕事

JVMシリーズ（3）：GCアルゴリズムガベージコレクター

優れたオープンソース RPA フレームワーク 5 つ

李偉博士がブロックチェーンについてわかりやすく語る：技術原理、実用的応用、AIとの統合

スマート充電インフラ: 電気自動車の充電における人工知能の貢献

サーバーレスコンピューティングによる機械学習の解決策は何でしょうか?

モビリティの未来：スマート、持続可能、効率的