マスク氏が自動運転を「ザッカーバーグの家へ行く」ライブ放送、45分間で手動介入は1回のみ：FSD V12は「ベータ版」ではなくなる

マスク氏は実際にテスラを運転して「ザッカー氏の家」まで行き、その全過程は編集なしで生放送された。

しかし、今回は新バージョンの FSD がずっとマスク氏を「運転」しており、マスク氏が介入したのは 45 分間に 1 回だけだったため、「運転」というのは正確ではない。

つまり、アイアンマンが自ら自動運転の路上テストに参加したというわけだ。

カリフォルニア州パロアルトにあるテスラの新しいエンジニアリング本部を起点に、Google マップを使ってザッカーバーグの自宅住所を検索し、ナビゲートしました。

写真

マスク氏が乗っていたのは古いモデルSで、ハードウェアはまだHW3バージョンをベースにしていたが、ソフトウェアは公式リリースされていない新バージョンのFSD V12だった。

画質は480p未満ですが、𝕏プラットフォームでのこのライブ放送は、1,000万人を超える人々がオンラインで視聴しました。

写真

これほど注目を集めている理由は、みんながメロンを食べたり「馬刺し格闘技」に夢中になっているからだけではなく、主に FSD V12 がテスラの自動運転の最も重要なアップグレードと呼ばれているからです。

完全なエンドツーエンドのソリューションが実装され、画像が入力、車の制御指示が出力として、すべてがニューラルネットワークによって完全に処理されました。

マスク氏自身は、もう少し大げさにこう言った。

人間と同じように、光子が入ってきて、行動が生まれます。

試乗中、マスク氏は現在のシステムにはルールや条件判断のコードが1行も存在せず、高精細なインターネット地図も必要ない、と繰り返し述べた。

例えば、道路脇で自転車を追い越すとき、「自転車に道を譲れとか、何秒待つとか、そういったことを指示するコードは存在しない。あるのは（ニューラル）ネットワークだけだ」とマスク氏は強調した。

これはすべてネットだよ、ベイビー、ネット以外の何物でもない。

写真

著名なテクノロジーブロガーのロバート・スコブル氏はこう語った。「今夜から世界は変わり始める。」

10年後、この瞬間は、ビデオを見るだけでロボットが現実世界で動くことを学習する最初の公開デモンストレーションとして定義されるでしょう。

これはソフトウェアの構築方法におけるパラダイムシフトです。

写真

マスク氏も彼にこう返答した。「その通りだ」

同様に驚くべきことは、必要な推論計算能力がわずか 100W であることです。

写真

たった1回の介入で45分の旅

真実味を増すために、マスク氏は地図から目的地をランダムに選択した。

しばらく走行すると、車は両側に赤い柱がある工事現場に到着しました。この「異常な」道路状況にもかかわらず、車はスムーズに通過しました。

写真

この旅の最初の赤信号で、モデル S は完璧に停止しました。

左折信号が青に変わるのを待った後、車は安全保護のない左折（UPL）を通って左側の別の道路にスムーズに進入しました。

写真

これは自動運転の分野では難しいシナリオです。地上の案内標識や左側の歩行者、前方の車両などを考慮する必要があります。マスク氏は次のように語りました。

生放送ではよく分からないかも知れませんが、車両は非常にスムーズに走行していました。

約5分後、車両は再びスピードバンプに衝突し、モデルSは自動減速に成功しました。同時に、自転車が右側をスピード違反で走行していますが、自転車には何の影響もありません。

島内を巡るテストにも耐えました。このようなラウンドアバウトでは、モデル S は前方の 2 台の白い車が通過するのを待ってから曲がっていきます。

約10分後、車両はマスク氏をその日の最初の目的地まで運び、その後、次のランダムな場所に向かった。

その間、車はスタンフォード大学のそばを通過しました。群衆は大きくなっていましたが、モデルSは圧迫されることなく歩行者に道を譲りました。

生放送が徐々に夕方のラッシュアワーに突入すると、マスク氏は車の走行が少し遅いと不満を漏らした。

しかし、約19分後、マスク氏がプロセス全体で唯一の介入を行ったまでは、すべては予想通りに進んだ。

当時、直進しようとしていた車両が交差点でずっと赤信号を待っていたところ、ちょうど反対側の信号が変わって左折しようとした時に、モデルSが突然発進したのです。

しかし、マスク氏と近くに座っていたエンジニアは素早く反応し、介入してそれを止めた。

危険が去った後、老馬は率直にこう言った。

このため、FSD v12 はまだ一般にリリースされていません。

残りの25分間の走行もスムーズに完了し、ライブ放送ではFSDのプルオーバー駐車機能なども実演されました。

ライブ放送全体を通して、マスク氏が最も繰り返し強調した点は次の通り。

最初に遭遇する赤い柱やスピードバンプであっても、後で遭遇する自転車やラウンドアバウトであっても、FSD システムは決定を下すために 1 行の制御コードに依存することはありません。

代わりに、FSD は大量のビデオを視聴し、ニューラルネットワークを取得するためのトレーニングを完了しました。

(Tesla Autopilot の意思決定は、2020 年にプログラミングロジックからビデオトレーニングを受けたニューラルネットワークに移行し始めました。FSD v12 より前は、v11 バージョン管理スタックに 30 万行を超える C++ コードがありました。)

19分目の赤信号無視の行動と同様に、マスク氏は聴衆に対し、解決策は基本的に信号、特に左折信号のビデオをさらに提供することであり、そうすればうまくいくだろうと語った。

もちろん、大量のビデオをランダムに投入するだけでは十分ではありません。優秀な人間のドライバーからの高品質なデータこそが、Tesla Autopilot をトレーニングして FSD を達成するための鍵となります。

質の低いデータが大量にあっても運転は改善されませんし、データ管理は実はかなり難しいです。システムがどのデータを選択し、どのデータをトレーニングするかを制御するソフトウェアが多数あります。

意思決定にコードに頼らないことに加え、マスク氏は次の点も強調した。

FSD V12 は、常にインターネットに接続していなくてもすべてを実行できます。

もちろん、何らかの介入が発生した場合、システムはそれを記録し、分析のためにテスラに送り返します。

すべての決定はローカルで行われるため、Tesla FSD は 8 台のカメラを使用して 1 秒あたり 36 フレームで撮影しますが、システムの計算速度は実際にはもっと速く、1 秒あたり 50 フレームに達する可能性があります。残念ながら、カメラの速度は限界に達しています。

インターネット接続なしで意思決定を行うということは、地図を常に更新する必要がなくなるということでもあります。マスク氏はこう言います。

システムに必要なのは座標だけであり、システムが自動的に場所を見つけます。

今回テストした FSD V12 搭載のモデル S には、依然として HW3 がインストールされていることも注目に値します。

Tesla は、HW3 で L5 自動運転が解決されるまで、HW4 車両で FSD を有効にしない可能性があります。これは、HW4 の FSD アクセス権が 2025 年まで延期される可能性があることを意味します。

月曜日には10,000台のNvidia H100が発売される予定

時間管理の達人として知られるマスク氏は、試乗中に時間を割いて音声でオンラインディスカッションに参加した。

写真

彼が答えた質問と明らかにした重要なポイントは次のとおりです。

エンドツーエンドのソリューションに切り替える理由は何ですか? 利点は何ですか?

マスク氏は「これが人間のやり方だ」と信じている。人間は目と生物学的神経ネットワークを使って運転しており、カメラとデジタルニューラルネットワークを使った自動運転こそが正しい一般的な解決策だ。

ニューラルネットワークには解釈可能性が欠けているため、ドライバーは自分の決定をどのように下したかを明確に説明できないことが多く、単に経験に頼ることになります。

乗客が人間の運転手と一緒にタクシーに乗っているとき、運転手が何を考えているのかを正確に知ることはできません。テスラのスクリーンに表示される画像は、自動運転システムが考えていることを近似したものです。

ハイエンド GPU は引き続き不足し、世界はコンピューティング能力に大きく依存する段階に入ります。

マスク氏は、AIトレーニングには主にNVIDIAのハードウェアを使用し、補助としてTesla Dojoスーパーコンピューティングを使用していることを明らかにした。今年はトレーニングに約20億ドルが費やされた（そのほとんどはハードウェア資産）。

将来的には、人間の計算能力の 80% ～ 90% がニューラルネットワークで使用されるようになると私は考えています。

AI トレーニングでは、データ転送帯域幅のボトルネックを回避するためにコンピューティング能力を 1 か所に集中させる必要があり、これもまた大きな電力負担をもたらします。

マスク氏はまた、次のように冗談を言った。「トランスフォーマーアーキテクチャのニューラルネットワークには、ますます多くのハードウェアトランスフォーマーが必要になります。」

GPU 以上に不足しているのは、高速接続デバイスです。

「H100を5,000台所有するのはどんな気分か？」と尋ねられると、マスク氏は「それは控えめな表現だ」と答えた。

10,000 台の NVIDIA H100 で構成される新しいコンピューティングクラスターが 24 時間体制で準備されており、月曜日 (本日) に開始される予定です。

そして、コンピューティング能力を「所有」していると主張しながら、実際にはクラウドコンピューティングサービスを借りている多くの企業とは異なり、Tesla は実際に 10,000 個の GPU を購入して独自のシステムを構築しました。

デバイス間のネットワーク接続が重要なこのような大規模クラスターでは、GPU 自体よりも Nvidia InfiniBand スイッチの需要が高まる可能性があります。

…

ライブ放送後、テスラのAIインフラストラクチャ責任者であるティム・ザマン氏は、まもなく開始されるコンピューティングクラスターには200PBのホットキャッシュが搭載されており、これは大規模モデルをトレーニングするためのシステムよりも数桁大きいことをさらに明らかにした。

また、GitHub の元 CEO など、多くの実践者が素晴らしいと感じる場所でもあります。

写真

ティム・ザマン氏は、多くのクラウドコンピューティングプロバイダーを試したが、どれも十分ではなかったため、AI専用の分散ファイルシステムを開発するためにストレージシステムアーキテクトを雇ったと語った。

写真

最後に、このライブテストに戻ります。

多くのネットユーザーが賞賛の言葉を惜しみなく送り、できるだけ早く試乗したいとの希望を表明した。

写真

一部のネットユーザーも冗談を言った。

FSD は挑戦の準備ができているようです。アジアの究極のボスバトルに挑戦してみませんか?

次のようになります（手動の犬の頭）：

注目すべきは、このライブ放送は、テスラの新しいバージョンの FSD を披露するだけでなく、𝕏 ライブ放送機能のストレステストでもあるということです。

結局起こらなかった「マザの戦い」については、もはやそれほど重要ではなくなったように思われた。

マスク氏は「ザッカーバーグ氏はこの地域に8,000以上の不動産を所有している。もし本当に彼を見つけたら、挑戦するつもりだ」と述べて事態を収拾しようとした。

参考リンク:
[1]https://twitter.com/elonmusk/status/1695247110030119054[2]https://twitter.com/treb5475/status/1695289700620341311[3]https://twitter.com/tim_zaman/status/1695488119729238147?s=20[4]https://www.teslaoracle.com/2023/07/01/teslas-full-self-driving-version-12-will-not-be-beta-says-elon-musk/

<<: DNAを使って画像を直接保存する「生きた細胞カメラ」は96ピクセルの解像度を持つ

>>: Apache IoTDB: 産業用 IoT シナリオに適した新しいデータベース。保存、クエリ、使用はもはや問題ではありません。