現地時間8月26日、マスク氏は自らオンラインにアクセスし、FSD Beta V12の試乗ライブ放送を開始し、数百万人の視聴者を集めた。 FSD Beta V12は、史上初のエンドツーエンドAI自動運転システム(Full AI End-to-End)であり、テスラにとって最も重要なアップグレードであると言われています。 ライブ放送は45分間続きました。FSD Beta V12システムは運転プロセス全体を通じて非常にスムーズに進行し、障害物を簡単に回避し、さまざまな道路標識を認識することができました。 マスク氏は興奮してこう語った。 V12システムは最初から最後までAIによって実装されています。私たちはプログラミングを一切行わず、道路や歩行者などを識別するためのコードをプログラマーが1行も書くこともなく、すべてニューラル ネットワークに任せました。 具体的には、V12 の C++ コード制御は 20,000 行以上から 2,000 行に 10 分の 1 に削減されました。 ユニークなのは、テスラの意思決定の 99% が、人間の脳と同じように、視覚的な入力と制御出力を備えたニューラル ネットワークによって行われていることです。 さらに、膨大な量の「ビデオデータ」と 10,000 台の H100 のサポートにより、そのスーパー機能が実現されています。 しかし、生放送中、V12 は赤信号を無視しようとするという小さなミスを 1 つだけ犯し、人間が積極的に介入する必要がありました。マスク氏はその場で急ブレーキをかけた。 マスク氏は、FSD Beta V12はまだデバッグ中であるため、正式なリリース日はまだ決まっていないと述べた。 マスク氏:プログラムしたわけではないマスク氏のライブ放送はテスラ本社から始まった。 マスク氏はテスラ モデルSを片手で始動させた後、携帯電話を掲げてV12の運転プロセス全体を録画した。これには45分かかった。 マスク氏は地図上の目的地としてスタンフォードをランダムに選択した。 V12 が彼を最初の目的地まで連れて行く様子をご覧ください。 運転中、テスラが遭遇した建物や道路標識はこれまで見たことのないものだったとマスク氏は語った。本社に近いとはいえ、彼らにとってはまだ新しい場所だ。 交差点に到着すると、テスラは自主的に停止し、信号が変わるのを辛抱強く待った。 マスク氏は笑って冗談を言った。「やったね!」 青信号の後、テスラはスムーズに左折しました。 マスク氏は、これは完全に人工知能とカメラによって実現されており、それは私たちの脳がニューラルネットワークと目で機能するのと同じだと語った。 スピードバンプに遭遇すると、V12 は車をゆっくりと動かし続けます。 マスク氏は興奮気味に、テスラを一時停止標識で停止させたり、他の車を待たせたりするコード行はなく、「x 秒待て」といったコードも存在しないと述べた。すべてはニューラル ネットワークです。ニューラル ネットワーク以外の何物でもありません。 話をしながら、私たちは最初の目的地であるスタンフォードに到着しました。マスク氏はまだザッカーバーグ氏とケージファイトをすることを考えていたため、第2の目標はザッカーバーグ氏の自宅だった。 その後、彼はザッカーバーグ氏の演説に入り、V12エンジン搭載のテスラを先導させた。 路上では、テスラがラウンドアバウトを走行した際に、V12 が再び最高レベルのパフォーマンスを発揮しました。 最初の2台の車が走り去るのを待ってから、私は曲がることにしました。 ここでマスク氏は、チームがラウンドアバウトのコンセプトをプログラムしたことは一度もなかったと改めて述べた。ラウンドアバウトのビデオをたくさん見せました。 つまり、V12 は大量のビデオ トレーニング データを通じてこの目標を達成します。 FSD AI は、道路の各要素や状況を個別にコーディングするのではなく、大量のビデオを入力するだけで、さまざまな状況で何を行う必要があるかを認識するようになりました。 これにより、テスラは FSD V12 で数十万行のコードを節約し、より軽量で柔軟性を高めながら、未知の地形でもデータ接続なしで動作できるようになりました。 マスク氏は、これらすべてが約100ワットの推論計算能力を備えたテスラHW3で行われたと紹介した。すべての推論はネットワーク接続を必要とせずにローカルで実行されます。当然これは必要です。インターネット接続がなければ安全に運転することはできません。 車が停止した後、マスク氏はテスラのフレームレートについても語った。 フルフレームレートで実行しています。 8 台のカメラが 1 秒あたり 36 フレームで撮影します。純粋な AI バージョンは、「通常のソフトウェアと人工知能の混合」バージョンよりも優れており、高速に動作します。 実際には、1 秒あたり 36 フレームよりも速く撮影できますが、カメラが 36 fps しか実行できないというだけです。私たちの計算によると、毎秒 50 フレームの速度で撮影できる可能性があり、実際の道路状況では、FSD V12 が正常に動作するために基本的に毎秒 24 フレームのみが必要です。 ザッカーバーグ氏の自宅に到着しても、マスク氏は車から降りず、方向転換して次の目的地であるパロアルトに向かうことにした。 ライブ放送中、マスク氏はV12が目的地に到着すると自動的に適切な場所に車を駐車することも実演した。 「動画データ」がAIを直接トレーニングマスク氏は、FSD V12はレベル4の自動運転システムになると述べた。 今年6月末、マスク氏はテスラの自動運転FSD V12バージョンはベータ版ではなくなると発表した。 ライブデモンストレーション中、マスク氏はAIトレーニングビデオデータを通じて自動運転を実現する上で直面する可能性のある課題についても言及した。 「コード行がないからといって、制御できないわけではありません。データを所有するだけで、制御が可能になります。」 まず、トレーニングビデオの品質が非常に重要で、トレーニングに使用できるのは優秀なドライバーの運転ビデオのみであり、スキルの低いドライバーのデータは使用できません。 現在、どのようなデータを選択し、どのようなデータをトレーニングするかを実現できるソフトウェアはかなり多く存在します。 したがって、データの量は重要ではなく、データの質が安全な自動運転技術を提供する鍵となります。 自動車の場合、実行できるソフトウェアは小さいですが、バックエンドでトレーニングされるソフトウェアははるかに大きく、複雑です。 そこで、V12 システムは Python の通常のソフトウェアを使用して、キューからどのデータを選択するかを決定し、高品質のデータとかなり良いデータを判別しました。 AI モデルができたら、そのモデルを「シャドウ モード」でシステムに配信することもできます。その後、ユーザーの行動に同意できないたびに、Tesla はデータを取得します。これは、ランダムなデータを収集するよりも価値があります。 V12 の FSD はポートレートを認識できます。写真をアップロードして、スターバックスの前にいることを車に伝えるだけです。車が到着したら、私たちがあなたを見つけて迎えに行きます。スターバックスを自動的に見つけ、写真に基づいて乗客を見つけることができるからです。 マスク氏は「このシステムが非常に高速で効果的なフィードバックループを備えていることに我々は非常に興奮している」と語った。 人間が車に介入すると、介入動作が自動的にアップロードされ、トレーニングがトレーニングと組み合わされ、実際には重みが更新されるだけです。 V12 のプログラミングでは、Tesla チームは、V11 の通常のスタックに存在する信号機のコンセプトを組み込んでいませんでした。 車は主にビデオトレーニングに基づいてスムーズに運転することができます。 「V11 の明示的な制御スタックでは 30 万行を超える C++ が使用されていましたが、V12 では基本的にそのすべてが不要になりました。」 もう一つの興味深い難しさは駐車の問題です。なぜなら、人間は一時停止の標識に遭遇しても実際には停止せず、非常に低速に減速するだけであり、おそらく車を完全に停止させるドライバーは 1% 未満だからです。 しかし、規制当局は完全な停止を要求しているため、FSD はこのような状況で完全に停止できるように特別に訓練される必要があります。 生放送中に介入があったのは、V12 システムを搭載した Modle S が赤信号で停止しなかったときのみでした。 これに対しマスク氏は、大量の信号機を映した動画をさらに流し込むだけで問題は解決するとその場で発言した。 テスラは今後2週間以内に、バックグラウンドで実行され、運転状況をチェックする「Shadow Moon」をリリースする予定だ。 さらに、マスク氏は、このシステムの問題点の1つは視界の悪い運転状況にどう対処するかだと述べた。 テスラの本社があるカリフォルニアでは雨が降らないため、トレーニングには世界中のさまざまな気象条件での運転ビデオが必要だ。 現在、FSD V12 にはニュージーランド、タイ、ノルウェー、日本を含む世界中に 12 人のテストドライバーがいます。 10,000 H100s のトレーニング、Infiniband は GPU よりも不足している試乗ライブ放送の前に、彼はWholeMarsのスペースにも行き、ライブ放送のウォーミングアップとして会議に参加していたネットユーザーと10分以上チャットを交わした。 ネットユーザーは彼が入ってくるのを見て、無意識のうちにインタビューを始めた。彼もこの機会を利用して、今後の生放送や関連する問題についてネットユーザーと打ち解けて会話を交わした。 まず、テスラは新バージョンの FSD システムをトレーニングするために、10,000 台の H100 で構成された GPU クラスターをリリースする予定であると彼は述べました。 現在、トレーニング プロセスは基本的に NVIDIA の GPU に完全に依存しており、ごく一部のみで独自のスーパーコンピューティング Dojo が使用されています。 彼らが現在直面している最大の技術的困難は、より大きな計算能力を並列化するために、Infiniband のような高速ネットワーク接続が必要であることです。 GPU不足はあるものの、少なくとも改善の望みはある。しかし、現状ではGPU不足よりもInfiniband対応デバイスの不足の方が深刻だ。 大規模な集中コンピューティング クラスター間でのデータ交換は困難な場合があります。 そして、Nvidia への依存は今後も長く続くでしょう。 彼らが雑談しているとき、マスク氏は無意識のうちに地球の統治者の役割に入り、こう言った。 長期的には、人類はコンピューティングに大きく依存する文明となり、エネルギーの 80% ~ 90% がコンピューティングに消費されるようになります。 したがって、既存のコンピューティング インフラストラクチャのエネルギー効率を向上させることが重要です。 Transformer のエネルギー効率比はあまり良くなく、効率も高くなく、ユーザーにとっての遅延が長すぎるため、さらなる最適化が必要です。 GPU のエネルギー効率はあまり良くなく、現在では H100 などの GPU は画像を出力しなくなったため、GPU と呼ぶのは適切ではありません。 マスク氏はツイッターで、自己回帰トランスフォーマーを使用するLLMは、トレーニングだけでなく推論においてもエネルギー効率が極めて悪いとも述べた。それは数桁もずれていると思います。 次に、マスク氏は今後のライブ放送の宣伝を始め、FSD V 12 を実演する路上ライブ放送について話しました。 彼は、テスラが新バージョンのFSDのサポートにより、非常にスムーズな乗り心地を提供すると繰り返し強調した。 以前のシステムでは時々初心者のように動作することがありましたが、このシステムではそれとは異なり、優れたドライバーが車を運転するようにシミュレートできます。 こう話した後、彼はただ一言だけ残して立ち去り、これから始まる彼の自動運転のライブ放送をみんなで見てほしいと言った。 広報と交通に関しては、ボス・マーは実によく知っていると言わざるを得ません。 ネットユーザーの間で熱い議論このライブ放送を見たネットユーザーたちは、すべてがとても素敵だと言った。 インターネットに接続できないのは本当に素晴らしいです。 単に DriveGPT だと言う人もいます。 現時点では、この性能に近づくことのできる自動運転技術は存在しないようです。 しかし、一部のネットユーザーは、V12の新たな使命はアジアの交通のテストを受けることだと述べ、中国の交差点のビデオを投稿した... このネットユーザーは、この動画のハイライトと思われる点を思慮深くまとめた。 テスラの理論では、100ワットの電力サポートのみが必要で、インターネット接続は不要です。 ラウンドアバウト、自転車、歩行者を自動で処理できます。 すべてのトレーニングは NVIDIA の GPU と Dojo に基づいており、AI 運転には地図さえ必要ではなく、GPS データのみが必要です。 |
<<: ヴィンセントの画像プロンプトはもう退屈でも長くもありません! LLM強化拡散モデル、簡単な文章で高品質の画像を生成できる
>>: レッドハットのCEOがAIの取り組みとソースコードの混乱について語る
ベルギーの通信会社は、10代の若者向けに「.comdom」というセキュリティアプリをリリースした。こ...
OpenAIが発表した最新ニュースによると、ChatGPTのAndroid版は来週Google Pl...
[51CTO.com からのオリジナル記事] 近年、ナレッジグラフは、その強力な表現力、優れたスケ...
【51CTO.com クイック翻訳】機械学習モデルは、定義されたビジネス目標に合わせて設計されていま...
10年前の2010年2月、同社初のバーチャルパーソナルアシスタントアプリであるSiriがApple...
中国気象局は最近、「人工知能気象応用作業計画(2023-2030年)」を発表し、国内の人工知能気象応...
火事を起こすのは簡単ですが、消すのは難しいです。これは世界的な問題ですが、これを効果的に予防し、迅速...
この記事を読んでいただければ、確率の基本原理を機械学習に応用できる可能性が 100% あります。機械...
データ分析と人工知能は現在、世界のどの地域でも最も話題になっている技術です。特に昨年のジェネレーティ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
次世代ネットワークにおける「見える化」への欲求ネットワークが複雑になるにつれて、ネットワーク管理に対...