マスクのロボットが進化した！新たなスキルが解き放たれ、エンドツーエンドのニューラルネットワークが実現

マスク氏のロボットの大いなる進化。

1年前に初めて舞台に立ったときは動きが少しぎこちなかったが、今ではヨガの達人になった。

また、自動運転システムと同じエンドツーエンドのニューラルネットワークアーキテクチャを使用しており、ルールベースのコードなしでアイテムの分類を学習できます。

マスク氏自身の言葉：

光子が入り、アクションが出ます。

ネットユーザーらは「動きがとても優雅で滑らかで、この動画が本物だとは信じられない」とコメントした。

マスク氏はこう答えた。「アクチュエーター、センサー、そして全体的な機械構造のさらなるアップグレードがこれから行われる予定だ。」

誰かがロボットの首の後ろに赤いボタンがあることに気づき、「ロボットが世界を支配するつもりなら、これを忘れずに押してください」と言いました。

これに対しマスク氏は、安全性を最大限に高め、リモコンや携帯電話でロボットを簡単に一時停止できるように取り組むと述べた。

進捗状況の発表に加えて、マスク氏はロボットチームの採用という大きな目的を持ってこのビデオを投稿し、𝕏プラットフォームの採用機能も実演しました。

今回、テスラのロボットチームは、さまざまなハードウェアエンジニア、機械学習エンジニア、インターンを合計51人募集しています。

年俸は8万～36万ドル（約60万～260万人民元）です。

GIF分解

今回、テスラオプティマスプライムの公式アカウントは、技術的な詳細を一切明かさずに 1 分間のビデオのみを公開しました。

しかし、テスラのロボットチームの主任エンジニアであるジュリアン・イバルズ氏は、オプティマス・プライムが長期ミッションを遂行できるようになったことを明らかにした。

収集されるデータが増えるにつれて、コードを変更することなく新しい複雑なタスクをトレーニングできるようになります。

第三者の意見の中で最も詳しいのは、ビデオに基づいたNvidiaの科学者Fan Linxichun氏による長々とした逆分析だ。

彼は次のように推測した。

滑らかな手の動きは、ほぼ間違いなく人間を模倣することによって訓練された（行動のクローニング）。

もう 1 つの選択肢は、シミュレートされた環境での強化学習ですが、これにより、ぎくしゃくした不自然な手のポーズが生じることがよくあります。

人間のデモンストレーションデータを収集する方法は少なくとも 4 つありますが、最も可能性が高いのはリモートコントロールです。

ロボットアームを制御してAirPodsを充電ボックスに入れることができるスタンフォード大学のオープンソースALOHAシステムを参考にすることができます。

他の 3 つの方法は、モーションキャプチャ、深度カメラとコンピュータービジョン、VR シミュレーションであり、映画やゲームでよく使用されます。

これら 4 つの方法は相互に排他的ではなく、さまざまな利点と欠点を考慮して組み合わせて使用できます。

ニューラルネットワークアーキテクチャは、マルチモーダル Transformer になる可能性があります。

画像、動画、アクション、言語の統一された表現（存在するかどうかは不明）。アクション部分では、連続信号を個別のトークンに変換する必要があります。

最後に、ビデオトークン (またはオプションの言語トークン) が入力されるたびに、アクショントークンが出力されます。

最も近いシステムは、Google RT-1 と NVIDIA の VIMA です。

ボストン・ダイナミクスのアトラス・ロボットには単純なグリッパーしか付いていないが、テスラのオプティマス・プライムには器用な5本の指があり、将来的には日常的な作業でより優れたパフォーマンスを発揮するだろう。

しかし、実際には映像が2～3倍速になっており、ロボットだけのときは目立たなかったが、人間が画面に映るとそれが顕著になったと批判する人もいた。

エンドツーエンドのアーキテクチャ: ボット向け ChatGPT

テスラは、エンドツーエンドのニューラルネットワークアーキテクチャを初めて FSD に実装しました。

つい最近、マスク氏自身がザッカーバーグ氏の自宅に自動運転のデモンストレーションをライブ配信し、大きな話題を呼んだ。

具体的には、自動運転システムに用いられるエンドツーエンドのアーキテクチャにより、ルールコードを30万行削減し、走行速度を10倍高速化できるという。

このプロジェクトを担当するエンジニアのダヴァル・シュロフ氏はかつてマスク氏にこう語った。「これは自動車で使用されているChatGPTと同等です。」

シュロフ氏は今回のロボットを「エンドツーエンド、最高」と評価した。 FTW が「For the win」を意味するのか「F * the world」を意味するのかはわかりません。

先ほど、ナビなしで湖のそばを自動運転するテスラ車のビデオが公開されましたが、最新のエンドツーエンドアーキテクチャFSDv12を実行していたかどうかは定かではありません。

もう一つ

今週末、サイバートラックはサンフランシスコの路上にも登場した。

テスラは9月末に毎年恒例のAIデーイベントを開催する予定であり、引き続き注目していきたい。

今回はどんなサプライズが待っているのか分かりません。

<<: ザッカーバーグ氏がCharacter.AIの1:1レプリカである仮想チャットAIをリリース？ユーザーの不満: 設定が古すぎる

>>: マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの研究者7人が5つの主要トピックについて協力し、119ページの文書を公開した。

人間の脳細胞は、マトリックスのように、AIよりも速く、エネルギー効率よく、ペトリ皿の中でゲームをすることを学ぶ

ブログ

15年以内に恐竜を繁殖させる、マスクは恐竜を月に送りたいのか？

ブログ

人工知能のルーツを解読する

ブログ

3つの興味深い写真: 負荷分散アルゴリズムの改善が必要

ブログ

人工知能の未来における9つの新たな職業

ブログ

パドルパドル中国ツアーは、中小企業のソフトウェアおよびハードウェア製品の革新の需要に応えるために深センに上陸しました

ブログ

現実世界の問題を解決するための 4 つの機械学習戦略

ブログ

マスク氏とザッカーバーグ氏が公然と戦いを挑む！億万長者たちが八角形のケージで死闘を繰り広げる、メタの広報担当者「冗談じゃない」

ブログ

マスクのロボットが進化した！新たなスキルが解き放たれ、エンドツーエンドのニューラルネットワークが実現

GIF分解

エンドツーエンドのアーキテクチャ: ボット向け ChatGPT

もう一つ

人間の脳細胞は、マトリックスのように、AIよりも速く、エネルギー効率よく、ペトリ皿の中でゲームをすることを学ぶ

15年以内に恐竜を繁殖させる、マスクは恐竜を月に送りたいのか？

人工知能のルーツを解読する

3つの興味深い写真: 負荷分散アルゴリズムの改善が必要

人工知能の未来における9つの新たな職業

パドルパドル中国ツアーは、中小企業のソフトウェアおよびハードウェア製品の革新の需要に応えるために深センに上陸しました

現実世界の問題を解決するための 4 つの機械学習戦略

マスク氏とザッカーバーグ氏が公然と戦いを挑む！億万長者たちが八角形のケージで死闘を繰り広げる、メタの広報担当者「冗談じゃない」

推薦する

漫画は爆発的な効果でAIに変身し、サーバーが何度も圧倒された

Keras の重み制約を使用してディープニューラルネットワークの過剰適合を減らす

これはボストンダイナミクスのロボットエンジニアの一日です

ビジュアルMambaモデルのSwinの瞬間：中国科学院、HuaweiなどがVMambaを発表

WOTカンファレンスは11月に深センで開催されます！テクノロジー界の「トップグループチャット」をお見逃しなく

ソフトウェア配信における機械学習の活用方法

このバイオメディカル AI アプリケーションは信頼できますか?まずはシリコンバレーのトップベンチャーキャピタリストに6つの質問に答えてください

時系列予測におけるディープラーニングの概要と今後の方向性の分析

DeepMindの論文がNatureに掲載されました。大規模なモデルが、数学者を何十年も悩ませてきた問題に新たな解決策を発見しました。

マスクを着用しているときでも顔認識は役立ちますか?

なぜクラウドアーキテクトとクラウドエンジニアの両方が必要なのでしょうか?