マスク氏のロボットの大いなる進化。 1年前に初めて舞台に立ったときは動きが少しぎこちなかったが、今ではヨガの達人になった。 また、自動運転システムと同じエンドツーエンドのニューラルネットワークアーキテクチャを使用しており、ルールベースのコードなしでアイテムの分類を学習できます。 マスク氏自身の言葉: 光子が入り、アクションが出ます。 ネットユーザーらは「動きがとても優雅で滑らかで、この動画が本物だとは信じられない」とコメントした。 マスク氏はこう答えた。「アクチュエーター、センサー、そして全体的な機械構造のさらなるアップグレードがこれから行われる予定だ。」 誰かがロボットの首の後ろに赤いボタンがあることに気づき、「ロボットが世界を支配するつもりなら、これを忘れずに押してください」と言いました。 これに対しマスク氏は、安全性を最大限に高め、リモコンや携帯電話でロボットを簡単に一時停止できるように取り組むと述べた。 進捗状況の発表に加えて、マスク氏はロボットチームの採用という大きな目的を持ってこのビデオを投稿し、𝕏プラットフォームの採用機能も実演しました。 今回、テスラのロボットチームは、さまざまなハードウェアエンジニア、機械学習エンジニア、インターンを合計51人募集しています。 年俸は8万~36万ドル(約60万~260万人民元)です。 GIF分解今回、テスラ オプティマス プライムの公式アカウントは、技術的な詳細を一切明かさずに 1 分間のビデオのみを公開しました。 しかし、テスラのロボットチームの主任エンジニアであるジュリアン・イバルズ氏は、オプティマス・プライムが長期ミッションを遂行できるようになったことを明らかにした。 収集されるデータが増えるにつれて、コードを変更することなく新しい複雑なタスクをトレーニングできるようになります。 第三者の意見の中で最も詳しいのは、ビデオに基づいたNvidiaの科学者Fan Linxichun氏による長々とした逆分析だ。 彼は次のように推測した。
もう 1 つの選択肢は、シミュレートされた環境での強化学習ですが、これにより、ぎくしゃくした不自然な手のポーズが生じることがよくあります。 人間のデモンストレーションデータを収集する方法は少なくとも 4 つありますが、最も可能性が高いのはリモート コントロールです。 ロボットアームを制御してAirPodsを充電ボックスに入れることができるスタンフォード大学のオープンソースALOHAシステムを参考にすることができます。 他の 3 つの方法は、モーション キャプチャ、深度カメラとコンピューター ビジョン、VR シミュレーションであり、映画やゲームでよく使用されます。 これら 4 つの方法は相互に排他的ではなく、さまざまな利点と欠点を考慮して組み合わせて使用できます。
画像、動画、アクション、言語の統一された表現(存在するかどうかは不明)。アクション部分では、連続信号を個別のトークンに変換する必要があります。 最後に、ビデオ トークン (またはオプションの言語トークン) が入力されるたびに、アクション トークンが出力されます。 最も近いシステムは、Google RT-1 と NVIDIA の VIMA です。
しかし、実際には映像が2~3倍速になっており、ロボットだけのときは目立たなかったが、人間が画面に映るとそれが顕著になったと批判する人もいた。 エンドツーエンドのアーキテクチャ: ボット向け ChatGPTテスラは、エンドツーエンドのニューラル ネットワーク アーキテクチャを初めて FSD に実装しました。 つい最近、マスク氏自身がザッカーバーグ氏の自宅に自動運転のデモンストレーションをライブ配信し、大きな話題を呼んだ。 具体的には、自動運転システムに用いられるエンドツーエンドのアーキテクチャにより、ルールコードを30万行削減し、走行速度を10倍高速化できるという。 このプロジェクトを担当するエンジニアのダヴァル・シュロフ氏はかつてマスク氏にこう語った。「これは自動車で使用されているChatGPTと同等です。」 シュロフ氏は今回のロボットを「エンドツーエンド、最高」と評価した。 FTW が「For the win」を意味するのか「F * the world」を意味するのかはわかりません。 先ほど、ナビなしで湖のそばを自動運転するテスラ車のビデオが公開されましたが、最新のエンドツーエンドアーキテクチャFSDv12を実行していたかどうかは定かではありません。 もう一つ今週末、サイバートラックはサンフランシスコの路上にも登場した。 テスラは9月末に毎年恒例のAIデーイベントを開催する予定であり、引き続き注目していきたい。 今回はどんなサプライズが待っているのか分かりません。 |
<<: ザッカーバーグ氏がCharacter.AIの1:1レプリカである仮想チャットAIをリリース?ユーザーの不満: 設定が古すぎる
>>: マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの研究者7人が5つの主要トピックについて協力し、119ページの文書を公開した。
2020年、マイクロソフトはOpenAIと合意に達し、MicrosoftはGPT-3のソースコードに...
[51CTO.comからのオリジナル記事] スマートフォンの開発はハードウェアの革新においてボトルネ...
ソーシャル ネットワークは私たちの生活にますます大きな影響を与えており、情報の普及、新しいテクノロジ...
[[433247]]包装食品の需要増加により、食品ロボット市場規模の成長が促進されると予想されます。...
科学技術は主要な生産力です。人類社会が発展し続けることができるのは、何世代にもわたる科学者が新しい技...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
現在の人工知能の発展は、主にディープラーニングに代表される機械学習技術の恩恵を受けています。ディープ...
丸一日待った後、ついに答えが明らかになりました!先ほど、2021年のチューリング賞が発表されました。...
ロボットが人間の仕事を奪いつつあることは、何も新しいことではありません。産業技術の発展に伴い、将来的...
自動音声認識 (ASR) は、人間とコンピュータの相互作用において重要な役割を果たし、転写、翻訳、デ...