先週金曜日、知会君は微博で「来週は良いものがリリースされる」と発表した。 「来週」になって間もなく、Zhiyuan Robotics の「素晴らしいもの」が公開されました。それは、Vision-Language-Latent-Action (ViLLA) アーキテクチャとユニバーサルな具現化ベースの大型モデル GO-1 という二重の驚きでした。 ロボットのトレーニングは、データの取得が難しいため、長い間困難でした。一方では、認知の次元におけるデータがあります。インターネット上の膨大な量のテキストと画像データは、ロボットが基本的な認知を確立し、世界がどのようなものであるかを理解するのに役立ちます。 一方、アクション次元には、主に人間の操作ビデオ、クロスエンティティのデモンストレーションビデオ、仮想シーンで実践されたシミュレーションデータ、実際の環境での実際のロボット操作から得られた実機ティーチングデータから得られるデータがあります。 Zhiyuan Robotはロボットのトレーニングデータを4つのレベルに分割します しかし、既存の VLA (Vision-Language-Action) アーキテクチャは、主に実際のマシンと合成データに依存しています。 私たちが毎日見ている短い動画には、ロボットが学習できる操作が数多く含まれていますが、そのまま使用することはできず、ロボットが理解できる言語に「翻訳」する必要があります。 したがって、ロボットが人間のビデオチュートリアルを見て、脳と手で学習し、その後直接タスクを完了し始めることは困難です。 人間/エンティティ間の操作ビデオデータというこの貴重なデータソースを十分に活用しないと、ロボットの反復コストが高くなり、進化のペースが遅くなります。 では、どのようなアーキテクチャがこのデータを最大限に活用できるのでしょうか? Zhiyuan は新しい Vision-Language-Latent-Action (ViLLA) アーキテクチャを提案しました。 VLA アーキテクチャと比較して、ViLLA では、ロボットが潜在アクション トークンを予測することで、人間のアクション ビデオを実行可能なアクション シーケンスに変換できます。このようにして、ロボットは結果とその背後にある理由の両方を認識しながら、認知と行動の両方の次元で同時にトレーニングを受けることができます。 このようにして、ロボットは高品質の AgiBot World データセットとインターネット上の広範なビデオ データを効果的に活用して、戦略の一般化能力を高めることもできます。 Zhiyuan は、ViLLA アーキテクチャに基づいて、ユニバーサルな具現化ベースの大型モデルである GO-1 を作成しました。これは、VLM (言語視覚モデル) と MoE (専門家混合モデル) で構成されています。視覚、言語、動作、触覚などのマルチモーダル入力を統合し、具体的な動作を計画し、ロボットの動作実行シーケンスを直接出力します。 たとえば、ロボットに衣服を掛けるように指示すると、GO-1 はロボットがタスク要件を理解し、アクション ステップを分解し、特定の環境に適応し、最終的に操作を実行するようにガイドします。 しかし、より深い技術的なレベルでは、GO-1 モデルが 4 つのレベルのロボット トレーニング データを統合しているためです。 トレーニング段階では、インターネット上の大量のプレーンテキストとグラフィックデータから学習し、このコンテキストでの「衣服を掛ける」の意味と要件を理解できるようになりました。 私は人間の操作ビデオや他のロボットのさまざまな操作ビデオを研究してきたので、衣服を掛けるときに通常どのような手順が必要なのかを知っています。 さまざまな衣服、さまざまなワードローブ、さまざまな部屋をシミュレートし、衣服を掛ける操作をシミュレートすることを学びました。これにより、リンク内の対応するオブジェクトと環境を理解し、タスクプロセス全体を完了することができます。 また、ロボットは実機のティーチングデータを学習しているため、正確にタスクを完了することができます。 このように、GO-1大型モデルは、ロボットが総合的な「基礎教育」と「職業教育」を完了するのに役立ち、ロボットが強力な転移学習能力を持つことを可能にします。新しいシナリオに直面したとき、ロボットは基本的な常識と、さまざまな環境や物体に基づいて新しい操作を素早く習得する能力の両方を備えています。
GO-1: VLA が ViLLA に進化ビジョン・言語・アクション (VLA) アーキテクチャと比較して、ViLLA は潜在アクション トークンを予測することで、画像テキスト入力とロボットが実行するアクション間のギャップを埋めます。現実世界の器用な操作や長時間のタスクにおいて優れたパフォーマンスを発揮し、既存のオープンソース SOTA モデルをはるかに上回ります。 ViLLA アーキテクチャは、VLM (マルチモーダル ラージ モデル) + MoE (ハイブリッド エキスパート) で構成されており、VLM は大量のインターネット グラフィック データを使用して一般的なシーン認識と言語理解機能を取得し、MoE の Latent Planner は大量のクロスオントロジーと人間の操作データを使用して一般的なアクション理解機能を取得し、MoE の Action Expert は数百万の実際のマシン データを使用して高度なアクション実行機能を取得します。 推論中は、VLM、潜在的プランナー、アクション エキスパートが連携して動作します。
潜在的プランナーとアクション エキスパートは、この MoE フレームワークの 2 つの主要コンポーネントです。 潜在的プランナー AgiBot World データセットはすでに世界最大の実機ロボット教育データセットですが、アクションラベル付きの高品質な実機データの量は未だ限られており、インターネット規模のデータセットに比べるとはるかに少ないです。 この目的のために、Zhiyuan は潜在アクションを採用して現在のフレームと履歴フレーム間の暗黙的な変更をモデル化し、これらの潜在アクションを Latent Planner を通じて予測し、異種データ ソースからの実際のアクション知識を一般的な操作タスクに転送します。
アクションエキスパート 高頻度かつ器用な制御を実現するために、Zhiyuan は、拡散モデルを目的関数として使用して低レベルアクションの連続的な分布をモデル化する Action Expert を導入しました。
GO-1 初のユニバーサルボディベースモデルGO-1 は ViLLA アーキテクチャに基づいています。具体的には、VLM は、汎用具現化ベース大規模モデルのバックボーン ネットワークとして、オープンソースのマルチモーダル大規模モデル InternVL2.5-2B の重みを継承し、インターネット上の大規模なプレーン テキストおよびグラフィック データを使用することで、GO-1 大規模モデルに一般的なシーン認識および理解機能を持たせます。 最初のエキスパートモデルである暗黙的アクションエキスパートモデルは、GO-1 大規模モデルにおける暗黙的なプランナーです。大規模な人間の操作とエンティティ間の操作ビデオを活用して、モデルがアクションを理解する能力を実現します。 GO-1 大規模モデルの最後には、アクション予測器として機能するアクション エキスパート モデルがあります。このモデルは、高品質のシミュレーション データと実際のマシン データを使用することで、アクションを正確に実行できる機能を備えています。 大規模なユニバーサル具現化ベースモデルとして、GO-1 は次の 4 つのブレークスルーを達成しました。
実験結果研究チームは、革新的な Vision-Language-Latent-Action (ViLLA) アーキテクチャを使用して、複雑さの異なる 5 つのタスクで GO-1 をテストしました。 既存の最適モデルと比較すると、GO-1 は成功率が大幅に高く、平均成功率は 32% (46% → 78%) 増加しました。その中でも、GO-1は水を注ぐ、テーブルを掃除する、飲み物を補充するといった作業で特に優れたパフォーマンスを発揮しました。 さらに、Latent Plannerの除去実験も行い、Latent Plannerを追加すると成功率が12%(66%→78%)向上することがわかりました。 ロボットトレーニングのデータ問題を解決するにあたり、Zhiyuan は常にオープンソースの精神を堅持し、業界内での共有を推進してきました。 昨年12月、Zhiyuanは大規模なトレーニングデータセットであるAgiBot Worldデータセットを世界に公開しました。これは、実際のシーンとフルスタックハードウェアに基づくプラットフォームによって収集された最初の100万レベルのロボットデータセットです。今年 2 月、Zhiyuan は AgiBot Digital World シミュレーション データセットをオープンソース化しました。このデータセットは、多様な専門家の軌道生成戦略も提供できます。 現在、ViLLAアーキテクチャとGO-1大型モデルのリリースにより、ロボットは大量の実データとシミュレーションデータを持つだけでなく、迅速に学習して移行する能力も備えています。機械は運動能力の拡張に加えて、AI機能と操作機能も備えており、実際の価値を与えています。 ロボットは、常に変化する現実の環境に適応し、汎用的な知能を備えた自律的な存在へと発展し、商業、産業、家庭生活など多くの分野でその能力を発揮できるようになると考えられています。 |
>>: DeepSeek の最適な使い方とは?ウェストレイク大学が自律的に進化できるモバイルインテリジェントエージェント「AppAgentX」をリリース
大規模なマルチモーダルモデルを自動運転の意思決定者として使用すると、驚くほど効果的ですか? Sens...
@font-face { font-family: "Arial"; }@font-face { f...
3月6日、南京大学は人工知能学院の正式な設立を発表した。一流の人工知能基礎研究拠点と人材育成拠点の構...
中国、日本、韓国の囲碁名人数十人がこのゲームに挑み、アルファ碁は1敗もせずに60連勝した。その後、世...
この記事はWeChatの公開アカウント「Beta Learns JAVA」から転載したもので、著者は...
GoogleのDeepMindチームは最近、「乳がんスクリーニングAIシステムの国際評価」と題した論...
[[340795]]ビッグデータダイジェスト制作近年、ディープラーニング エンジニアは市場で最も人気...
近年、科学技術における人工知能の急速な発展により、人工知能は私たちの日常生活にいくつかの新たなハイラ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工知能(AI)は、コンピュータサイエンスの一分野として、1970年代から世界の3大最先端技術の1つ...
人工知能が歌うことは珍しくないが、本当に人間の声に近い、あるいは本物と偽物の区別がつかないような「機...
「分析の時代」はまだ始まったばかりですが、私たちには多くの刺激的なアイデアと期待がもたらされていま...