知恵くんの“いいとこ”が明らかに!初のユニバーサルな具現化ベースモデル、ロボットは「理解はできるができない」状態に別れを告げる

知恵くんの“いいとこ”が明らかに!初のユニバーサルな具現化ベースモデル、ロボットは「理解はできるができない」状態に別れを告げる

先週金曜日、知会君は微博で「来週は良いものがリリースされる」と発表した。


「来週」になって間もなく、Zhiyuan Robotics の「素晴らしいもの」が公開されました。それは、Vision-Language-Latent-Action (ViLLA) アーキテクチャとユニバーサルな具現化ベースの大型モデル GO-1 という二重の驚きでした。

ロボットのトレーニングは、データの取得が難しいため、長い間困難でした。一方では、認知の次元におけるデータがあります。インターネット上の膨大な量のテキストと画像データは、ロボットが基本的な認知を確立し、世界がどのようなものであるかを理解するのに役立ちます。

一方、アクション次元には、主に人間の操作ビデオ、クロスエンティティのデモンストレーションビデオ、仮想シーンで実践されたシミュレーションデータ、実際の環境での実際のロボット操作から得られた実機ティーチングデータから得られるデータがあります。

Zhiyuan Robotはロボットのトレーニングデータを4つのレベルに分割します

しかし、既存の VLA (Vision-Language-Action) アーキテクチャは、主に実際のマシンと合成データに依存しています。

私たちが毎日見ている短い動画には、ロボットが学習できる操作が数多く含まれていますが、そのまま使用することはできず、ロボットが理解できる言語に「翻訳」する必要があります。

したがって、ロボットが人間のビデオチュートリアルを見て、脳と手で学習し、その後直接タスクを完了し始めることは困難です。

人間/エンティティ間の操作ビデオデータというこの貴重なデータソースを十分に活用しないと、ロボットの反復コストが高くなり、進化のペースが遅くなります。

では、どのようなアーキテクチャがこのデータを最大限に活用できるのでしょうか?

Zhiyuan は新しい Vision-Language-Latent-Action (ViLLA) アーキテクチャを提案しました。

VLA アーキテクチャと比較して、ViLLA では、ロボットが潜在アクション トークンを予測することで、人間のアクション ビデオを実行可能なアクション シーケンスに変換できます。このようにして、ロボットは結果とその背後にある理由の両方を認識しながら、認知と行動の両方の次元で同時にトレーニングを受けることができます。

このようにして、ロボットは高品質の AgiBot World データセットとインターネット上の広範なビデオ データを効果的に活用して、戦略の一般化能力を高めることもできます。

Zhiyuan は、ViLLA アーキテクチャに基づいて、ユニバーサルな具現化ベースの大型モデルである GO-1 を作成しました。これは、VLM (言語視覚モデル) と MoE (専門家混合モデル) で構成されています。視覚、言語、動作、触覚などのマルチモーダル入力を統合し、具体的な動作を計画し、ロボットの動作実行シーケンスを直接出力します。

たとえば、ロボットに衣服を掛けるように指示すると、GO-1 はロボットがタスク要件を理解し、アクション ステップを分解し、特定の環境に適応し、最終的に操作を実行するようにガイドします。

しかし、より深い技術的なレベルでは、GO-1 モデルが 4 つのレベルのロボット トレーニング データを統合しているためです。

トレーニング段階では、インターネット上の大量のプレーンテキストとグラフィックデータから学習し、このコンテキストでの「衣服を掛ける」の意味と要件を理解できるようになりました。

私は人間の操作ビデオや他のロボットのさまざまな操作ビデオを研究してきたので、衣服を掛けるときに通常どのような手順が必要なのかを知っています。

さまざまな衣服、さまざまなワードローブ、さまざまな部屋をシミュレートし、衣服を掛ける操作をシミュレートすることを学びました。これにより、リンク内の対応するオブジェクトと環境を理解し、タスクプロセス全体を完了することができます。

また、ロボットは実機のティーチングデータを学習しているため、正確にタスクを完了することができます。

このように、GO-1大型モデルは、ロボットが総合的な「基礎教育」と「職業教育」を完了するのに役立ち、ロボットが強力な転移学習能力を持つことを可能にします。新しいシナリオに直面したとき、ロボットは基本的な常識と、さまざまな環境や物体に基づいて新しい操作を素早く習得する能力の両方を備えています。

  • 論文リンク: https://agibot-world.com/blog/agibot_go1.pdf

GO-1: VLA が ViLLA に進化

ビジョン・言語・アクション (VLA) アーキテクチャと比較して、ViLLA は潜在アクション トークンを予測することで、画像テキスト入力とロボットが実行するアクション間のギャップを埋めます。現実世界の器用な操作や長時間のタスクにおいて優れたパフォーマンスを発揮し、既存のオープンソース SOTA モデルをはるかに上回ります。

ViLLA アーキテクチャは、VLM (マルチモーダル ラージ モデル) + MoE (ハイブリッド エキスパート) で構成されており、VLM は大量のインターネット グラフィック データを使用して一般的なシーン認識と言語理解機能を取得し、MoE の Latent Planner は大量のクロスオントロジーと人間の操作データを使用して一般的なアクション理解機能を取得し、MoE の Action Expert は数百万の実際のマシン データを使用して高度なアクション実行機能を取得します。

推論中は、VLM、潜在的プランナー、アクション エキスパートが連携して動作します。

  • VLM は、一般的なシーン認識とコマンド理解のために、マルチビュー視覚画像、力信号、言語入力などのマルチモーダル情報を受信するために InternVL-2B を使用します。
  • Latent Plannerは、一般的な行動の理解と計画のためにVLMの中間層出力に基づいて、CoP(計画の連鎖)として潜在行動トークンを予測するMoEの専門家グループです。
  • アクションエキスパートはMoEの別のエキスパートグループであり、VLMと潜在アクショントークンの中間層出力に基づいて最終的な細かいアクションシーケンスを生成します。

潜在的プランナーとアクション エキスパートは、この MoE フレームワークの 2 つの主要コンポーネントです。

潜在的プランナー

AgiBot World データセットはすでに世界最大の実機ロボット教育データセットですが、アクションラベル付きの高品質な実機データの量は未だ限られており、インターネット規模のデータセットに比べるとはるかに少ないです。

この目的のために、Zhiyuan は潜在アクションを採用して現在のフレームと履歴フレーム間の暗黙的な変更をモデル化し、これらの潜在アクションを Latent Planner を通じて予測し、異種データ ソースからの実際のアクション知識を一般的な操作タスクに転送します。

  • 潜在アクション モデル (LAM) は、主に現在のフレームと過去のフレーム間の潜在アクションの Groundtruth (真の値) を取得するために使用されます。これは、エンコーダーとデコーダーで構成されます。で
  • エンコーダーは空間時間トランスフォーマーを採用し、Causal Temporal Masks を使用します。
  • デコーダーは、初期フレームと離散化された潜在アクション トークンを入力として受け取る Spatial Transformer を使用します。
  • 潜在アクション トークンは VQ-VAE を使用して量子化されます。
  • 潜在プランナーは、これらの個別の潜在アクション トークンを予測する役割を担います。VLM バックボーン ネットワークと同じトランスフォーマー構造を共有しますが、2 つの独立した FFN (フィードフォワード ニューラル ネットワーク) と Q/K/V/O (クエリ、キー、値、出力) 投影マトリックスを使用します。 Latent Planner の専門家チームは、VLM によって出力された中間情報をレイヤーごとに組み合わせ、クロスエントロピー損失を通じて教師ありトレーニングを実行します。

アクションエキスパート

高頻度かつ器用な制御を実現するために、Zhiyuan は、拡散モデルを目的関数として使用して低レベルアクションの連続的な分布をモデル化する Action Expert を導入しました。

  • Action Expert の構造設計は Latent Planner と似ており、VLM バックボーン ネットワークと同じ Transformer 構造を共有していますが、2 つの独立した FFN と Q/K/V/O 投影行列を使用しています。ノイズ除去プロセスを通じてアクション シーケンスを徐々に回帰します。
  • Action Expert は、VLM および Latent Planner と階層化されており、情報フローの一貫性と共同最適化を保証します。

GO-1 初のユニバーサルボディベースモデル

GO-1 は ViLLA アーキテクチャに基づいています。具体的には、VLM は、汎用具現化ベース大規模モデルのバックボーン ネットワークとして、オープンソースのマルチモーダル大規模モデル InternVL2.5-2B の重みを継承し、インターネット上の大規模なプレーン テキストおよびグラフィック データを使用することで、GO-1 大規模モデルに一般的なシーン認識および理解機能を持たせます。

最初のエキスパートモデルである暗黙的アクションエキスパートモデルは、GO-1 大規模モデルにおける暗黙的なプランナーです。大規模な人間の操作とエンティティ間の操作ビデオを活用して、モデルがアクションを理解する能力を実現します。

GO-1 大規模モデルの最後には、アクション予測器として機能するアクション エキスパート モデルがあります。このモデルは、高品質のシミュレーション データと実際のマシン データを使用することで、アクションを正確に実行できる機能を備えています。

大規模なユニバーサル具現化ベースモデルとして、GO-1 は次の 4 つのブレークスルーを達成しました。

  • 人間のビデオ学習: GO-1 大規模モデルは、インターネット ビデオと実際の人間のデモンストレーションを組み合わせて学習できるため、モデルの人間の行動に対する理解が深まり、人間へのサービスが向上します。
  • 少量サンプルによる高速一般化: GO-1 大規模モデルは強力な一般化機能を備えており、非常に少ないデータ、またはサンプルがゼロであっても、新しいシナリオや新しいタスクに一般化できるため、具体化されたモデルを使用するしきい値が低くなり、トレーニング後のコストが非常に低くなります。
  • 1 つの脳、複数のフォーム: GO-1 大型モデルは、さまざまなロボット フォーム間を移行し、さまざまなボディにすばやく適応し、グループの知能を向上させることができる汎用ロボット戦略モデルです。
  • 継続的な進化: GO-1 大型モデルは、Zhiyuan データ リターン システムの完全なセットと組み合わせられ、実際の実行中に遭遇した問題データから継続的に進化して学習し、使用するにつれてよりスマートになります。

実験結果

研究チームは、革新的な Vision-Language-Latent-Action (ViLLA) アーキテクチャを使用して、複雑さの異なる 5 つのタスクで GO-1 をテストしました。

既存の最適モデルと比較すると、GO-1 は成功率が大幅に高く、平均成功率は 32% (46% → 78%) 増加しました。その中でも、GO-1は水を注ぐ、テーブルを掃除する、飲み物を補充するといった作業で特に優れたパフォーマンスを発揮しました。

さらに、Latent Plannerの除去実験も行い、Latent Plannerを追加すると成功率が12%(66%→78%)向上することがわかりました。

ロボットトレーニングのデータ問題を解決するにあたり、Zhiyuan は常にオープンソースの精神を堅持し、業界内での共有を推進してきました。

昨年12月、Zhiyuanは大規模なトレーニングデータセットであるAgiBot Worldデータセットを世界に公開しました。これは、実際のシーンとフルスタックハードウェアに基づくプラットフォームによって収集された最初の100万レベルのロボットデータセットです。今年 2 月、Zhiyuan は AgiBot Digital World シミュレーション データセットをオープンソース化しました。このデータセットは、多様な専門家の軌道生成戦略も提供できます。

現在、ViLLAアーキテクチャとGO-1大型モデルのリリースにより、ロボットは大量の実データとシミュレーションデータを持つだけでなく、迅速に学習して移行する能力も備えています。機械は運動能力の拡張に加えて、AI機能と操作機能も備えており、実際の価値を与えています。

ロボットは、常に変化する現実の環境に適応し、汎用的な知能を備えた自律的な存在へと発展し、商業、産業、家庭生活など多くの分野でその能力を発揮できるようになると考えられています。

<<:  プログラマー試験ノート4: ソートアルゴリズム

>>:  DeepSeek の最適な使い方とは?ウェストレイク大学が自律的に進化できるモバイルインテリジェントエージェント「AppAgentX」をリリース

ブログ    

推薦する

...

南京大学人工知能学院が人材募集開始:年俸は40万元から

3月6日、南京大学は人工知能学院の正式な設立を発表した。一流の人工知能基礎研究拠点と人材育成拠点の構...

...

プログラマーは「自殺」している。人工知能が進化し続ける中、人間は何をすべきか?

中国、日本、韓国の囲碁名人数十人がこのゲームに挑み、アルファ碁は1敗もせずに60連勝した。その後、世...

頑固なマージソートアルゴリズム

この記事はWeChatの公開アカウント「Beta Learns JAVA」から転載したもので、著者は...

...

DeepMindが乳がん診断AIをリリース:市場に投入するにはまだ多くの課題がある

GoogleのDeepMindチームは最近、「乳がんスクリーニングAIシステムの国際評価」と題した論...

ネットで熱い議論:感染拡大から半年でディープラーニングの求人数が激減

[[340795]]ビッグデータダイジェスト制作近年、ディープラーニング エンジニアは市場で最も人気...

人工知能の出現は教育にどのような影響を与えるのでしょうか?

近年、科学技術における人工知能の急速な発展により、人工知能は私たちの日常生活にいくつかの新たなハイラ...

人工知能は、新たな技術と産業の変化のトレンドになりつつある

人工知能(AI)は、コンピュータサイエンスの一分野として、1970年代から世界の3大最先端技術の1つ...

マイクロソフトのXiaoIceが第5世代の歌唱システムにアップグレード:人間のアイドルを超える

人工知能が歌うことは珍しくないが、本当に人間の声に近い、あるいは本物と偽物の区別がつかないような「機...

2017 年の機械学習開発に関するトップ 10 の予測: 悲観的か現実的か?

「分析の時代」はまだ始まったばかりですが、私たちには多くの刺激的なアイデアと期待がもたらされていま...