大型モデルの優れた能力は誰の目にも明らかであり、ロボットに統合されれば、ロボットはより賢い脳を持つことが期待され、自動運転、家庭用ロボット、産業用ロボット、補助ロボット、医療用ロボット、現場用ロボット、マルチロボットシステムなど、ロボット分野に新たな可能性をもたらします。 事前トレーニング済みの大規模言語モデル (LLM)、大規模視覚言語モデル (VLM)、大規模音声言語モデル (ALM)、大規模視覚ナビゲーション モデル (VNM) を使用すると、ロボット工学の分野でさまざまなタスクをより適切に処理できます。ロボット工学に大規模モデルを組み込むことは急速に進化している分野であり、ロボット工学コミュニティは最近、知覚、予測、計画、制御などのロボット工学分野でこれらの大規模モデルの使用を検討し始めています。 このほど、スタンフォード大学やプリンストン大学など複数の大学、NVIDIA、Google DeepMindなど複数の企業による共同研究チームが、ロボット研究分野における基礎モデルの開発と今後の課題をまとめたレビューレポートを発表した。
チームメンバーの中には、朱玉克、宋樹然、呉佳軍、陸卓宇など、よく知られた中国の学者がたくさんいます。 広範囲にわたる大規模データで事前トレーニングされたベースモデルは、微調整後にさまざまな下流タスクに適用できます。 BERT、GPT-3、GPT-4、CLIP、DALL-E、PaLM-E などの基本モデルは、視覚と言語処理において大きな進歩を遂げました。 基礎モデルが登場する前は、ロボット工学向けの従来のディープラーニング モデルは、さまざまなタスク用に収集された限られたデータセットを使用してトレーニングされていました。対照的に、ベースモデルは多種多様なデータを使用して事前にトレーニングされており、自然言語処理、コンピュータービジョン、ヘルスケアなどの他の分野でも適応性、一般化、全体的なパフォーマンスが実証されています。最終的には、この基本モデルがロボット分野でもその可能性を発揮することが期待されます。図1はロボット分野における基本モデルの概要を示しています。 タスク固有のモデルと比較して、ベースモデルから知識を転送すると、トレーニング時間と計算リソースを削減できる可能性があります。特にロボット関連の分野では、マルチモーダル ベース モデルは、さまざまなセンサーから収集されたマルチモーダルな異種データを融合してコンパクトで均質な表現に調整することができ、これはまさにロボットの理解と推論に必要なものです。学習された表現は、認識、意思決定、制御など、自動化テクノロジー スタックのあらゆる部分で使用できます。 それだけでなく、ベースモデルはゼロショット学習機能も提供します。つまり、AI システムは例や対象を絞ったトレーニングなしでタスクを実行できます。これにより、ロボットは学習した内容をまったく新しいユースケースに一般化できるようになり、非構造化環境での適応性と柔軟性が向上します。 基本モデルをロボット システムに統合すると、ロボットが環境を認識して相互作用する能力が向上し、コンテキスト認識型ロボット システムを実現できるようになります。 たとえば、知覚の分野では、大規模な視覚言語モデル (VLM) は視覚データとテキストデータ間の関連性を学習し、クロスモーダル理解機能を備え、ゼロショット画像分類、ゼロショット物体検出、3D 分類などのタスクを支援できます。別の例として、3D 世界での言語の基盤(つまり、VLM のコンテキスト理解を 3D の現実世界に合わせること)により、発話を 3D 環境内の特定のオブジェクト、場所、またはアクションに関連付けることで、ロボットの空間認識を強化できます。 意思決定や計画の分野では、LLM と VLM がロボットによる高レベルの計画を伴うタスクの指定を支援できることが研究でわかっています。 操作、ナビゲーション、インタラクションに関連する言語の手がかりを活用することで、ロボットはより複雑なタスクを実行できるようになります。たとえば、模倣学習や強化学習などのロボットポリシー学習技術の場合、基本モデルはデータ効率とコンテキスト理解を向上させる能力を持っているようです。特に、言語駆動型の報酬は、形作られた報酬を提供することで強化学習エージェントを導くことができます。 さらに、研究者は言語モデルを使用して、ポリシー学習技術にフィードバックを提供しています。いくつかの研究では、VLM モデルの視覚的な質問応答 (VQA) 機能がロボット工学のユースケースに使用できることが示されています。たとえば、研究者は VLM を使用して視覚コンテンツに関する質問に答え、ロボットがタスクを完了できるように支援しています。さらに、一部の研究者は、VLM を使用してデータの注釈付けを支援し、視覚コンテンツの説明ラベルを生成します。 視覚と言語処理における変革能力にもかかわらず、現実世界のロボットタスク向けに基本モデルを一般化し、微調整することは依然として困難です。 これらの課題には以下が含まれます。 1) データ不足: ロボットの操作、位置特定、ナビゲーションなどのロボットタスクに必要なインターネット規模のデータを取得する方法、およびこのデータを使用して自己教師ありトレーニングを実行する方法。 2) 膨大な異質性: ベースモデルに必要な一般性を維持しながら、物理的環境、物理的なロボットプラットフォーム、および潜在的なロボットタスクの膨大な多様性にどのように対処するか。 3) 不確実性の定量化: インスタンスレベルの不確実性 (言語の曖昧さや LLM 幻覚など)、分布レベルの不確実性、分布シフトの問題、特に閉ループロボット展開によって引き起こされる分布シフトの問題をどのように解決するか。 4) 安全性評価:展開前、更新プロセス中、および作業プロセス中に、基本モデルに基づいてロボットシステムを厳密にテストする方法。 5) リアルタイム性能: ロボットへのベースモデルの展開を妨げる、一部のベースモデルの長い推論時間に対処する方法と、オンライン意思決定に必要なベースモデルの推論を高速化する方法について説明します。 このレビュー論文では、ロボット工学における基礎モデルの現在の使用状況をまとめています。現在のアプローチ、アプリケーション、課題を調査し、これらの課題に対処するための将来の研究の方向性を提案します。また、基本モデルを使用してロボットの自律性を実現する場合の潜在的なリスクも特定します。 基本的なモデルの背景知識基本モデルには数十億のパラメータがあり、インターネット規模の大規模データを使用して事前トレーニングされています。このサイズと複雑さのモデルをトレーニングするには、非常にコストがかかります。データの取得、処理、管理にかかるコストも高くなる可能性があります。トレーニング プロセスには、大量のコンピューティング リソース、GPU や TPU などの特殊なハードウェア、およびモデル トレーニング用のソフトウェアとインフラストラクチャが必要であり、これらすべてに資金が必要です。さらに、基本モデルの入手には長い時間がかかり、これもコストの高騰につながります。したがって、これらのモデルはプラグ可能なモジュールとして使用されることが多く、つまり、基本モデルは多くのカスタマイズ作業なしでさまざまなアプリケーションに統合できます。 表 1 に、一般的に使用される基本モデルの詳細を示します。 このセクションでは、主に LLM、ビジュアルトランスフォーマー、VLM、具現化マルチモーダル言語モデル、ビジュアル生成モデルについて紹介します。ベースモデルをトレーニングするためのさまざまなトレーニング方法も紹介されています。 彼らはまず、トークン化、生成モデル、識別モデル、Transformer アーキテクチャ、自己回帰モデル、マスクされたオートエンコーディング、対照学習、拡散モデルなど、いくつかの関連する用語と数学的知識を紹介しました。 次に、大規模言語モデル (LLM) の例と歴史的背景を紹介します。その後、ビジュアルトランスフォーマー、マルチモーダル視覚言語モデル (VLM)、具現化されたマルチモーダル言語モデル、およびビジュアル生成モデルに焦点が当てられました。 ロボット研究このセクションでは、ロボットの意思決定、計画、制御に焦点を当てます。この分野では、大規模言語モデル (LLM) と視覚言語モデル (VLM) の両方を使用して、ロボットの機能を強化することができます。たとえば、LLM はタスク指定プロセスを容易にし、ロボットが人間からの高レベルの指示を受け取って解釈できるようにします。 VLM もこの分野に貢献することが期待されています。 VLM は視覚データの分析に優れています。ロボットがインテリジェントな判断を下し、複雑なタスクを実行するには、視覚的な理解が不可欠です。ロボットは自然言語の手がかりを使用して、操作、ナビゲーション、および対話関連のタスクを実行する能力を強化できるようになりました。 目標ベースの視覚言語ポリシー学習(模倣学習または強化学習のいずれを介しても)は、ベースモデルによって改善されることが期待されます。言語モデルは、ポリシー学習技術にフィードバックを提供することもできます。このフィードバック ループは、ロボットが LLM から受け取るフィードバックに基づいて動作を最適化できるため、ロボットの意思決定能力を継続的に向上させるのに役立ちます。 このセクションでは、ロボットの意思決定分野における LLM と VLM の応用に焦点を当てます。 このセクションは 6 つの部分に分かれています。最初の部分では、言語ベースの模倣学習や言語支援強化学習など、意思決定と制御、ロボットのポリシー学習の方法について紹介します。 2 番目の部分は、目標ベースの言語イメージ価値学習です。 3 番目のセクションでは、ロボット タスクを計画するための大規模言語モデルの使用について説明します。これには、言語命令を通じてタスクを指定し、言語モデルを使用してタスク プランのコードを生成することが含まれます。 4 番目の部分は、意思決定のためのコンテキスト内学習 (ICL) です。 次はトランスフォーマーロボットです。 第6部は、ロボットのナビゲーションとオープン語彙ライブラリの操作です。 表 2 には、ロボット工学特有の基本モデルがいくつか示されており、モデルのサイズとアーキテクチャ、事前トレーニング タスク、推論時間、ハードウェア設定が報告されています。 感知環境と相互作用するロボットは、画像、ビデオ、音声、言語など、さまざまな形式で感覚情報を受け取ります。この高次元データは、ロボットが環境を理解し、推論し、環境と対話するために不可欠です。基礎となるモデルは、これらの高次元の入力を、解釈や操作が容易な抽象構造化表現に変換できます。特に、マルチモーダル ベース モデルにより、ロボットはさまざまな感覚からの入力を、意味、空間、時間、アフォーダンスの情報を含む統一された表現に統合できます。これらのマルチモーダル モデルでは、クロスモーダル インタラクションが必要であり、一貫性と対応性を確保するために、異なるモダリティの要素を調整する必要があることがよくあります。たとえば、画像の説明タスクでは、テキストと画像データの位置合わせが必要です。 このセクションでは、基本モデルを使用してモダリティを調整することで改善できる、ロボットの知覚に関連する一連のタスクに焦点を当てます。視覚と言語に重点が置かれています。 このセクションは 5 つの部分に分かれており、オープン ボキャブラリのオブジェクト検出と 3D 分類から始まり、オープン ボキャブラリのセマンティック セグメンテーション、オープン ボキャブラリの 3D シーンとオブジェクトの表現、学習された機能アフォーダンス、最後に予測モデルが続きます。 具現化されたAI最近の研究では、LLM が具現化された AI の分野で効果的に使用できることが示されています。ここで「具現化された」とは、通常、物理的なロボットの体ではなく、世界シミュレータ内の仮想体を指します。 この点に関して、いくつかの興味深いフレームワーク、データセット、モデルが登場しています。特に注目すべきは、具現化されたエージェントを訓練するためのプラットフォームとして Minecraft ゲームを使用していることです。たとえば、Voyager は GPT-4 を使用してエージェントを誘導し、Minecraft 環境を探索します。 GPT-4 のモデル パラメータを微調整することなく、コンテキスト プロンプト設計を通じて GPT-4 と対話できます。 ロボット学習における重要な研究方向は強化学習であり、一部の研究者は基本モデルを通じて強化学習の報酬を設計しようとしています。 当然のことながら、研究者たちは長い間、基本モデルを使用してロボットが高度な計画を実行するのを支援しようと試みてきました。さらに、思考連鎖ベースの推論と行動生成手法を具現化された知的エージェントに適用しようとしている研究者もいます。 課題と今後の方向性このセクションでは、ロボット工学にベースモデルを使用する際に発生する課題について説明します。チームはこれらの課題に対処できる将来の研究の方向性も模索する予定です。 最初の課題は、ロボット工学に使用される基本モデルのトレーニングにおけるデータ不足の問題を克服することでした。これには以下が含まれます。 1. 非構造化ゲームデータとラベル付けされていない人間のビデオを使用したロボット学習のスケーリング 2. インペインティングを使用してデータを強化する 3. 3Dベースモデルのトレーニング時に3Dデータ不足の問題を克服する 4. 高精度シミュレーションによる合成データの生成 5. VLMを使用したデータ拡張 6. ロボットの身体能力はスキルの分布によって制限される 2 番目の課題はリアルタイム パフォーマンスに関連しており、ここで鍵となるのは基本モデルの推論時間です。 3 番目の課題は、マルチモーダル表現の限界に関するものです。 4 番目の課題は、インスタンス レベルや分布レベルなどの異なるレベルでの不確実性をどのように定量化するかであり、分布の変化をどのように調整して対処するかという問題も伴います。 5 番目の課題は、展開前のセキュリティ テスト、実行時の監視、配布外の状況の検出などのセキュリティ評価です。 6 番目の課題は、既存のベース モデルを使用するか、ロボットの新しいベース モデルを構築するかを選択することです。 7 番目の課題は、ロボットのセットアップにおける大きな変動性です。 8 番目の課題は、ロボット環境での再現性をベンチマークし、確保する方法です。 研究の詳細については原著論文を参照してください。 |
<<: GPT-4のAndroid版が無料でご利用いただけるようになり、音声から画像へのマルチモダリティを無料でご利用いただけます。ネットユーザー:公表しないで
>>: Kuaishou Agents システム、モデル、データはすべてオープンソースです。
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ビッグデータダイジェスト制作出典: サイエンスデイリー編集者: ジェーン人工知能は、ビジネスから工業...
[[421393]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...
[[386797]]この記事はWeChatの公開アカウント「Smart Computing Chip...
生成型 AI の破壊的な脅威から抜け出す方法を模索している IT リーダーは、LexisNexis ...
[[248716]]データ サイエンスの力を活用するために高価なツールは必要ありません。これらのオー...
毎分250人の赤ちゃんが生まれ、世界では4回の地震が発生し、シンガポール港では1,000トンを超える...
企業はビジネスニーズの変化に応じてスケールアップおよびスケールダウンできるコンピューティングおよびス...
特定の問題を解決するための最適な技術としての人工知能 (AI) に対する熱意は否定できず、注目に値し...
人工知能アルゴリズムやディープラーニングなどのさまざまな技術の徹底的な発展により、人工知能(AI)は...
[[250218]]ヨシュア・ベンジオ氏は、間違いなく現代の人工知能技術分野の第一人者です。ベンジ...
この記事では、人工知能にブロックチェーンが必要な理由、人工知能がブロックチェーンに与える影響、ブロッ...
10年越しの自動車製造の夢は完全に打ち砕かれ、タイタン計画は終了!言い換えれば、過去10年間にApp...