部屋の中に立っていて、ドアに向かって歩こうとしていると想像してください。自己回帰を使用して、一歩ずつ進む道筋を計画しますか?実際には、パス全体が一度に生成されます。 最近の研究では、拡散モデルを使用する計画モジュールは、人間の意思決定パターンにより一致する長い一連の軌道計画を同時に生成できることが示されています。さらに、拡散モデルは、戦略表現とデータ合成の観点から、既存の意思決定インテリジェンス アルゴリズムに対してより優れた選択肢を提供することもできます。 上海交通大学のチームが執筆した「強化学習のための拡散モデル:調査」と題するレビュー論文では、強化学習関連分野における拡散モデルの応用が整理されています。このレビューでは、既存の強化学習アルゴリズムは、長いシーケンス計画におけるエラーの蓄積、戦略表現能力の限界、相互作用データの不足などの課題に直面していると指摘しています。拡散モデルは、強化学習の問題を解決する上での利点を実証しており、上記の長年の課題に対処するための新しいアイデアをもたらします。 論文リンク: https://arxiv.org/abs/2311.01223 プロジェクトアドレス: https://github.com/apexrl/Diff4RLSurvey このレビューでは、強化学習における拡散モデルの役割に応じて既存の作業を分類し、さまざまな強化学習関連のシナリオにおける拡散モデルの成功事例をリストします。最後に、このレビューでは、強化学習の問題を解決するために拡散モデルを使用する分野の将来の発展の展望を提案します。 図 1: 従来のソリューションと比較した、従来のエージェント-環境-エクスペリエンス リプレイ プール ループにおける拡散モデルの役割の概略図。 強化学習における拡散モデルの役割この記事では、強化学習における拡散モデルのさまざまな役割に応じて、拡散モデルの適用方法と特性を比較します。 図 2: 強化学習における拡散モデルが果たすさまざまな役割。 軌道計画 強化学習における計画には、ダイナミクス モデルを使用して想像の中で意思決定を行い、累積報酬を最大化する適切なアクションを選択することが含まれます。計画プロセスでは通常、意思決定の長期的な有効性を向上させるために、さまざまなアクションと状態のシーケンスを検討します。モデルベース強化学習 (MBRL) フレームワークでは、計画シーケンスは自己回帰方式でシミュレートされることが多く、累積的なエラーが発生します。拡散モデルは、複数ステップの計画シーケンスを同時に生成できます。既存の論文の拡散モデルによって生成されるターゲットは、(s,a,r)、(s,a)、sのみ、aのみなど、非常に多様です。オンライン評価中に高報酬の軌道を生成するために、多くの研究で分類器の有無にかかわらずガイド付きサンプリング手法が使用されてきました。 戦略の特徴 拡散プランナーは従来の強化学習における MBRL に似ていますが、拡散モデルを戦略として使用することはモデルフリー強化学習に似ています。 Diffusion-QL は、まず拡散戦略と Q 学習フレームワークを組み合わせます。拡散モデルのマルチモーダル分布への適合能力は従来のモデルをはるかに上回っているため、拡散戦略は複数の行動戦略からサンプリングされたマルチモーダル データセットで優れたパフォーマンスを発揮します。拡散戦略は通常の戦略と同じで、通常はQ(s,a)関数の最大化を考慮しながら、状態に基づいてアクションを生成します。 Diffusion-QL などの方法では、拡散モデルをトレーニングするときに重み付けされた値関数項が追加されますが、CEP は、値関数を拡散モデルによって学習されたアクション分布を調整する要素として使用して、エネルギーの観点から重み付けされた回帰目的を構築します。 データ統合 拡散モデルは、オフラインまたはオンラインの強化学習におけるデータ不足の問題を軽減するためのデータ合成装置として使用できます。従来の強化学習データ拡張方法では通常、元のデータに小さな変化しか加えることができませんが、拡散モデルの強力な分布フィッティング機能により、データセット全体の分布を直接学習し、新しい高品質のデータをサンプリングすることができます。 その他のタイプ 上記のカテゴリに加えて、拡散モデルを他の方法で使用している研究もいくつか散見されます。たとえば、DVF は拡散モデルを使用して価値関数を推定します。 LDCQ は、まず軌道を潜在空間にエンコードし、次に潜在空間に拡散モデルを適用します。 PolyGRAD は拡散モデルを使用して環境の動的転送を学習し、戦略とモデルが相互作用して戦略学習の効率を向上できるようにします。 強化学習に関連するさまざまな問題への応用オフライン強化学習 拡散モデルの導入により、オフライン強化学習戦略がマルチモーダルデータ分布に適合し、戦略の表現能力が拡張されます。 Diffuser は、分類器ガイドによる高報酬軌道生成アルゴリズムを初めて提案し、その後の多くの研究に影響を与えました。同時に、拡散モデルは、マルチタスクおよびマルチエージェント強化学習シナリオにも適用できます。 図3: ディフューザー軌道生成プロセスとモデル図 オンライン強化学習 研究者らは、拡散モデルにはオンライン強化学習における価値関数と戦略を最適化する能力もあることを実証しました。たとえば、DIPO はアクション データを再ラベルし、トレーニングに拡散モデルを使用することで、価値に基づくトレーニングの不安定性を回避できます。CPQL は、戦略としてのシングル ステップ サンプリング拡散モデルが、インタラクション中に探索と活用のバランスをとることができることを確認します。 模倣学習 模倣学習は、専門家のデモンストレーションデータから学習することで専門家の行動を再現します。拡散モデルの適用は、戦略表現能力の向上とさまざまなタスクスキルの習得に役立ちます。ロボット制御の分野では、拡散モデルは時間的安定性を維持しながら閉ループの動作シーケンスを予測できることが研究でわかっています。 Diffusion Policy は、画像入力からの拡散モデルを使用して、ロボットのアクション シーケンスを生成します。実験では、拡散モデルが時間的な一貫性を確保しながら効果的な閉ループアクションシーケンスを生成できることが示されています。 図4: 普及政策モデルの概略図 軌道生成 強化学習における拡散モデルの軌道生成は、主に人間の行動生成とロボット制御という 2 種類のタスクに焦点を当てています。拡散モデルによって生成されたモーション データまたはビデオ データは、シミュレーション シミュレーターの構築や下流の意思決定モデルのトレーニングに使用されます。 UniPi は、一般的な戦略としてビデオ生成拡散モデルをトレーニングし、さまざまな逆ダイナミクス モデルにアクセスして基礎となる制御コマンドを取得し、クロスエンボディ ロボット制御を実現します。 図 5: UniPi の意思決定プロセスの概略図。 データ拡張 拡散モデルは、元のデータ分布に直接適合し、信頼性を維持しながら多様で動的に拡張されたデータを提供できます。たとえば、SynthER と MTDiff-s は、拡散モデルを通じてトレーニング タスクの完全な環境転送情報を生成し、それをポリシーの改善に適用します。結果は、生成されたデータの多様性と精度が従来の方法よりも優れていることを示しています。 図6: マルチタスク計画とデータ拡張のためのMTDiffの概略図 今後の展望生成シミュレーション環境 図 1 に示すように、既存の研究では主に拡散モデルを使用してインテリジェント エージェントと経験リプレイ プールの制限を克服しており、拡散モデルを使用してシミュレーション環境を強化する研究は比較的少ないです。 Gen2Sim は、ベン図拡散モデルを利用して、シミュレートされた環境で多様な操作可能なオブジェクトを生成し、ロボットの精密操作の一般化能力を向上させます。拡散モデルは、シミュレーション環境におけるマルチエージェントの相互作用において、状態遷移関数、報酬関数、または対戦相手の行動を生成する可能性もあります。 セキュリティ制約の追加 安全制約をモデルのサンプリング条件として採用することで、拡散モデルに基づくエージェントは特定の制約を満たす決定を下すことができます。拡散モデルのガイド付きサンプリングにより、元のモデルのパラメータは変更されずに、追加の分類器を学習することで新しい安全制約を継続的に追加できるため、追加のトレーニングのオーバーヘッドを節約できます。 検索強化生成 検索強化型生成テクノロジーは、外部データセットにアクセスすることでモデル機能を強化でき、大規模言語モデルで広く使用されています。エージェントの現在の状態に関連する軌跡を取得してモデルに取り込むことで、これらの状態における拡散ベースの意思決定モデルのパフォーマンスも向上する可能性があります。検索データセットが継続的に更新されると、エージェントは再トレーニングなしで新しい動作を示すことが可能になります。 複数のスキルを組み合わせる 分類子ベースまたは分類子フリーのガイダンスと組み合わせることで、拡散モデルは複数の単純なスキルを組み合わせて複雑なタスクを完了できます。オフライン強化学習の初期の結果は、拡散モデルが異なるスキル間で知識を共有できることも示唆しており、異なるスキルを組み合わせることでゼロショット転送または継続的な学習を実現できる可能性があります。 シート図7: 関連論文の概要と分類表。 |
<<: Google の具現化された知能に関する新たな研究: RT-H が登場、RT-2 より優れている
企業が生産性を高め、顧客体験を強化する方法を模索する中、生成 AI は今後 10 年間であらゆる業界...
連日続いている「室温超伝導」事件に、新たな続報が続いている。サンプルの半懸濁に成功した華科チームは本...
2016年3月、人間と機械の戦い「イ・セドル対AlphaGo」は、人工知能の力を世界に知らしめた。...
機械学習コミュニティでは研究の再現性に関する議論が活発化していますが、こうした議論は主に学術的な環境...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[249198]]マイクロソフト、テンセント、インテルがキュウリ栽培にAIを活用北京時間11月13...
7月4日、OpenAIのチャットボットChatGPTは先週、「Browse with Bing」とい...
[[251811]]画像ソース @Visual China人工知能の概念は、提唱されてから60年以...
大規模モデルの時代において、Transformer は科学研究分野全体を一手にサポートします。 Tr...