大規模言語モデルを導入し、国内初のコンピューティングパワーエコシステムをサポートする新しいオープンソースRLフレームワークRLLTEが登場

大規模言語モデルを導入し、国内初のコンピューティングパワーエコシステムをサポートする新しいオープンソースRLフレームワークRLLTEが登場

近年、強化学習に対する研究熱は高まり続けており、インテリジェント製造、自動運転、大規模言語モデルなど多くの分野で輝かしい成果を上げており、大きな研究の可能性を示しています。しかし、強化学習アルゴリズムの効率的で信頼性の高いエンジニアリング実装は、依然として長年の課題となっています。アルゴリズム構造が複雑なため、わずかなコードの違いが実際のパフォーマンスに重大な影響を及ぼす可能性があります。

この問題を解決するために、科学研究者や開発者コミュニティは、安定性と信頼性を重視したStable-Baselines3、モジュール設計のTianshou、単一ファイルアルゴリズム実装のCleanRLなど、強化学習フレームワークを数多く提案しており、強化学習の学術研究やアプリケーション開発に積極的に貢献しています。しかし、ほとんどのプロジェクトはアクティブサイクルが短く、合理的な長期的進化計画が確立されておらず、コードスタイルが異なっているため、コミュニティのオープンソースコラボレーションが制限されています。彼らは完全なプロジェクト エコシステムを構築しておらず、評価や展開などの実用的なニーズを無視して、モデルのトレーニングのみに焦点を当てています。同時に、これらのプロジェクトには完全なテストデータが不足しており、再現コストが非常に高くなり、その後の研究を妨げています。

上記の問題を解決するために、香港理工大学、寧波東方理工大学(仮称)、パデュー大学、DJIテクノロジーの研究者とアルゴリズムチームは、通信分野の「長期進化技術(LTE)」に着想を得て、強化学習の研究と応用を促進するための開発コンポーネントとエンジニアリング標準を提供することを目的とした、RLLTEと呼ばれるオープンソースの強化学習フレームワークをリリースしました。 RLLTE は、高品質のアルゴリズム実装を提供するだけでなく、新しいアルゴリズムの開発のためのツール ライブラリとしても使用できます。


  • 論文リンク: https://arxiv.org/pdf/2309.16382.pdf
  • コード/デモ リンク: https://github.com/RLE-Foundation/rllte
  • 公式サイト: https://docs.rllte.dev/

図1 RLLTEフレームワーク図

RLLTE は、強化学習アルゴリズムを「探索と活用」の観点から完全に分離し、観察を処理するためのエンコーダーや、経験の保存とサンプリングのためのストレージなど、いくつかの最小限のプリミティブに分解します。 RLLTE は、開発者が各プリミティブに対して選択できる豊富なモジュール セットを提供し、開発者が「ビルディング ブロック」方式で強化学習アルゴリズムを構築できるようにします。 RLLTE フレームワークの主な機能とハイライトは次のとおりです。

  • 極端なモジュール性: RLLTE の中心的な設計思想は、特定のアルゴリズムの実装を提供することに重点を置くのではなく、PyTorch のような強化学習アルゴリズム開発のための標準的で便利なプラグアンドプレイ開発コンポーネントを提供することです。したがって、RLLTE によって実装されるアルゴリズムの各コンポーネントは交換可能であり、ユーザーがカスタマイズされたモジュールを使用することをサポートします。この分離プロセスにより、アルゴリズムの解釈可能性の研究と改善のより深い探求が容易になります。
  • 長期的進化: 長期的進化フレームワークとして、RLLTE は強化学習における高度なアルゴリズムとツールを継続的に更新します。プロジェクトの規模と品質を維持するために、RLLTE では一般的なアルゴリズムの更新、またはサンプリング効率や一般化能力の改善のみが行われ、これらのアルゴリズムは広く認識されているベースラインで優れたパフォーマンスを達成する必要があります。
  • データ拡張: 近年の多くの研究では、強化学習アルゴリズムにデータ拡張技術を導入し、サンプリング効率と一般化能力の大幅な向上を実現しています。 RLLTE はデフォルトでデータ拡張操作をサポートし、開発者が選択できる多数の観測拡張および内在的報酬モジュールを提供します。
  • 豊富なプロジェクト エコロジー: RLLTE は、学界と産業界の両方のニーズを考慮し、豊富なプロジェクト エコロジーを構築します。開発者は、タスクの設計、モデルのトレーニング、評価、およびデプロイメントを 1 つのフレームワークで実装できます。さらに、RLLTE は、ユーザーの学習コストを削減し、強化学習アプリケーションの構築を加速するために、フレームワークに大規模な言語モデルを導入しようとしています。
  • 完全なベースライン データ: 既存の強化学習フレームワークでは通常、限られたタスクでのみアルゴリズムをテストし、完全なテスト データ (トレーニング カーブやテスト スコアなど) が不足しています。これは、強化学習のトレーニングの計算コストが高いため理解できますが、その後の研究の妨げになります。この問題を解決するために、RLLTE は Hugging Face プラットフォームに基づくデータ ウェアハウスを構築し、広く認知されているベースラインで組み込みアルゴリズムをテストして、完全なトレーニング データを提供しました。
  • 複数のハードウェア サポート: 現在、世界的にコンピューティング パワーの需要が急増していることを踏まえ、RLLTE は柔軟性と拡張性を確保するためにさまざまなコンピューティング デバイスをサポートするように設計されています。現在、このフレームワークは、NVIDIA GPU と HUAWEI NPU を使用したトレーニングをサポートし、NVIDIA TensorRT および HUAWEI CANN アーキテクチャでの推論側の展開をサポートしています。 RLTLE は、国内のコンピューティング パワー エコシステムをサポートする最初の強化学習フレームワークでもあります

図2. RLLTEフレームワークと他の一般的なオープンソースRLフレームワークとの機能比較

RLLTEフレームワークの紹介

RLLTE フレームワークは、主にコア層 (Core)、アプリケーション層 (Application)、ツール層 (Tool) の 3 つの層で構成されます。

  • コア レイヤーは、RL アルゴリズムを「探索と活用」の観点から完全に分離し、次の 6 つのプリミティブに分割します。

図3 RLLTEコア層アーキテクチャ

RLLTE は、開発者がプリミティブの種類ごとに選択できる多数のモジュールを提供します。たとえば、ストレージ モジュールは、観測データをそれぞれプレーン形式と辞書形式で保存するための VanillaReplayStorage と DictReplayStorage を提供します。

  • アプリケーション層は、コア層のモジュールに基づいて、強化学習アルゴリズム (rllte.agent)、事前トレーニング (Pre-training)、モデル展開 (Deployment)、開発アシスタント (Copilot) の実装を提供します。
  • ツール レイヤーは、タスク設計 (rllte.env)、モデル評価 (rllte.evaluation)、およびベースライン データ (rllte.hub) 用の便利なアプリケーション インターフェイスを提供します。

ユーザーは、視覚制御タスクを解決するために DrQ-v2 アルゴリズムを使用するなど、トレーニング用に RLLTE によって実装されたアルゴリズムを直接呼び出すことができます。

トレーニングを開始すると、次の出力が表示されます。

あるいは、組み込みのアルゴリズム プロトタイプとモジュールを使用して、アルゴリズムを迅速に開発することもできます。

RLLTE を使用すると、開発者はわずか数十行のコードで A2C などのよく知られた強化学習アルゴリズムを実装できます。さらに、適切に実装されたアルゴリズムの場合、開発者は組み込みモジュールを置き換えて、パフォーマンスの比較やアルゴリズムの改善を行うことができます。たとえば、同じアルゴリズムのパフォーマンスに対する異なるエンコーダーの効果を比較します。

トレーニング済みのモデルの場合、開発者は rllte.evaluation 内のツールを呼び出してアルゴリズムの評価と視覚化を実行できます。

学術研究では、rllte.hub を使用してアルゴリズムのトレーニング データとモデル パラメータをすばやく取得します。

大規模言語モデルをRLフレームワークに統合する

RLLTE は、大規模な言語モデルを導入して開発者の学習コストを削減し、強化学習アプリケーションの開発を支援する最初の強化学習フレームワークです。

RLLTE は、LocalGPT などのプロジェクトの設計コンセプトに基づいて Copilot を開発しました。これにより、追加のトレーニングを必要とせず、ユーザー データの完全なプライバシーが保証されます。まず、インストラクター埋め込みツールを使用して、プロジェクト ドキュメント、チュートリアル、強化学習論文で構成されるコーパスを処理してローカライズされたベクトル データベースを構築し、次に Vicuna-7B などの大規模なモデルを使用して問題を理解し、ベクトル データベースに基づいて回答を提供します。ユーザーは自身の計算能力に応じて、基本モデルを自由に変更することができます。今後は、コーパスをさらに充実させ、より高度な機能を追加することで、よりインテリジェントな強化学習特化型 Copilot を実現していきます。

RLLTE は、長期的に進化する強化学習フレームワークとして、最新の研究の進捗を追跡し、今後も高品質のアルゴリズム実装を提供することで、開発者の変化するニーズに適応し、強化学習コミュニティにプラスの影響を与えていきます。

<<:  Baidu World 2023 ネタバレ丨ドキュメントで PPT を生成し、ワンクリックで長い記事を要約... Baidu Library AI「ブラックテクノロジー」がスマートオフィスの革新をリード

>>: 

ブログ    
ブログ    

推薦する

人工知能の時代では、ロボットがあらゆる面で人間に取って代わっている

ロボットは私たちの都市生活を変えています。この記事では、交通、物流、検知、食品、安全の 5 つの側面...

言語モデルの氷山の一角: 微調整は不要、AI21 Labs は凍結モデルの未開発の可能性を探る

現在、特定の NLP タスクのパフォーマンスを最適化するための最善のアプローチは、事前トレーニング済...

Stack Overflow が ChatGPT に対抗し、VS Code と連携する独自開発の生成 AI ツールをリリース

数日前、Stack Overflow コミュニティのトラフィックが大幅に減少したというニュースがあり...

5G、AI、クラウドコンピューティング…東京五輪の裏側にある「ブラックテクノロジー」を徹底検証

8月8日夜、第32回夏季オリンピック競技大会(以下、東京オリンピック)が閉幕した。選手たちの俊敏な姿...

人工知能は人間の知能ではない。まずは人工的なもの、そして知的なもの

人工知能に関しては、インターネット企業はすべてが「魔法のようだ」とよく言います。しかし、そうではあり...

人工知能の3つの主要分野とその産業応用

人工知能は、人間の知能の拡張と拡大をシミュレートするための理論、方法、技術、アプリケーション システ...

GPT-4 に匹敵するオープンソース モデルがリークされました。ミストラルのボスが確認: 正式版はさらに強力になる

ミストラル・ミディアムが誤って漏洩した?以前は API 経由でのみ利用可能でしたが、そのパフォーマン...

人工知能を始める、現実的な仕事の選び方は?

[[235638]]人工知能は、誰もが「データ サイエンティスト」になるという、2、3 年前のビッ...

機械学習におけるアルゴリズムとモデルの違い

[[333414]]機械学習における「アルゴリズム」とは何ですか?機械学習における「アルゴリズム」と...

AIデータストレージデバイスを選択するための6つの重要な要素

人工知能 (AI) と機械学習は、企業がコアデジタル資産を活用して競争上の優位性を生み出すために役立...

米国の委員会は「道徳的義務」を理由にAI兵器の開発を禁止すべきではないと勧告した。

[[378901]]米政府の委員会は報告書草案の中で、米国は人工知能(AI)を搭載した自律型兵器の...

...

百度副社長の尹世明氏:人工知能のプライバシー問題は技術で解決できる

[[260878]] 「当社は、個人データへのアクセスを必要としないマルチパーティデータコンピューテ...

パリのノートルダム大聖堂の火災後、文化遺産の修復に AI 技術をどのように応用できるでしょうか?

[[262791]]それを受け入れるかどうかは別として、突然の火災でノートルダム大聖堂は焼け落ちた...