Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティング インフラストラクチャ

Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティング インフラストラクチャ

8月12日、Juliプロジェクトシリーズ活動の第21回「大規模言語モデルのトレーニングとアプリケーションの分析」共有セッションに、 Ant(計算知能技術部門)のRayチームのオープンソースリーダーであり、RayオープンソースコミュニティのコミッターであるSong Guyangが招待され、「Ray:大規模モデル時代のAIコンピューティングインフラストラクチャ」と題した技術共有を行いました。

Song Guyangの共有トピック: 「 Ray : ビッグモデル時代の AI コンピューティング インフラストラクチャ」。分散コンピューティング エンジン フレームワークである Ray について聞いたことがない人も多いかもしれません。その主な理由は、インフラストラクチャとしての Ray が製品の形で登場するのではなく、むしろ製品のサポートとして登場することが多いためです。

Ray がサポートする製品といえば、誰もが知っているはずです。たとえば、OpenAI です。今年、OpenAI は GPT シリーズ製品の基盤となるトレーニングに使用されるいくつかの分散コンピューティング フレームワークを公開しましたが、その中で Ray フレームワークの役割が強調されました。

1.レイの進化

Ray は、実は最初に作られたときは強化学習フレームワークとして作られました。時代が変わるにつれて、Ray にはより多くの機能が追加され、その位置づけも少しずつ変化してきました。Ray の開発の歴史を見てみましょう。

Rayは誕生から現在まで7年間の開発を経てきました。当初の強化学習の方向性から現在のAIの方向性に至るまで、Rayチームとそのオープンソースコミュニティも多大な努力を重ねてきました。その中でも、Song Guyang氏が勤務するAnt Groupは2017年からRayフレームワークをサポートとして採用し、Rayカーネルに26%以上のコードを提供してきました。そのため、Rayフレームワークは実際にAntのあらゆるシナリオに関わっており、Ant Groupもその開発に大きく貢献しています。

これまでのところ、Ray は AI 向けの新世代 AI コンピューティング フレームワークとして、また一般的な分散コンピューティング フレームワークとして位置付けられています。

Ray がコンピューティング システムで解決する中心的な問題は、次の図にまとめることができます。

分散システム開発チームであれば、上の図の右側にあるような、非常に繰り返し発生する問題に直面することになります。これらの問題は、開発チーム全体の不要な経験を大量に消費します。Ray は、このような問題を解決するように設計されており、開発チームが一般的な問題ではなく、独自のビジネス システムに重点を置くことができます。

2.レイのコアコンピテンシー

上記の共有者が提供した例の図から、Ray はコンピューティング タスク全体に対して強力な最適化を備えており、効率と機能性の両面で従来のクラウド ネイティブ コンピューティング方式をはるかに上回っていることがわかります。

Ray の大きな改善点は、その中核となる設計ポイントのいくつかと切り離すことはできません。

  1. 非制限コンピューティング モード: スタンドアロン プログラミングの基本概念を配布します。
  2. ステートレス コンピューティング ユニット: シンプルなアノテーションを通じて、ローカル メソッドをリモート マシン上で実行できます。
  3. ステートフル コンピューティング ユニット: サーバーレスと同様に、ローカル クラスをリモート マシンに簡単にデプロイできます。
  4. 分散オブジェクト: 複数のノード間でのオブジェクトの転送と自動ガベージコレクション。
  5. 多言語およびクロス言語: Ray は Java、Python、C++ をサポートし、クロス言語呼び出しを行うことができます。
  6. リソースのスケジューリング: CPU などの宣言型タスクに割り当てる必要があるリソースと、それらが同じノード上にあるかどうかを注釈付けします。
  7. 自動障害回復: すべての Ray コンポーネントには自動回復機能があります。ユーザーは基礎となる詳細を気にする必要はなく、実装を宣言するだけで済みます。
  8. ランタイム環境の依存関係: Tensorflow で Python 環境を要求するなど、さまざまなタスクに対して異なるランタイム環境を直接宣言できます。
  9. 運用と保守: 完全な運用と保守、監視機能、および視覚化ページ。

Ray には非常に多くの強力な機能が実装されていますが、そのアーキテクチャは非常にシンプルで効率的です。

Ray の具体的なアーキテクチャコラボレーション手法について詳しく知りたい場合は、公式ドキュメントを参照してください。ここでは詳しく説明しません。

3.レイのオープンソースエコシステムと事例

上の図は、Ray がサポートする AI エコシステムの全体像です。これは、市場にあるほぼすべての主流フレームワークをカバーしています。つまり、これらのフレームワークは Ray に簡単に統合できます。

これらのフレームワーク統合を通じて、Ray は AI パイプライン実行プロセス全体を次の 4 つの主要なステップに接続することもできます。

データ -> トレーニング -> チューニング -> 提供、これら 4 つのステップで分散トレーニングのすべての主要機能がカバーされます。

  1. データの前処理。
  2. ディープラーニング。
  3. ディープチューニング。
  4. オンライン推論。

Ray では、わずか数百行のコードで上記のすべての手順を完了できます。

オープンソースの大規模モデルトレーニングに関しては、Ray を使用した大規模プロジェクトも数多くあります。

エンタープライズ レベルのアプリケーションに関して言えば、最もよく知られているのは ChatGPT-4 です。

OpenAI 以外にも、Ray を深く活用している企業は世界中に数多くあります。

最後に、Rayフレームワークに興味がある場合は、公式Webサイトにアクセスして詳細を確認してください。

<<: 

>>:  エンタープライズデータ開発のための大規模言語モデル: 概念、懸念事項、ホットトピック

ブログ    

推薦する

JavaScript 面接でよくあるアルゴリズムの質問の詳細な説明

[[185725]] JavaScript での変数の昇格を説明するいわゆるプロモーションは、その名...

AI大学院生は年間50万元を稼ぐことができるが、彼らの給料は学校を卒業する前からすでに奪われている。

先週末、人工知能が素晴らしい動きを披露した。ボストン・ダイナミクスのロボット「アトラス」は完璧なバク...

2022年の展望: 自動化におけるイノベーションと機会

テクノロジーへの関心と導入が多様化するにつれ、多くの企業が将来の進路を決める岐路に立たされています。...

AI モデルにバックドアがある可能性があります。チューリング賞受賞者が53ページの論文を発表「悪意ある予測には注意」

「敵対的事例」は古くからある問題です。画像内の数ピクセルを変更するなど、通常のデータにわずかな外乱...

ICLR 2022|スピードこそすべて!完全なバイナリ化 BiBERT による超圧縮

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

「AI+教育」の試行錯誤に誰がお金を払うのか?

「AI+教育」の導入は簡単? 2016年はAI(人工知能)元年と言われています。この年、Alpha...

...

2021年4月の自動運転分野における重要な進展の概要

2021年に入ってから、自動運転分野の開発は着実に進展しており、4月には自動運転関連のさまざまな動き...

海外の詐欺師はAIを使ってテイラー・スウィフトの声を合成し、「無料のキッチン用品」の広告を偽造して詐欺行為を行った。

ニューヨーク・タイムズ紙は現地時間1月10日、ここ数週間、フェイスブックなどのプラットフォームに、ア...

世界をより高いレベルのイノベーションへと導く AI テクノロジー トップ 10

Analytics Insight は、世界を次のレベルのイノベーションに押し上げるトップ 10 ...

...

LLM-Blender: 大規模な言語モデルも学習に統合可能

最近、arxiv を見ていたときに、Ensemble メソッドを使用して大規模な言語モデルを統合でき...

2024 年のビッグデータ業界予測 (パート 4)

生成 AI は、すぐに過大な期待のピークから幻滅の谷間へと移行するでしょう。控えめに言っても、現在、...

...