Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティングインフラストラクチャ

8月12日、Juliプロジェクトシリーズ活動の第21回「大規模言語モデルのトレーニングとアプリケーションの分析」共有セッションに、 Ant（計算知能技術部門）のRayチームのオープンソースリーダーであり、RayオープンソースコミュニティのコミッターであるSong Guyang氏が招待され、「Ray：大規模モデル時代のAIコンピューティングインフラストラクチャ」と題した技術共有を行いました。

Song Guyangの共有トピック: 「 Ray : ビッグモデル時代の AI コンピューティングインフラストラクチャ」。分散コンピューティングエンジンフレームワークである Ray について聞いたことがない人も多いかもしれません。その主な理由は、インフラストラクチャとしての Ray が製品の形で登場するのではなく、むしろ製品のサポートとして登場することが多いためです。

Ray がサポートする製品といえば、誰もが知っているはずです。たとえば、OpenAI です。今年、OpenAI は GPT シリーズ製品の基盤となるトレーニングに使用されるいくつかの分散コンピューティングフレームワークを公開しましたが、その中で Ray フレームワークの役割が強調されました。

1.レイの進化

Ray は、実は最初に作られたときは強化学習フレームワークとして作られました。時代が変わるにつれて、Ray にはより多くの機能が追加され、その位置づけも少しずつ変化してきました。Ray の開発の歴史を見てみましょう。

Rayは誕生から現在まで7年間の開発を経てきました。当初の強化学習の方向性から現在のAIの方向性に至るまで、Rayチームとそのオープンソースコミュニティも多大な努力を重ねてきました。その中でも、Song Guyang氏が勤務するAnt Groupは2017年からRayフレームワークをサポートとして採用し、Rayカーネルに26%以上のコードを提供してきました。そのため、Rayフレームワークは実際にAntのあらゆるシナリオに関わっており、Ant Groupもその開発に大きく貢献しています。

これまでのところ、Ray は AI 向けの新世代 AI コンピューティングフレームワークとして、また一般的な分散コンピューティングフレームワークとして位置付けられています。

Ray がコンピューティングシステムで解決する中心的な問題は、次の図にまとめることができます。

分散システム開発チームであれば、上の図の右側にあるような、非常に繰り返し発生する問題に直面することになります。これらの問題は、開発チーム全体の不要な経験を大量に消費します。Ray は、このような問題を解決するように設計されており、開発チームが一般的な問題ではなく、独自のビジネスシステムに重点を置くことができます。

2.レイのコアコンピテンシー

上記の共有者が提供した例の図から、Ray はコンピューティングタスク全体に対して強力な最適化を備えており、効率と機能性の両面で従来のクラウドネイティブコンピューティング方式をはるかに上回っていることがわかります。

Ray の大きな改善点は、その中核となる設計ポイントのいくつかと切り離すことはできません。