Sparkに代わると期待されるリアルタイム機械学習フレームワークRay

新しいプロジェクトは、Python で記述された機械学習アプリケーションをサポートするために使用できる、リアルタイム処理用のより高速なフレームワークを開発することを目的としています。

[[187895]]

カリフォルニア大学バークレー校のリアルタイムインテリジェントセキュア実行研究所 (RISELab) の研究者は、メッセージパッシングインターフェイス (MPI) のようなパフォーマンスときめ細かさで、Python ベースの機械学習およびディープラーニングワークロードのリアルタイム実行を可能にするように設計された新しい分散フレームワークを開発しました。 Rayと呼ばれるこのフレームワークは、現実世界のAIアプリケーションには遅すぎると考えられているSparkに代わるものとして準備が整っているようだ。Rayは1年以内に実用化される予定だ。

Ray は、カリフォルニア大学バークレー校の研究組織である RISELab から生まれた最初のテクノロジーの 1 つです。RISELab は、かつて成功を収めた AMPLab に代わる組織で、Spark、Mesos、Tachyon など、高性能コンピューティングやエンタープライズコンピューティングに影響を与えた魅力的な分散テクノロジーを多数開発しました。

AMPLab および現在は RISAab の顧問の 1 人であるコンピューターサイエンスの教授 Michael Jordan 氏は、最近、カリフォルニア州サンノゼで開催された Strata + Hadoop World カンファレンスで Ray の中核となる原則と推進要因について説明しました。

「Spark は、私の学生たちが Hadoop の悪さについて不満を言っていたために開発されました」と、ジョーダン氏は 3 月 16 日の基調講演で述べた。「彼らは、ロジスティック回帰などの操作を反復処理するときに直面する長い遅延について不満を言っていました。」

ジョーダン氏は続ける。「研究室の学生の一人、マテイ・ザハリアが彼らの不満を聞いて、『この問題の解決を手伝ってあげる。常にディスクにアクセスしなくてもいいようなキャッシュシステムを構築するよ』と言ったんです。それが Spark の始まりでした。」

ザハリア氏の学生たちは、Spark を開発した後、ザハリア氏が突然「重要かつ有名」になったことに気づいた。ザハリア氏はその後、データブリックスの共同設立者となり、カリフォルニア大学バークレー校のライバルであるスタンフォード大学の助教授になった。

「そこで、次世代のテクノロジーに目を向ける時が来たのです」とジョーダン氏は語る。「彼らは『私たちは決してシステム担当者にプロジェクトを任せるつもりはありません。自分たちでやるつもりです』と言いました。」そこで、この次のプロジェクトは機械学習の学生によって開発され、Spark に代わるものとして設計された。 ”

Ray は、RISELab の 2 人の博士、Philipp Moritz 氏と Robert Nishihara 氏によって開発されました。研究者たちは、現実世界の環境で機械学習やディープラーニングベースのアプリケーションを実行するために必要なさまざまな要素を組み合わせることができるフレームワークの構築に取り組んでいます。ジョーダン氏によると、研究者たちは、リアルタイムの意思決定を可能にするエンドツーエンドのシステムを実際に構築する方法を理解するために、アプリケーションを構成要素に分解したという。

「柔軟性が必要です。ニューラルネットワークなどを構築するだけでなく、計画、検索、シミュレーションも必要です。これにより、タスク間にあらゆる種類の複雑な依存関係が生じます。MapReduce タイプのパラダイムを記述するだけでは簡単ではありません。記述することはできますが、非常に異なる異種のワークロードとタスクがある場合、効率的に実行することはできません。システムは継続的に学習するため、アルゴリズムのパフォーマンスを適応させる必要があります。」

どうやらジョーダンは Spark に MapReduce スタイルのプログラミングを割り当てたようです。 Spark は MapReduce よりもはるかに高速ですが、MapReduce のバッチ指向のワークフローパラダイムのコア要素がいくつか残っています。 Ray は Spark で使用されている「ブロック同期」パラダイムを避け、より高速なパラダイムを採用していると彼は語った。

ジョーダン氏によると、Ray は非常に高速であるため、個々のタスクをわずかマイクロ秒の遅延で処理できるとのことです。また、一部のアプリケーションワークロードを CPU で実行し、他のワークロードを GPU で実行するなど、異機種ハードウェアも処理できます。 Ray には、これらすべてを調整する多数のスケジューラがあります。

また、高性能コンピューティング (HPC) 分野の人々が非常に高速に実行されるモデルやシミュレーションワークロードを構築するために使用する低レベルの分散プログラミング環境である MPI のタスク依存性プロパティも借用します。「私たちは実際にそのレベルのパフォーマンスを実現したいと考えています」とジョーダン氏は言う。「MPI を置き換えようとしているわけではありません。MPI と同等のパフォーマンスを、よりシンプルで強力、分散プラットフォームへの依存度が低い形で実現したいと考えています。」

Strata カンファレンスでのプレゼンテーションで、ジョーダン氏は、Ray がデジタルロボットの走行学習にどのように役立つかを示しました。

ジョーダンは、クラスター内の各ノードにコンピューティング状態を維持させますが、その状態は可能な限り少なくなり、安定性が最大化されます。「しかし、タスク間で共有できるステートフルな計算には注意が必要です」と同氏は付け加えた。「そして、当然のことながら、フォールトトレランスも必要ですし、データを簡単に共有できるようにシリアル化も行っていきます。」

Ray フレームワークは現在進行中ですが、まだ完成したプロジェクトではありません。興味のある方は、Github (https://github.com/ray-project/ray) でプロジェクトの初期ベータコードをご覧ください。

Ray は、自動運転や AI 支援医療などの新しい形態に必要な、現実世界のデータを使用した迅速な意思決定を必要とするさまざまなアプリケーションの開発に役立ちます。機械学習分野への貢献により「機械学習界のマイケル・ジョーダン」と呼ばれているジョーダン氏は、レイ氏の影響力は教師あり学習システムではなく強化学習の分野に及ぶと考えている。コンピュータビジョンや分類問題に対するディープラーニングやニューラルネットワークの台頭により、教師あり学習システムが普及してきました。

「実際の意思決定に近づき始めると、単に人間を模倣するのではなく、最善の意思決定を見つけたいと思うようになります」と彼は言いました。「それが強化学習パラダイムです。欠けているのは、強化学習に対する優れたシステムレベルのサポートです。」

Ray は C++ で書かれており、基本的には Python で開発された機械学習アルゴリズムの実行を高速化するように設計されています。

Python スクリプトはジョブを送信して実行し、Ray は Python の構文機能を使用してオブジェクトとジョブの実行方法を表します。関数に @ray.remote を追加すると、その関数はクラスター全体で非同期的に実行できることを示します。関数が実行されると、すぐにオブジェクト ID が返されます。このオブジェクト ID を後でクエリして、関数によって生成された最終結果を取得できます。 Ray のドキュメントでは、これを Python のリスト内包と組み合わせて一連の関数を実行し、結果を自動的に返す方法が示されています。

Ray はまだ初期ベータ段階ですが、機械学習の主要なタスクをサポートするために開発されていることは明らかです。ドキュメントに記載されている主な例には、ハイパーパラメータの最適化（機械学習フレームワークの一般的なワークロード）や、卓球をプレイするための AI ネットワークのトレーニングなどがあります。また、Ray を TensorFlow で使用する方法についても詳しく説明しており、ディープラーニングシステムで Ray のリモートオブジェクトモデルを活用するためのヒントもいくつか含まれています。

ジョーダン氏は、レイはまだ初期段階にあり、実稼働には対応していないが、1年以内には準備が整うはずだと述べた。「私たちはこれをできるだけ強力かつ安定したものにしようと努力していますが、同時に、刺激的な機械学習に関して学術界が達成しようとしていることにもできる限り準拠させようとしています」と彼は語った。

<<: 機械学習を学ぶ際に早い段階で知っておくべき3つのこと

>>: 人工知能技術はビッグデータに基づいていますか?

Sparkに代わると期待されるリアルタイム機械学習フレームワークRay

データサイエンティストもAIに置き換えられる可能性がある

人工知能が商業不動産業界にもたらす5つの変化

2021年も人気が続く5種類のロボット

アリババはどうやって1分で会話型ロボットを作ったのでしょうか?

Jetson - Nano Opencv の基本的な使用方法

2つのセッションが終了しました！自動運転に関する15の提案

国連の高レベル人工知能諮問機関が設立され、曽毅と張玲漢が専門家グループのメンバーに選ばれた。

任正非氏、人工知能の応用について語る：すべてをインテリジェントにしてはいけない、さもないとすべてが失敗する

大規模モデルを低コストで便利に使用するには？ Amazon Web Services が生成型 AI を実現する方法

世界人工知能会議が開幕。ジャック・マー、ロビン・リー、イーロン・マスクらは何を語ったのか？

推薦する

GPT-4V は驚くべきマルチモーダル機能を備えています。数式のスクリーンショットが直接コードを出力、「ドラゴンと魔法の世界」が瞬時に生成され、OpenAI社長が興奮して転送

ディープラーニングのこれらの概念をすべて理解できましたか? TF、TLT、TRT、DS....

35歳で機械学習と人工知能の分野に参入？

マスクとイリヤのプライベートメールがクロードによって解読され、OpenAIの暗号化された情報が公開され、Googleが損害を被った

中国と米国の差を縮め、人工知能開発の主導権を徐々に握る

サーバーレスコンピューティングによる機械学習の解決策は何でしょうか?

Evil GPT に新たなメンバーが加わりました: Dark Web には 3,000 を超えるサブスクリプションがあり、発行者の正体は依然として謎のままです。

テンセントがまた何か新しいことをやっています！たった一言で絵をアニメの主人公に変身させよう！

アリババがコアテクノロジーを公開：推論性能が2位より5倍速く、4つの世界選手権で優勝した方法

Google の最も強力な NLP モデル BERT はなぜこれほどクールで強力なのでしょうか?テンセントのプログラマーが最初から教えてくれる

ワン・ガン：人工知能は伝統的な産業の雇用の26％を置き換え、38％の新規雇用を創出する