Sparkに代わると期待されるリアルタイム機械学習フレームワークRay

Sparkに代わると期待されるリアルタイム機械学習フレームワークRay

新しいプロジェクトは、Python で記述された機械学習アプリケーションをサポートするために使用できる、リアルタイム処理用のより高速なフレームワークを開発することを目的としています。

[[187895]]

カリフォルニア大学バークレー校のリアルタイム インテリジェント セキュア実行研究所 (RISELab) の研究者は、メッセージ パッシング インターフェイス (MPI) のようなパフォーマンスときめ細かさで、Python ベースの機械学習およびディープラーニング ワークロードのリアルタイム実行を可能にするように設計された新しい分散フレームワークを開発しました。 Rayと呼ばれるこのフレームワークは、現実世界のAIアプリケーションには遅すぎると考えられているSparkに代わるものとして準備が整っているようだ。Rayは1年以内に実用化される予定だ。

Ray は、カリフォルニア大学バークレー校の研究組織である RISELab から生まれた最初のテクノロジーの 1 つです。RISELab は、かつて成功を収めた AMPLab に代わる組織で、Spark、Mesos、Tachyon など、高性能コンピューティングやエンタープライズ コンピューティングに影響を与えた魅力的な分散テクノロジーを多数開発しました。

AMPLab および現在は RISAab の顧問の 1 人であるコンピューター サイエンスの教授 Michael Jordan 氏は、最近、カリフォルニア州サンノゼで開催された Strata + Hadoop World カンファレンスで Ray の中核となる原則と推進要因について説明しました。

「Spark は、私の学生たちが Hadoop の悪さについて不満を言っていたために開発されました」と、ジョーダン氏は 3 月 16 日の基調講演で述べた。「彼らは、ロジスティック回帰などの操作を反復処理するときに直面する長い遅延について不満を言っていました。」

ジョーダン氏は続ける。「研究室の学生の一人、マテイ・ザハリアが彼らの不満を聞いて、『この問題の解決を手伝ってあげる。常にディスクにアクセスしなくてもいいようなキャッシュシステムを構築するよ』と言ったんです。それが Spark の始まりでした。」

ザハリア氏の学生たちは、Spark を開発した後、ザハリア氏が突然「重要かつ有名」になったことに気づいた。ザハリア氏はその後、データブリックスの共同設立者となり、カリフォルニア大学バークレー校のライバルであるスタンフォード大学の助教授になった。

「そこで、次世代のテクノロジーに目を向ける時が来たのです」とジョーダン氏は語る。「彼らは『私たちは決してシステム担当者にプロジェクトを任せるつもりはありません。自分たちでやるつもりです』と言いました。」そこで、この次のプロジェクトは機械学習の学生によって開発され、Spark に代わるものとして設計された。 ”

Ray は、RISELab の 2 人の博士、Philipp Moritz 氏と Robert Nishihara 氏によって開発されました。研究者たちは、現実世界の環境で機械学習やディープラーニングベースのアプリケーションを実行するために必要なさまざまな要素を組み合わせることができるフレームワークの構築に取り組んでいます。ジョーダン氏によると、研究者たちは、リアルタイムの意思決定を可能にするエンドツーエンドのシステムを実際に構築する方法を理解するために、アプリケーションを構成要素に分解したという。

「柔軟性が必要です。ニューラル ネットワークなどを構築するだけでなく、計画、検索、シミュレーションも必要です。これにより、タスク間にあらゆる種類の複雑な依存関係が生じます。MapReduce タイプのパラダイムを記述するだけでは簡単ではありません。記述することはできますが、非常に異なる異種のワークロードとタスクがある場合、効率的に実行することはできません。システムは継続的に学習するため、アルゴリズムのパフォーマンスを適応させる必要があります。」

どうやらジョーダンは Spark に MapReduce スタイルのプログラミングを割り当てたようです。 Spark は MapReduce よりもはるかに高速ですが、MapReduce のバッチ指向のワークフロー パラダイムのコア要素がいくつか残っています。 Ray は Spark で使用されている「ブロック同期」パラダイムを避け、より高速なパラダイムを採用していると彼は語った。

ジョーダン氏によると、Ray は非常に高速であるため、個々のタスクをわずかマイクロ秒の遅延で処理できるとのことです。また、一部のアプリケーション ワークロードを CPU で実行し、他のワークロードを GPU で実行するなど、異機種ハードウェアも処理できます。 Ray には、これらすべてを調整する多数のスケジューラがあります。

また、高性能コンピューティング (HPC) 分野の人々が非常に高速に実行されるモデルやシミュレーション ワークロードを構築するために使用する低レベルの分散プログラミング環境である MPI のタスク依存性プロパティも借用します。 「私たちは実際にそのレベルのパフォーマンスを実現したいと考えています」とジョーダン氏は言う。「MPI を置き換えようとしているわけではありません。MPI と同等のパフォーマンスを、よりシンプルで強力、分散プラットフォームへの依存度が低い形で実現したいと考えています。」

Strata カンファレンスでのプレゼンテーションで、ジョーダン氏は、Ray がデジタル ロボットの走行学習にどのように役立つかを示しました。

ジョーダンは、クラスター内の各ノードにコンピューティング状態を維持させますが、その状態は可能な限り少なくなり、安定性が最大化されます。 「しかし、タスク間で共有できるステートフルな計算には注意が必要です」と同氏は付け加えた。「そして、当然のことながら、フォールトトレランスも必要ですし、データを簡単に共有できるようにシリアル化も行っていきます。」

Ray フレームワークは現在進行中ですが、まだ完成したプロジェクトではありません。興味のある方は、Github (https://github.com/ray-project/ray) でプロジェクトの初期ベータ コードをご覧ください。

Ray は、自動運転や AI 支援医療などの新しい形態に必要な、現実世界のデータを使用した迅速な意思決定を必要とするさまざまなアプリケーションの開発に役立ちます。機械学習分野への貢献により「機械学習界のマイケル・ジョーダン」と呼ばれているジョーダン氏は、レイ氏の影響力は教師あり学習システムではなく強化学習の分野に及ぶと考えている。コンピュータビジョンや分類問題に対するディープラーニングやニューラルネットワークの台頭により、教師あり学習システムが普及してきました。

「実際の意思決定に近づき始めると、単に人間を模倣するのではなく、最善の意思決定を見つけたいと思うようになります」と彼は言いました。「それが強化学習パラダイムです。欠けているのは、強化学習に対する優れたシステムレベルのサポートです。」

Ray は C++ で書かれており、基本的には Python で開発された機械学習アルゴリズムの実行を高速化するように設計されています。

Python スクリプトはジョブを送信して実行し、Ray は Python の構文機能を使用してオブジェクトとジョブの実行方法を表します。関数に @ray.remote を追加すると、その関数はクラスター全体で非同期的に実行できることを示します。関数が実行されると、すぐにオブジェクト ID が返されます。このオブジェクト ID を後でクエリして、関数によって生成された最終結果を取得できます。 Ray のドキュメントでは、これを Python のリスト内包と組み合わせて一連の関数を実行し、結果を自動的に返す方法が示されています。

Ray はまだ初期ベータ段階ですが、機械学習の主要なタスクをサポートするために開発されていることは明らかです。ドキュメントに記載されている主な例には、ハイパーパラメータの最適化(機械学習フレームワークの一般的なワークロード)や、卓球をプレイするための AI ネットワークのトレーニングなどがあります。また、Ray を TensorFlow で使用する方法についても詳しく説明しており、ディープラーニング システムで Ray のリモート オブジェクト モデルを活用するためのヒントもいくつか含まれています。

ジョーダン氏は、レイはまだ初期段階にあり、実稼働には対応していないが、1年以内には準備が整うはずだと述べた。 「私たちはこれをできるだけ強力かつ安定したものにしようと努力していますが、同時に、刺激的な機械学習に関して学術界が達成しようとしていることにもできる限り準拠させようとしています」と彼は語った。

<<:  機械学習を学ぶ際に早い段階で知っておくべき3つのこと

>>:  人工知能技術はビッグデータに基づいていますか?

推薦する

...

ディープラーニングのこれらの概念をすべて理解できましたか? TF、TLT、TRT、DS....

最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...

35歳で機械学習と人工知能の分野に参入?

最近、友人とこの問題について話し合っています。ご存知のとおり、IT 業界は標準的な「若者の仕事」です...

...

...

マスクとイリヤのプライベートメールがクロードによって解読され、OpenAIの暗号化された情報が公開され、Googleが損害を被った

OpenAIとマスク氏は激しく議論していたが、誤ってClaude 3の新しいスキルを公開してしまった...

中国と米国の差を縮め、人工知能開発の主導権を徐々に握る

60年以上の発展を経て、人工知能は人々の仕事や日常生活に入り込み、影響を与えており、新たな一般技術と...

サーバーレス コンピューティングによる機械学習の解決策は何でしょうか?

1. 機械学習とサーバーレス学習1.1. 機械学習 (ML) はアプリケーション シナリオでどのよ...

Evil GPT に新たなメンバーが加わりました: Dark Web には 3,000 を超えるサブスクリプションがあり、発行者の正体は依然として謎のままです。

著者: 徐潔成物事の表面と内部の性質の間には常に微妙な境界線があります。過去数か月間、私たちは人工知...

...

テンセントがまた何か新しいことをやっています!たった一言で絵をアニメの主人公に変身させよう!

執筆者 | Qingzhu制作:51CTO テクノロジースタック(WeChat ID:blog) 2...

アリババがコアテクノロジーを公開:推論性能が2位より5倍速く、4つの世界選手権で優勝した方法

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Google の最も強力な NLP モデル BERT はなぜこれほどクールで強力なのでしょうか?テンセントのプログラマーが最初から教えてくれる

1. 背景検索シナリオでは、ユーザーの検索クエリと思い出された記事のタイトルとの関連性は、ユーザーの...

ワン・ガン:人工知能は伝統的な産業の雇用の26%を置き換え、38%の新規雇用を創出する

[[265464]]人工知能の応用分野はさらに充実し、インテリジェント製造、インテリジェント運転、ス...