Sparkに代わると期待されるリアルタイム機械学習フレームワークRay

Sparkに代わると期待されるリアルタイム機械学習フレームワークRay

新しいプロジェクトは、Python で記述された機械学習アプリケーションをサポートするために使用できる、リアルタイム処理用のより高速なフレームワークを開発することを目的としています。

[[187895]]

カリフォルニア大学バークレー校のリアルタイム インテリジェント セキュア実行研究所 (RISELab) の研究者は、メッセージ パッシング インターフェイス (MPI) のようなパフォーマンスときめ細かさで、Python ベースの機械学習およびディープラーニング ワークロードのリアルタイム実行を可能にするように設計された新しい分散フレームワークを開発しました。 Rayと呼ばれるこのフレームワークは、現実世界のAIアプリケーションには遅すぎると考えられているSparkに代わるものとして準備が整っているようだ。Rayは1年以内に実用化される予定だ。

Ray は、カリフォルニア大学バークレー校の研究組織である RISELab から生まれた最初のテクノロジーの 1 つです。RISELab は、かつて成功を収めた AMPLab に代わる組織で、Spark、Mesos、Tachyon など、高性能コンピューティングやエンタープライズ コンピューティングに影響を与えた魅力的な分散テクノロジーを多数開発しました。

AMPLab および現在は RISAab の顧問の 1 人であるコンピューター サイエンスの教授 Michael Jordan 氏は、最近、カリフォルニア州サンノゼで開催された Strata + Hadoop World カンファレンスで Ray の中核となる原則と推進要因について説明しました。

「Spark は、私の学生たちが Hadoop の悪さについて不満を言っていたために開発されました」と、ジョーダン氏は 3 月 16 日の基調講演で述べた。「彼らは、ロジスティック回帰などの操作を反復処理するときに直面する長い遅延について不満を言っていました。」

ジョーダン氏は続ける。「研究室の学生の一人、マテイ・ザハリアが彼らの不満を聞いて、『この問題の解決を手伝ってあげる。常にディスクにアクセスしなくてもいいようなキャッシュシステムを構築するよ』と言ったんです。それが Spark の始まりでした。」

ザハリア氏の学生たちは、Spark を開発した後、ザハリア氏が突然「重要かつ有名」になったことに気づいた。ザハリア氏はその後、データブリックスの共同設立者となり、カリフォルニア大学バークレー校のライバルであるスタンフォード大学の助教授になった。

「そこで、次世代のテクノロジーに目を向ける時が来たのです」とジョーダン氏は語る。「彼らは『私たちは決してシステム担当者にプロジェクトを任せるつもりはありません。自分たちでやるつもりです』と言いました。」そこで、この次のプロジェクトは機械学習の学生によって開発され、Spark に代わるものとして設計された。 ”

Ray は、RISELab の 2 人の博士、Philipp Moritz 氏と Robert Nishihara 氏によって開発されました。研究者たちは、現実世界の環境で機械学習やディープラーニングベースのアプリケーションを実行するために必要なさまざまな要素を組み合わせることができるフレームワークの構築に取り組んでいます。ジョーダン氏によると、研究者たちは、リアルタイムの意思決定を可能にするエンドツーエンドのシステムを実際に構築する方法を理解するために、アプリケーションを構成要素に分解したという。

「柔軟性が必要です。ニューラル ネットワークなどを構築するだけでなく、計画、検索、シミュレーションも必要です。これにより、タスク間にあらゆる種類の複雑な依存関係が生じます。MapReduce タイプのパラダイムを記述するだけでは簡単ではありません。記述することはできますが、非常に異なる異種のワークロードとタスクがある場合、効率的に実行することはできません。システムは継続的に学習するため、アルゴリズムのパフォーマンスを適応させる必要があります。」

どうやらジョーダンは Spark に MapReduce スタイルのプログラミングを割り当てたようです。 Spark は MapReduce よりもはるかに高速ですが、MapReduce のバッチ指向のワークフロー パラダイムのコア要素がいくつか残っています。 Ray は Spark で使用されている「ブロック同期」パラダイムを避け、より高速なパラダイムを採用していると彼は語った。

ジョーダン氏によると、Ray は非常に高速であるため、個々のタスクをわずかマイクロ秒の遅延で処理できるとのことです。また、一部のアプリケーション ワークロードを CPU で実行し、他のワークロードを GPU で実行するなど、異機種ハードウェアも処理できます。 Ray には、これらすべてを調整する多数のスケジューラがあります。

また、高性能コンピューティング (HPC) 分野の人々が非常に高速に実行されるモデルやシミュレーション ワークロードを構築するために使用する低レベルの分散プログラミング環境である MPI のタスク依存性プロパティも借用します。 「私たちは実際にそのレベルのパフォーマンスを実現したいと考えています」とジョーダン氏は言う。「MPI を置き換えようとしているわけではありません。MPI と同等のパフォーマンスを、よりシンプルで強力、分散プラットフォームへの依存度が低い形で実現したいと考えています。」

Strata カンファレンスでのプレゼンテーションで、ジョーダン氏は、Ray がデジタル ロボットの走行学習にどのように役立つかを示しました。

ジョーダンは、クラスター内の各ノードにコンピューティング状態を維持させますが、その状態は可能な限り少なくなり、安定性が最大化されます。 「しかし、タスク間で共有できるステートフルな計算には注意が必要です」と同氏は付け加えた。「そして、当然のことながら、フォールトトレランスも必要ですし、データを簡単に共有できるようにシリアル化も行っていきます。」

Ray フレームワークは現在進行中ですが、まだ完成したプロジェクトではありません。興味のある方は、Github (https://github.com/ray-project/ray) でプロジェクトの初期ベータ コードをご覧ください。

Ray は、自動運転や AI 支援医療などの新しい形態に必要な、現実世界のデータを使用した迅速な意思決定を必要とするさまざまなアプリケーションの開発に役立ちます。機械学習分野への貢献により「機械学習界のマイケル・ジョーダン」と呼ばれているジョーダン氏は、レイ氏の影響力は教師あり学習システムではなく強化学習の分野に及ぶと考えている。コンピュータビジョンや分類問題に対するディープラーニングやニューラルネットワークの台頭により、教師あり学習システムが普及してきました。

「実際の意思決定に近づき始めると、単に人間を模倣するのではなく、最善の意思決定を見つけたいと思うようになります」と彼は言いました。「それが強化学習パラダイムです。欠けているのは、強化学習に対する優れたシステムレベルのサポートです。」

Ray は C++ で書かれており、基本的には Python で開発された機械学習アルゴリズムの実行を高速化するように設計されています。

Python スクリプトはジョブを送信して実行し、Ray は Python の構文機能を使用してオブジェクトとジョブの実行方法を表します。関数に @ray.remote を追加すると、その関数はクラスター全体で非同期的に実行できることを示します。関数が実行されると、すぐにオブジェクト ID が返されます。このオブジェクト ID を後でクエリして、関数によって生成された最終結果を取得できます。 Ray のドキュメントでは、これを Python のリスト内包と組み合わせて一連の関数を実行し、結果を自動的に返す方法が示されています。

Ray はまだ初期ベータ段階ですが、機械学習の主要なタスクをサポートするために開発されていることは明らかです。ドキュメントに記載されている主な例には、ハイパーパラメータの最適化(機械学習フレームワークの一般的なワークロード)や、卓球をプレイするための AI ネットワークのトレーニングなどがあります。また、Ray を TensorFlow で使用する方法についても詳しく説明しており、ディープラーニング システムで Ray のリモート オブジェクト モデルを活用するためのヒントもいくつか含まれています。

ジョーダン氏は、レイはまだ初期段階にあり、実稼働には対応していないが、1年以内には準備が整うはずだと述べた。 「私たちはこれをできるだけ強力かつ安定したものにしようと努力していますが、同時に、刺激的な機械学習に関して学術界が達成しようとしていることにもできる限り準拠させようとしています」と彼は語った。

<<:  機械学習を学ぶ際に早い段階で知っておくべき3つのこと

>>:  人工知能技術はビッグデータに基づいていますか?

ブログ    

推薦する

画像をデジタル化して特徴を抽出するための、事前トレーニング済みのディープラーニングモデル6つ

[51CTO.com クイック翻訳] ユビキタスセンサーは毎日大量の画像を収集しており、人工知能技術...

ビッグデータAIベースのセキュリティシステムにおける倫理的偏見

「機械は人間を攻撃できるか?」という疑問は、世界中の会議やソーシャルチャットの議論のテーブルで浮上し...

変化する生活: テクノロジーと私たちの未来

私たちがテクノロジーによってますます、そして不可逆的に動かされている世界に生きていることは疑いの余地...

2023年雲奇会議開幕 アリババの蔡崇馨氏:AI時代の最もオープンなクラウドを構築

10月31日午前、杭州雲棲鎮で2023年雲棲会議が開幕した。アリババグループのジョセフ・ツァイ会長は...

看護ロボットは医療従事者の仕事に完全に取って代わることができるのでしょうか?

研究によると、共感と前向きな指導は、医師が患者の痛みを和らげ、術後の回復を早め、精神科薬の使用を減ら...

Nvidia は 5 億ドル相当の巨額注文を獲得しました。インドのデータセンターが H100/GH200 を一気に 16,000 台購入

Nvidia は大きな注文を受けるのでしょうか? 1 回のトランザクションには 16,000 個の ...

Alibaba Cloud がバッチおよびストリーム機械学習プラットフォーム Alink をオープンソース化し、アルゴリズム開発のハードルを下げる

11月28日、アリババクラウドは、世界初の統合バッチ・ストリームアルゴリズムプラットフォームでもある...

IEEEの論文では、画像強調を実現するための放射状変換を提案している

[[202259]]最近、「少量のデータによるニューラル ネットワークのトレーニング - ドラフト」...

ワンクリックで顔のピクセル画像を生成し、Animal Crossingにアップロードしましょう!このプロジェクトは楽しい

日本の独立系開発者佐藤氏はアスペルガー症候群のため学校を中退、退職。その後独学でAIを学び、AI画伯...

最適化されたアルゴリズムによる高度なデータ分析に視覚化を活用する 5 つのステップ

[[176522]]ほとんどの科学研究では、大量の実験データの統計分析は、通常、コンピューティングと...

明らかにした! BBC は 365 の職業を分析し、これが機械によって排除される可能性が最も低い職業であると判明しました。

この写真を見ると怖いと感じますか? [[211553]]これは、将来人間がロボットに物乞いをするよう...

今後 5 年以内にトラックは自動運転できるようになるでしょうか? 「人工知能の女王」はシノトラックでこの答えを出した

「人工知能の女王」ジャスティン・カッセル氏が済南の中国重汽で「人工知能と世界の未来経済」について講演...

脳も学習を強化しています! 「価値判断」は脳によって効率的にコード化され、ニューロンに公開される

[[437266]]私たち一人ひとりは、人生において、「今夜何を食べるか」「明日はどこに遊びに行くか...

新しい「心を読む」システムにより、音声合成が実際の人間の声に近づく

メディアCNETによると、新しい技術は脳の活動の大部分を合成音声に変換することができ、それによって話...