モノのインターネット向けのデータストリーミング、AI、機械学習プラットフォームを構築する方法

モノのインターネット向けのデータストリーミング、AI、機械学習プラットフォームを構築する方法

[[342159]]

今日の IoT のユースケースでは、デバイスが生成した大量のデータを分析したり、機械学習アルゴリズムをリアルタイムで更新したりすることがますます重要になっています。患者のモニタリング、自動運転車、または予測メンテナンス アプリケーションからのデータがリアルタイムで取得、処理、および処理されない場合、患者が危害を受けたり、車両が衝突したり、システムが故障したりする可能性があります。

では、企業はどのようにしてコスト効率よく、大量のデータを大規模に取り込み、対応するための信頼性の高いプラットフォームを構築できるのでしょうか? 企業は、オープンソース ソフトウェア スタック上に構築されたストリーミング プラットフォームとデータ ストレージ システムを使用してこれを実現できます。

今日のオープンソース ソリューションの多くは、何千もの本番環境展開で信頼性があることが実証されています。商業企業の多くの製品では、エンタープライズ レベルのサポートとコンサルティング サービスが利用可能であり、エンタープライズ レベルのソリューション バージョンも提供される場合があります。これらのサポートされたソリューションにより、企業は多額の初期費用をかけずに IoT ソリューションを実装してデジタル変革の目標を達成できると同時に、信頼性が高く将来も対応可能なインフラストラクチャを企業に提供できます。

ここでは、今日の最も成功しているデジタル変革企業の多くで基盤となっているオープンソース ソリューションの一部を紹介します。

ストリーミングデータ

Apache Kafka や Apache Flink などのオープンソース ストリーミング ソリューションは、IoT 展開においてシステムとアプリケーション間でデータを移動するためのリアルタイム データ パイプラインを構築するために使用されます。たとえば、患者モニタリングのユースケースでは、ストリーミング ソリューションは、患者に接続された IoT センサーによって収集されたデータをプラットフォームに配信し、そこでデータを集約、分析、保存します。

Box、LinkedIn、Netflix、Oracle、Twitter は Kafka を使用しています。 Flink は、Alibaba、AWS、Capital One、eBay、Lyft の業務で使用されています。ただし、ストリーミング ソリューションが大規模なリアルタイム ビジネス プロセスをサポートするには、分散型インメモリ コンピューティング プラットフォーム、コンテナー管理ソリューション、分析機能、機械学習機能などの他のテクノロジと統合する必要があります。

インメモリコンピューティング

Apache Ignite は、コモディティ サーバーのクラスターに展開される分散型インメモリ コンピューティング プラットフォームです。既存のアプリケーションとディスクベースのデータベースの間に挿入されるインメモリ データ グリッドとして使用することも、新しいアプリケーション用のスタンドアロンのインメモリ データベースとして使用することもできます。 Ignite はクラスターの使用可能な CPU と RAM をプールし、データと計算を個々のノードに分散します。オンプレミス、パブリック クラウド、プライベート クラウド、ハイブリッド環境に導入できます。 Ignite は ANSI-99 SQL および ACID トランザクションをサポートします。

Ignite は大量のデータをリアルタイムで取り込むことができます。 Ignite はすべてのデータをメモリ内に保持し、MapReduce を使用して分散クラスター全体で超並列処理 (MPP) を実行します。 Ignite は、メモリ内データ キャッシュと MPP を活用することで、ディスクベースのデータベースを使用するアプリケーションと比較して、アプリケーションのパフォーマンスを最大 1,000 倍まで向上させることができます。 Ignite ユーザーは、ネイティブの Kafka 統合を活用して、IoT デバイスからのストリーミング データをインメモリ コンピューティング クラスターに簡単に取り込むこともできます。

前回の記事で説明したように、Ignite を使用すると、複数のオンプレミス データ ストア、クラウドベースのデータ ソース、ストリーミング データ ソースからデータを集約して処理するためのデジタル統合ハブ (DIH) を構築できます。 DIH として、Ignite は、集約されたデータを複数のビジネス アプリケーションでリアルタイムに利用できるようにする高性能なデータ アクセス レイヤーを提供します。 Apache Ignite は、American Airlines、IBM、ING、24 Hour Fitness などの本番環境で使用されています。

クラスター管理

Kubernetes は、Docker またはその他のコンテナ ソリューションでコンテナ化されたアプリケーションの展開と管理を自動化します。コンテナ ソリューションは、アプリケーションと仮想化されたオペレーティング システムを含むソフトウェア パッケージを作成し、アプリケーションの複数の完全に独立したバージョンを同じハードウェア上または仮想化されたハードウェア間 (クラウド サービスなど) で実行できるようにします。 Kubernetes を使用すると、Docker コンテナの管理が容易になり、オンプレミス、パブリック クラウド、プライベート クラウド、ハイブリッド環境など、どこにでも展開できるサーバー クラスター全体の一貫性を確保できます。

この API により、Kubernetes は Apache Ignite とストリーミング プラットフォームのリソースを管理し、IoT インメモリ コンピューティング ベースのクラスターを自動的にスケーリングできるようになります。管理が容易になると、複雑さ、エラー、開発時間が大幅に削減されます。 Kubernetes は、Booking.com、Capital One、Box、IBM、Sling の運用で使用されています。

分析と機械学習

ストリーミング プラットフォーム パズルの最後のピースは、データに基づいて行動する能力です。分析ユースケースの場合、Apache Spark は大量のデータを処理および分析するための分散コンピューティング エンジンです。 Spark は、Apache Ignite インメモリ コンピューティング プラットフォームを活用して、ストリーミング パイプラインを通じて取り込まれた大量のデータを迅速に分析できます。 Spark は Ignite をオンライン データ ストアとして使用することもできるため、Spark ユーザーは既存の DataFrame または RDD にデータを追加し、Spark ジョブを再実行できます。 Spark を使用すると、分散コンピューティング環境で非構造化データに対する簡単なクエリを簡単に記述することもできます。 Spark はすでに Amazon、Credit Karma、eBay、NTT データ、Yahoo! などの業務で使用されています。

機械学習のユースケース向けに、Apache Ignite には、超並列処理に最適化された統合型で完全に分散された機械学習およびディープラーニング ライブラリが含まれています。この統合により、企業は、インメモリ コンピューティング クラスターの各ノード上のインメモリ データに対して機械学習またはディープラーニング アルゴリズムをローカルに実行する継続的な学習アプリケーションを作成できます。アルゴリズムをローカルで実行すると、ペタバイト規模であっても、新しいデータがノードに展開されるたびにモデルを継続的に更新できます。

<<:  機械学習を知っていれば十分でしょうか?次世代のデータ サイエンティストは「フル スタック」へと移行しています。

>>:  450、バックトラッキング アルゴリズムとは何ですか? 一度見れば理解できますが、実際に書いてみると失敗します。

ブログ    
ブログ    
ブログ    

推薦する

無料の Python 機械学習コース 1: 線形回帰アルゴリズム

最も基本的な機械学習アルゴリズムは、単一の変数を持つ線形回帰アルゴリズムです。現在、非常に多くの高度...

5G の出現はフェデレーテッド ラーニングにどのような影響を与えるでしょうか?

世界中の開発チームが AI ツールの作成を急いでいるため、エッジ デバイスでのアルゴリズムのトレーニ...

人工知能音声ジェネレーター、この10個で十分です

翻訳者 | カン・シャオジン校正 | 梁哲、孫淑娟今日の人工知能の世界では、想像できるあらゆる音は簡...

...

AIが光子の時間を3D画像に変換し、時間の経過による世界を視覚化する

[[337082]]最近、グラスゴー大学コンピューティング科学学部のデータサイエンス研究者であるアレ...

Apache Flink トークシリーズ - PyFlink のコアテクノロジーを公開

皆さんこんにちは。本日のサミットで Apache PyFlink のコア技術を皆さんと共有できること...

何が足りないのでしょうか?現在の機械学習教育の欠点

[[347910]]ビッグデータダイジェスト制作出典: thegradient編集者: フィッシャー...

UiPath、業界初のエンドツーエンドのハイパーオートメーションプラットフォームを発表

[[326225]] 「すべての人にロボットを」というビジョンを掲げ、エンタープライズ向けロボティッ...

絶対確実な協働ロボット

人間とロボットが協力して協働ロボットを作る[[321860]]協働ロボットは人間と対話し、協働するよ...

変革の成功を推進する 4 つの AI コア原則

新しいプロジェクトは従業員に恐怖心を引き起こす可能性があり、変更が導入される全体的な文化は、その恐怖...

資本の饗宴は続く:2021年上半期の生体認証分野における資金調達のレビュー

近年、5Gが話題になっていますが、AIはまだ時代遅れになっていません。特に、インターネットが普及し、...

ジェネレーティブ AI: 誇大宣伝以上の価値を生み出す 3 つの重要な要素

最近、ガートナーは、生成型人工知能 (GenAI) を新興技術の誇大宣伝サイクルにおける「過大な期待...

...

MIT、「上級数学」ソルバーの強化版をリリース:7つのコースの正解率は81%

AIは小学校の算数の文章題を解くだけでなく、高度な数学にも取り組み始めています。最近、MIT の研...

マイクロソフトが新たな特許を取得: 移動中のダイナミックなドローン配達システム

海外メディアNeowinによると、マイクロソフトが取得した最新の一連の特許の中に、潜在的な新しい配信...