モノのインターネット向けのデータストリーミング、AI、機械学習プラットフォームを構築する方法

[[342159]]

今日の IoT のユースケースでは、デバイスが生成した大量のデータを分析したり、機械学習アルゴリズムをリアルタイムで更新したりすることがますます重要になっています。患者のモニタリング、自動運転車、または予測メンテナンスアプリケーションからのデータがリアルタイムで取得、処理、および処理されない場合、患者が危害を受けたり、車両が衝突したり、システムが故障したりする可能性があります。

では、企業はどのようにしてコスト効率よく、大量のデータを大規模に取り込み、対応するための信頼性の高いプラットフォームを構築できるのでしょうか? 企業は、オープンソースソフトウェアスタック上に構築されたストリーミングプラットフォームとデータストレージシステムを使用してこれを実現できます。

今日のオープンソースソリューションの多くは、何千もの本番環境展開で信頼性があることが実証されています。商業企業の多くの製品では、エンタープライズレベルのサポートとコンサルティングサービスが利用可能であり、エンタープライズレベルのソリューションバージョンも提供される場合があります。これらのサポートされたソリューションにより、企業は多額の初期費用をかけずに IoT ソリューションを実装してデジタル変革の目標を達成できると同時に、信頼性が高く将来も対応可能なインフラストラクチャを企業に提供できます。

ここでは、今日の最も成功しているデジタル変革企業の多くで基盤となっているオープンソースソリューションの一部を紹介します。

ストリーミングデータ

Apache Kafka や Apache Flink などのオープンソースストリーミングソリューションは、IoT 展開においてシステムとアプリケーション間でデータを移動するためのリアルタイムデータパイプラインを構築するために使用されます。たとえば、患者モニタリングのユースケースでは、ストリーミングソリューションは、患者に接続された IoT センサーによって収集されたデータをプラットフォームに配信し、そこでデータを集約、分析、保存します。

Box、LinkedIn、Netflix、Oracle、Twitter は Kafka を使用しています。 Flink は、Alibaba、AWS、Capital One、eBay、Lyft の業務で使用されています。ただし、ストリーミングソリューションが大規模なリアルタイムビジネスプロセスをサポートするには、分散型インメモリコンピューティングプラットフォーム、コンテナー管理ソリューション、分析機能、機械学習機能などの他のテクノロジと統合する必要があります。

インメモリコンピューティング

Apache Ignite は、コモディティサーバーのクラスターに展開される分散型インメモリコンピューティングプラットフォームです。既存のアプリケーションとディスクベースのデータベースの間に挿入されるインメモリデータグリッドとして使用することも、新しいアプリケーション用のスタンドアロンのインメモリデータベースとして使用することもできます。 Ignite はクラスターの使用可能な CPU と RAM をプールし、データと計算を個々のノードに分散します。オンプレミス、パブリッククラウド、プライベートクラウド、ハイブリッド環境に導入できます。 Ignite は ANSI-99 SQL および ACID トランザクションをサポートします。

Ignite は大量のデータをリアルタイムで取り込むことができます。 Ignite はすべてのデータをメモリ内に保持し、MapReduce を使用して分散クラスター全体で超並列処理 (MPP) を実行します。 Ignite は、メモリ内データキャッシュと MPP を活用することで、ディスクベースのデータベースを使用するアプリケーションと比較して、アプリケーションのパフォーマンスを最大 1,000 倍まで向上させることができます。 Ignite ユーザーは、ネイティブの Kafka 統合を活用して、IoT デバイスからのストリーミングデータをインメモリコンピューティングクラスターに簡単に取り込むこともできます。

前回の記事で説明したように、Ignite を使用すると、複数のオンプレミスデータストア、クラウドベースのデータソース、ストリーミングデータソースからデータを集約して処理するためのデジタル統合ハブ (DIH) を構築できます。 DIH として、Ignite は、集約されたデータを複数のビジネスアプリケーションでリアルタイムに利用できるようにする高性能なデータアクセスレイヤーを提供します。 Apache Ignite は、American Airlines、IBM、ING、24 Hour Fitness などの本番環境で使用されています。

クラスター管理

Kubernetes は、Docker またはその他のコンテナソリューションでコンテナ化されたアプリケーションの展開と管理を自動化します。コンテナソリューションは、アプリケーションと仮想化されたオペレーティングシステムを含むソフトウェアパッケージを作成し、アプリケーションの複数の完全に独立したバージョンを同じハードウェア上または仮想化されたハードウェア間 (クラウドサービスなど) で実行できるようにします。 Kubernetes を使用すると、Docker コンテナの管理が容易になり、オンプレミス、パブリッククラウド、プライベートクラウド、ハイブリッド環境など、どこにでも展開できるサーバークラスター全体の一貫性を確保できます。

この API により、Kubernetes は Apache Ignite とストリーミングプラットフォームのリソースを管理し、IoT インメモリコンピューティングベースのクラスターを自動的にスケーリングできるようになります。管理が容易になると、複雑さ、エラー、開発時間が大幅に削減されます。 Kubernetes は、Booking.com、Capital One、Box、IBM、Sling の運用で使用されています。

分析と機械学習

ストリーミングプラットフォームパズルの最後のピースは、データに基づいて行動する能力です。分析ユースケースの場合、Apache Spark は大量のデータを処理および分析するための分散コンピューティングエンジンです。 Spark は、Apache Ignite インメモリコンピューティングプラットフォームを活用して、ストリーミングパイプラインを通じて取り込まれた大量のデータを迅速に分析できます。 Spark は Ignite をオンラインデータストアとして使用することもできるため、Spark ユーザーは既存の DataFrame または RDD にデータを追加し、Spark ジョブを再実行できます。 Spark を使用すると、分散コンピューティング環境で非構造化データに対する簡単なクエリを簡単に記述することもできます。 Spark はすでに Amazon、Credit Karma、eBay、NTT データ、Yahoo! などの業務で使用されています。

機械学習のユースケース向けに、Apache Ignite には、超並列処理に最適化された統合型で完全に分散された機械学習およびディープラーニングライブラリが含まれています。この統合により、企業は、インメモリコンピューティングクラスターの各ノード上のインメモリデータに対して機械学習またはディープラーニングアルゴリズムをローカルに実行する継続的な学習アプリケーションを作成できます。アルゴリズムをローカルで実行すると、ペタバイト規模であっても、新しいデータがノードに展開されるたびにモデルを継続的に更新できます。

<<: 機械学習を知っていれば十分でしょうか？次世代のデータサイエンティストは「フルスタック」へと移行しています。

>>: 450、バックトラッキングアルゴリズムとは何ですか? 一度見れば理解できますが、実際に書いてみると失敗します。