モノのインターネット向けのデータストリーミング、AI、機械学習プラットフォームを構築する方法

モノのインターネット向けのデータストリーミング、AI、機械学習プラットフォームを構築する方法

[[342159]]

今日の IoT のユースケースでは、デバイスが生成した大量のデータを分析したり、機械学習アルゴリズムをリアルタイムで更新したりすることがますます重要になっています。患者のモニタリング、自動運転車、または予測メンテナンス アプリケーションからのデータがリアルタイムで取得、処理、および処理されない場合、患者が危害を受けたり、車両が衝突したり、システムが故障したりする可能性があります。

では、企業はどのようにしてコスト効率よく、大量のデータを大規模に取り込み、対応するための信頼性の高いプラットフォームを構築できるのでしょうか? 企業は、オープンソース ソフトウェア スタック上に構築されたストリーミング プラットフォームとデータ ストレージ システムを使用してこれを実現できます。

今日のオープンソース ソリューションの多くは、何千もの本番環境展開で信頼性があることが実証されています。商業企業の多くの製品では、エンタープライズ レベルのサポートとコンサルティング サービスが利用可能であり、エンタープライズ レベルのソリューション バージョンも提供される場合があります。これらのサポートされたソリューションにより、企業は多額の初期費用をかけずに IoT ソリューションを実装してデジタル変革の目標を達成できると同時に、信頼性が高く将来も対応可能なインフラストラクチャを企業に提供できます。

ここでは、今日の最も成功しているデジタル変革企業の多くで基盤となっているオープンソース ソリューションの一部を紹介します。

ストリーミングデータ

Apache Kafka や Apache Flink などのオープンソース ストリーミング ソリューションは、IoT 展開においてシステムとアプリケーション間でデータを移動するためのリアルタイム データ パイプラインを構築するために使用されます。たとえば、患者モニタリングのユースケースでは、ストリーミング ソリューションは、患者に接続された IoT センサーによって収集されたデータをプラットフォームに配信し、そこでデータを集約、分析、保存します。

Box、LinkedIn、Netflix、Oracle、Twitter は Kafka を使用しています。 Flink は、Alibaba、AWS、Capital One、eBay、Lyft の業務で使用されています。ただし、ストリーミング ソリューションが大規模なリアルタイム ビジネス プロセスをサポートするには、分散型インメモリ コンピューティング プラットフォーム、コンテナー管理ソリューション、分析機能、機械学習機能などの他のテクノロジと統合する必要があります。

インメモリコンピューティング

Apache Ignite は、コモディティ サーバーのクラスターに展開される分散型インメモリ コンピューティング プラットフォームです。既存のアプリケーションとディスクベースのデータベースの間に挿入されるインメモリ データ グリッドとして使用することも、新しいアプリケーション用のスタンドアロンのインメモリ データベースとして使用することもできます。 Ignite はクラスターの使用可能な CPU と RAM をプールし、データと計算を個々のノードに分散します。オンプレミス、パブリック クラウド、プライベート クラウド、ハイブリッド環境に導入できます。 Ignite は ANSI-99 SQL および ACID トランザクションをサポートします。

Ignite は大量のデータをリアルタイムで取り込むことができます。 Ignite はすべてのデータをメモリ内に保持し、MapReduce を使用して分散クラスター全体で超並列処理 (MPP) を実行します。 Ignite は、メモリ内データ キャッシュと MPP を活用することで、ディスクベースのデータベースを使用するアプリケーションと比較して、アプリケーションのパフォーマンスを最大 1,000 倍まで向上させることができます。 Ignite ユーザーは、ネイティブの Kafka 統合を活用して、IoT デバイスからのストリーミング データをインメモリ コンピューティング クラスターに簡単に取り込むこともできます。

前回の記事で説明したように、Ignite を使用すると、複数のオンプレミス データ ストア、クラウドベースのデータ ソース、ストリーミング データ ソースからデータを集約して処理するためのデジタル統合ハブ (DIH) を構築できます。 DIH として、Ignite は、集約されたデータを複数のビジネス アプリケーションでリアルタイムに利用できるようにする高性能なデータ アクセス レイヤーを提供します。 Apache Ignite は、American Airlines、IBM、ING、24 Hour Fitness などの本番環境で使用されています。

クラスター管理

Kubernetes は、Docker またはその他のコンテナ ソリューションでコンテナ化されたアプリケーションの展開と管理を自動化します。コンテナ ソリューションは、アプリケーションと仮想化されたオペレーティング システムを含むソフトウェア パッケージを作成し、アプリケーションの複数の完全に独立したバージョンを同じハードウェア上または仮想化されたハードウェア間 (クラウド サービスなど) で実行できるようにします。 Kubernetes を使用すると、Docker コンテナの管理が容易になり、オンプレミス、パブリック クラウド、プライベート クラウド、ハイブリッド環境など、どこにでも展開できるサーバー クラスター全体の一貫性を確保できます。

この API により、Kubernetes は Apache Ignite とストリーミング プラットフォームのリソースを管理し、IoT インメモリ コンピューティング ベースのクラスターを自動的にスケーリングできるようになります。管理が容易になると、複雑さ、エラー、開発時間が大幅に削減されます。 Kubernetes は、Booking.com、Capital One、Box、IBM、Sling の運用で使用されています。

分析と機械学習

ストリーミング プラットフォーム パズルの最後のピースは、データに基づいて行動する能力です。分析ユースケースの場合、Apache Spark は大量のデータを処理および分析するための分散コンピューティング エンジンです。 Spark は、Apache Ignite インメモリ コンピューティング プラットフォームを活用して、ストリーミング パイプラインを通じて取り込まれた大量のデータを迅速に分析できます。 Spark は Ignite をオンライン データ ストアとして使用することもできるため、Spark ユーザーは既存の DataFrame または RDD にデータを追加し、Spark ジョブを再実行できます。 Spark を使用すると、分散コンピューティング環境で非構造化データに対する簡単なクエリを簡単に記述することもできます。 Spark はすでに Amazon、Credit Karma、eBay、NTT データ、Yahoo! などの業務で使用されています。

機械学習のユースケース向けに、Apache Ignite には、超並列処理に最適化された統合型で完全に分散された機械学習およびディープラーニング ライブラリが含まれています。この統合により、企業は、インメモリ コンピューティング クラスターの各ノード上のインメモリ データに対して機械学習またはディープラーニング アルゴリズムをローカルに実行する継続的な学習アプリケーションを作成できます。アルゴリズムをローカルで実行すると、ペタバイト規模であっても、新しいデータがノードに展開されるたびにモデルを継続的に更新できます。

<<:  機械学習を知っていれば十分でしょうか?次世代のデータ サイエンティストは「フル スタック」へと移行しています。

>>:  450、バックトラッキング アルゴリズムとは何ですか? 一度見れば理解できますが、実際に書いてみると失敗します。

ブログ    
ブログ    
ブログ    

推薦する

サプライチェーン管理における AI イノベーションを活用するために従業員を再教育する方法

サプライチェーン管理は最適化ゲームです。 AI の導入により、企業は最適な成果の達成にさらに注力でき...

Midjourneyに匹敵します!なぜミャオヤカメラは突然人気が出たのでしょうか?

編纂者:ユン・ジャオ、ワン・ルイピン、ノア「家族の写真がついに出てきました…」最近、ミャオヤカメラの...

Googleが絵画におけるAI使用の権利を取り戻す、ネットユーザー「DALL・E 2は発売からわずか1ヶ月で時代遅れ?」

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

自動化によってセキュリティアナリストがいなくなる可能性はありますか?

否定できない現実として、私たちは自動化の時代に入り、それに伴い人工知能 (AI)、機械学習 (ML)...

人工知能オンライン機能システムのデータアクセス技術

1. オンライン機能システム主流のインターネット製品では、古典的な計算広告、検索、推奨から、垂直分野...

人工知能と機械学習の違いと影響は何ですか?

人工知能と機械学習は、意思決定を行うコンピューターが部署や課全体に取って代わる世界を思い起こさせます...

7つの主要カテゴリ、40を超える主要概念、機械学習を始める際に習得する必要があるすべての概念がここにあります

勉強すると、学んだことを忘れてしまい、忘れた後にまた学ぶという悪循環に陥ってしまう、そんな気持ちにな...

電気自動車や自動運転の普及にはエネルギー補給技術の限界を乗り越えなければならない

電気による輸送はますます多様化しています。そして、それは地球規模の持続可能な開発の文脈において重要な...

【アルゴリズム】アルゴリズムを理解する(I)—アルゴリズムの時間計算量と空間計算量

[[407579]]序文大企業の秋季採用の先行スタートが始まっており、新卒採用の秋季大幅強化の警鐘が...

ネイチャー長文記事:AIのブラックボックスを破るための「長期戦」

2020年2月、COVID-19が世界中で急速に広がり、抗原検査の入手が困難になったため、一部の医...

ディープラーニングの「ディープ」とはどういう意味ですか?

ディープラーニングの「深さ」については、ここ数年で多くの議論がなされてきました。私の周りではさまざま...

...

...

AIがサイバーセキュリティに与える影響は拡大

IT 業界で今最もホットな話題は何かと尋ねられたら、人工知能 (AI) 以外の答えを言う人はほとんど...

世界的なサプライチェーンの混乱はロボットの導入をどのように促進するのでしょうか?

企業がより強力な管理を維持し、コストのかかる混乱を回避しようとする中、製造拠点の国内移転とサプライチ...