モノのインターネット向けのデータストリーミング、AI、機械学習プラットフォームを構築する方法

モノのインターネット向けのデータストリーミング、AI、機械学習プラットフォームを構築する方法

[[342159]]

今日の IoT のユースケースでは、デバイスが生成した大量のデータを分析したり、機械学習アルゴリズムをリアルタイムで更新したりすることがますます重要になっています。患者のモニタリング、自動運転車、または予測メンテナンス アプリケーションからのデータがリアルタイムで取得、処理、および処理されない場合、患者が危害を受けたり、車両が衝突したり、システムが故障したりする可能性があります。

では、企業はどのようにしてコスト効率よく、大量のデータを大規模に取り込み、対応するための信頼性の高いプラットフォームを構築できるのでしょうか? 企業は、オープンソース ソフトウェア スタック上に構築されたストリーミング プラットフォームとデータ ストレージ システムを使用してこれを実現できます。

今日のオープンソース ソリューションの多くは、何千もの本番環境展開で信頼性があることが実証されています。商業企業の多くの製品では、エンタープライズ レベルのサポートとコンサルティング サービスが利用可能であり、エンタープライズ レベルのソリューション バージョンも提供される場合があります。これらのサポートされたソリューションにより、企業は多額の初期費用をかけずに IoT ソリューションを実装してデジタル変革の目標を達成できると同時に、信頼性が高く将来も対応可能なインフラストラクチャを企業に提供できます。

ここでは、今日の最も成功しているデジタル変革企業の多くで基盤となっているオープンソース ソリューションの一部を紹介します。

ストリーミングデータ

Apache Kafka や Apache Flink などのオープンソース ストリーミング ソリューションは、IoT 展開においてシステムとアプリケーション間でデータを移動するためのリアルタイム データ パイプラインを構築するために使用されます。たとえば、患者モニタリングのユースケースでは、ストリーミング ソリューションは、患者に接続された IoT センサーによって収集されたデータをプラットフォームに配信し、そこでデータを集約、分析、保存します。

Box、LinkedIn、Netflix、Oracle、Twitter は Kafka を使用しています。 Flink は、Alibaba、AWS、Capital One、eBay、Lyft の業務で使用されています。ただし、ストリーミング ソリューションが大規模なリアルタイム ビジネス プロセスをサポートするには、分散型インメモリ コンピューティング プラットフォーム、コンテナー管理ソリューション、分析機能、機械学習機能などの他のテクノロジと統合する必要があります。

インメモリコンピューティング

Apache Ignite は、コモディティ サーバーのクラスターに展開される分散型インメモリ コンピューティング プラットフォームです。既存のアプリケーションとディスクベースのデータベースの間に挿入されるインメモリ データ グリッドとして使用することも、新しいアプリケーション用のスタンドアロンのインメモリ データベースとして使用することもできます。 Ignite はクラスターの使用可能な CPU と RAM をプールし、データと計算を個々のノードに分散します。オンプレミス、パブリック クラウド、プライベート クラウド、ハイブリッド環境に導入できます。 Ignite は ANSI-99 SQL および ACID トランザクションをサポートします。

Ignite は大量のデータをリアルタイムで取り込むことができます。 Ignite はすべてのデータをメモリ内に保持し、MapReduce を使用して分散クラスター全体で超並列処理 (MPP) を実行します。 Ignite は、メモリ内データ キャッシュと MPP を活用することで、ディスクベースのデータベースを使用するアプリケーションと比較して、アプリケーションのパフォーマンスを最大 1,000 倍まで向上させることができます。 Ignite ユーザーは、ネイティブの Kafka 統合を活用して、IoT デバイスからのストリーミング データをインメモリ コンピューティング クラスターに簡単に取り込むこともできます。

前回の記事で説明したように、Ignite を使用すると、複数のオンプレミス データ ストア、クラウドベースのデータ ソース、ストリーミング データ ソースからデータを集約して処理するためのデジタル統合ハブ (DIH) を構築できます。 DIH として、Ignite は、集約されたデータを複数のビジネス アプリケーションでリアルタイムに利用できるようにする高性能なデータ アクセス レイヤーを提供します。 Apache Ignite は、American Airlines、IBM、ING、24 Hour Fitness などの本番環境で使用されています。

クラスター管理

Kubernetes は、Docker またはその他のコンテナ ソリューションでコンテナ化されたアプリケーションの展開と管理を自動化します。コンテナ ソリューションは、アプリケーションと仮想化されたオペレーティング システムを含むソフトウェア パッケージを作成し、アプリケーションの複数の完全に独立したバージョンを同じハードウェア上または仮想化されたハードウェア間 (クラウド サービスなど) で実行できるようにします。 Kubernetes を使用すると、Docker コンテナの管理が容易になり、オンプレミス、パブリック クラウド、プライベート クラウド、ハイブリッド環境など、どこにでも展開できるサーバー クラスター全体の一貫性を確保できます。

この API により、Kubernetes は Apache Ignite とストリーミング プラットフォームのリソースを管理し、IoT インメモリ コンピューティング ベースのクラスターを自動的にスケーリングできるようになります。管理が容易になると、複雑さ、エラー、開発時間が大幅に削減されます。 Kubernetes は、Booking.com、Capital One、Box、IBM、Sling の運用で使用されています。

分析と機械学習

ストリーミング プラットフォーム パズルの最後のピースは、データに基づいて行動する能力です。分析ユースケースの場合、Apache Spark は大量のデータを処理および分析するための分散コンピューティング エンジンです。 Spark は、Apache Ignite インメモリ コンピューティング プラットフォームを活用して、ストリーミング パイプラインを通じて取り込まれた大量のデータを迅速に分析できます。 Spark は Ignite をオンライン データ ストアとして使用することもできるため、Spark ユーザーは既存の DataFrame または RDD にデータを追加し、Spark ジョブを再実行できます。 Spark を使用すると、分散コンピューティング環境で非構造化データに対する簡単なクエリを簡単に記述することもできます。 Spark はすでに Amazon、Credit Karma、eBay、NTT データ、Yahoo! などの業務で使用されています。

機械学習のユースケース向けに、Apache Ignite には、超並列処理に最適化された統合型で完全に分散された機械学習およびディープラーニング ライブラリが含まれています。この統合により、企業は、インメモリ コンピューティング クラスターの各ノード上のインメモリ データに対して機械学習またはディープラーニング アルゴリズムをローカルに実行する継続的な学習アプリケーションを作成できます。アルゴリズムをローカルで実行すると、ペタバイト規模であっても、新しいデータがノードに展開されるたびにモデルを継続的に更新できます。

<<:  機械学習を知っていれば十分でしょうか?次世代のデータ サイエンティストは「フル スタック」へと移行しています。

>>:  450、バックトラッキング アルゴリズムとは何ですか? 一度見れば理解できますが、実際に書いてみると失敗します。

ブログ    
ブログ    
ブログ    

推薦する

Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

オープンソースのコラボレーションを通じて AI を進化させる方法

[[377773]]人工知能は、業界団体によって大々的に宣伝され、推進されている用語の 1 つになっ...

USTC 統合入力フィルタリング フレームワーク: すべてのデータ モダリティをサポートするフィルタリング可能性の最初の理論的分析

モバイル デバイスの計算能力が向上し、センサー データのリアルタイム分析の需要が高まるにつれて、モバ...

...

...

2022 年のエンタープライズ向け人工知能のトップ 10 トレンド

人工知能は主流になりました。さまざまな業界の企業が概念実証を成功させ、AI を本番環境に導入すること...

AIを信頼していない経営者は何を考えているのか?

経営幹部は長い間、より高度な意思決定にデータ分析を使用することに抵抗し、AI 支援による意思決定より...

...

ヒントンは独自に44ページの論文を発表した。「アイデアを出して、自分で試してみて」

「ニューラル ネットワークに人間のように画像を理解させたいのであれば、ニューラル ネットワークが部...

機械学習、データサイエンス、人工知能、ディープラーニング、統計などの違い。

データ サイエンスは幅広い分野であるため、まずはあらゆるビジネスで遭遇する可能性のあるデータ サイエ...

...

サイバーセキュリティの専門家が知っておくべきAIフレームワーク

1. AIフレームワークの重要性AIフレームワークは、人工知能のオペレーティングシステムであり、基本...

Xunlei 創設者 Cheng Hao: 人工知能起業における 6 つの核心課題

[[205875]]まず第一に、今日ビジネスを始めようと決めたなら、インターネットよりも人工知能に重...