AIストレージプラットフォームが機械学習とデータ分析のニーズを満たす方法

機械学習と AI タスクの実行方法や環境内でのデータの収集方法に応じて、組織はどの AI ストレージ製品を購入すべきかを理解する必要があります。

組織が AI ストレージプラットフォームを購入する場合、選択できる方法は多数あります。しかし、重要な目標は、機械学習や人工知能のタスクを実行するために、より効率的にデータを収集できる製品を見つけることです。

[[285665]]

AI データストレージ製品の評価と選択に関わる重要な質問には、次のようなものがあります。

ストレージプラットフォームは、コストを効果的に管理しながら、高いパフォーマンスとスケーラビリティを実現する必要があります。
そのパフォーマンスには、高いスループットの提供と低レイテンシの実現が含まれる必要があります。
優れた AI モデルを作成するには、ペタバイト単位のデータを処理する必要があり、コストがかかる可能性があります。組織は、機械学習と AI プラットフォームの全体的なコストを管理する必要性を認識する必要があります。

ディープラーニングでは、機械学習アルゴリズムは教師なしで実行でき、ディープラーニングアルゴリズムの連続するレイヤーが複数レベルのデータ分析を処理するため、I/O プロファイルによって高度にランダムなアクセスが実現します。機械学習と AI トレーニングは通常、バッチモードで実行され、データサイエンティストが機械学習 AI モデルを作成し、データに対してテストし、時間をかけてモデルを改良していきます。このアプローチでは、モデルのテスト時間が短くなると反復回数が増え、モデルの品質が向上するため、高速実行を保証するために低レイテンシが必要です。

したがって、組織が選択する特定のストレージ製品は、行う作業の種類と、必要な機械学習および AI トレーニングに基づいて決定する必要があります。どちらの場合でも、ストレージ製品で最高のパフォーマンスと価格の比率を得るにはトレードオフが存在します。

階層的アプローチ

ストレージ製品を購入する際は、コストとパフォーマンスのバランスが重要な考慮事項となります。選択肢があれば、ほとんどの組織は可能な限り最速のストレージを購入するでしょう。ただし、パフォーマンスが高ければコストも高くなります。通常、高性能システムはペタバイトの範囲まで拡張できません。特定の時点で分析されるデータの作業セットは、データ資産全体のサブセットであるという前提と相まって、ストレージ階層化が機械学習と AI 用のデータストレージの設計に不可欠な部分であることが容易にわかります。

機械学習と AI の文脈において、階層化とは具体的に何を意味するのでしょうか? 従来の階層化製品は、固定ストレージプールから、使用頻度と使用可能なプール容量に基づいて個々のストレージブロックの配置を最適化する複雑なシステムへと進化しました。しかし、データの処理方法が原因で、このアプローチは機械学習や人工知能には適していません。

自動階層化製品では、データがビジネスにとって重要なライフサイクルを経ることを前提としています。新しいデータは非常に重要であり、頻繁にアクセスされます。データは時間の経過とともに価値が失われるため、より低コストでパフォーマンスの低い製品ストレージに移動できます。

機械学習や AI 分析に使用されるデータにより、さまざまなデータセット全体がアクティブになり、分析に利用できるようになります。データセット全体が常に利用可能である必要があります。つまり、アクセスの変更はモデルのトレーニングなどの問題に影響するため、使用中のデータは一貫したパフォーマンスを備えたストレージ層に配置する必要があります。

機械学習と AI モデル開発におけるデータ処理の確率的性質により、時間の経過とともにデータを動的に再バランスしようとするリアクティブストレージプラットフォームアルゴリズムは機能しません。これらのアルゴリズムは、時間の経過とともに徐々に進化する、小さく比較的静的なワーキングセットを想定しています。機械学習と AI では、データアクセスプロファイルがよりランダムになるため、どのデータをキャッシュするか、キャッシュサイズやより高速なストレージ層をどのように調整するかを予測することが難しくなります。

2層ストレージモデル

機械学習と AI ワークロード用のストレージを提供するシンプルなアプローチは、2 層モデルを使用することです。パフォーマンス層は、システムが処理すると予想される最大のデータセットに合わせて調整されながら、最大限のパフォーマンスと可能な限り低いレイテンシを提供します。

高性能フラッシュメモリは高価であり、市場がトリプルレベルセルやクアッドレベルセルなどの大容量フラッシュ製品に移行するにつれて、Samsung Z-NANDやToshiba XL Flashなどの低レイテンシフラッシュ製品を含む高性能ストレージ製品の新しい市場が出現しました。これらの製品は、低レイテンシの I/O を提供することで開発されたストレージクラスメモリを補完します。たとえば、Vast Data は、4 層セルと Intel Optane テクノロジーの両方を使用して N 構造と S3 API をサポートし、非構造化データ向けの高性能でスケーラブルなストレージ製品を提供します。

これらの Tier 0 ストレージ製品は、NVMe デバイスを使用して内部またはストレージネットワーク間で接続します。従来の SAS および SATA ストレージデバイスと比較して、NVMe は I/O スタックまたは I/O プロトコルを最適化します。その結果、レイテンシが短縮され、スループットが向上しますが、サーバープロセッサは I/O が完了するまで待機する必要がないため、プラットフォームの使用率が大幅に向上します。

Pure Storage の AIRI、IBM Spectrum Storage for AI、NetApp の All Flash FAS A800 などの製品はすべて、メディアパフォーマンスを最大限に高めるために内部で NVMe を使用しています。 Dell EMC と DataDirect Networks は、自社の製品ラインのスケールアウトファイルシステム製品を使用して、機械学習と人工知能のリファレンスアーキテクチャをサポートしています。

容量レイヤーでは、すべての AI モデルデータを長期間 (通常は数か月または数年) 安全に保存する必要があります。そのため、機械学習や人工知能に必要な大量のデータを管理するには、耐久性に優れたスケーラブルなストレージプラットフォームが不可欠です。オブジェクトストレージ市場は進化し、高度にスケーラブルで耐久性に優れたさまざまな AI ストレージ製品を生み出しています。

耐久性とはいったい何でしょうか?

一般的なストレージシステムでは、ハードディスクに保存されたデータに冗長性を組み込むアーキテクチャを使用してデータが保護されます。 1 つのコンポーネントに障害が発生した場合、追加のデータコピーを使用して失われたデータを回復し、障害が発生したコンポーネントを交換した後でデータを再構築します。 RAID 5 以上ではハードドライブの障害に対する保護が提供されますが、データセンターの停止などの大規模な災害から保護するには他のシステムが必要です。従来のシステムが拡張されるにつれて、耐久性やデータ損失の軽減にかかるコストが高くなります。

消失訂正符号はデータに冗長性を構築し、ハードドライブ、サーバー、またはデータセンター全体の停止や障害によってデータが失われないようにします。消失訂正符号化データの分散化により、複数のシステムを管理するオーバーヘッドやコストをかけずに、ローカルおよび地理的なデータ保護を備えた数ペタバイトのデータを拡張できるストレージシステムを構築できます。

オブジェクトストレージは、長期間 (多くの場合、複数年) 保持する必要があるデータに対して、スケーラビリティと耐久性を提供します。ただし、コスト上の利点を得るために、オブジェクトストレージ製品は、ある程度のキャッシュ機能を備えた安価なハードディスクベースのストレージ上に構築されます。そのため、機械学習や人工知能のためのデータの日常的な処理には適していませんが、長期保存には最適です。

地理的に分散されたオブジェクトリポジトリを使用すると、複数の場所やソースからデータを抽出してアクセスすることもできます。これは、たとえば、データ処理にオンプレミスとパブリッククラウドインフラストラクチャが混在している場合に役立ちます。地理的分散は Scality Ring プラットフォームの特徴であり、HPE および WekaIO 製品と統合して 2 層ストレージアーキテクチャを作成します。

ハイブリッドストレージアーキテクチャ

企業が直面している課題は、拡張性が高く高性能なストレージを含むハイブリッドアーキテクチャをどのように実装するかということです。オブジェクトストレージシステムを使用すると、組織はデータの大部分を保存できます。一部の製品では、高性能フラッシュメモリを搭載したサーバーにアクティブデータを保存するパフォーマンスノードを使用します。このアプローチの利点は、容量ノードまたはパフォーマンスノードを製品に追加して、どちらの方向にも拡張できることです。たとえば、Cloudian はスケーラビリティ機能を備えたハードウェアアプライアンスを提供します。

高性能ストレージから構築されたシステムは、処理されるデータセット全体に合わせて拡張できるように設計する必要があります。これらのシナリオでは、複数の AI データセットが時間の経過とともに処理され、データは高性能プラットフォーム間で行き来します。

ストレージアーキテクチャは、ストレージとの間でデータを移動するために必要なネットワーク帯域幅を AI 製品に提供し、AI プラットフォームの要件を満たす必要があります。 Nvidia DGX-1 や DGX-2 プラットフォームなどの製品は、1 秒あたり数十ギガバイトのデータを消費する可能性があります。したがって、開発のペースに追いつくためには、AI データストレージ製品におけるコンピューティングとストレージ間の接続は、低遅延の InfiniBand または 100Gb イーサネットである必要があります。

AI製品向けソフトウェア定義ストレージ

機械学習や AI 用のストレージを構築するということは、必ずしも高性能な機器を導入することを意味するわけではありません。本質的にソフトウェア定義ストレージ (SDS) である新しい高性能 AI ストレージ製品が利用可能になりました。これらの製品は、NVMe や、場合によっては永続メモリやストレージクラスメモリなどの新しいメディアの機能を活用します。

ソフトウェア定義ストレージ (SDS) 製品の利点の 1 つは、パブリッククラウドインフラストラクチャでインスタンス化して動的に拡張できるため、パブリッククラウドに適していることです。この動作モードは、インフラストラクチャの量が不明な場合や、短期間のみ必要な場合に魅力的です。

WekaIO は、NVMe ドライブを搭載したサーバー、または NVMe 機能を備えた Elastic Compute Cloud インスタンス上の AWS パブリッククラウドに導入できる、Matrix ソフトウェアに基づくスケールアウトストレージプラットフォームを提供しています。

Excelero NVMesh は、複数のサーバーとストレージにわたってパフォーマンスを直線的に拡張できる別のソフトウェア定義ストレージ (SDS) 製品であり、多くの場合、IBM Corp. の Spectrum Scale と組み合わせてスケールアウトファイルシステムを作成します。

データモビリティ

容量層とパフォーマンス層を 1 つのサービスに統合するには、パフォーマンス層と容量層の間でデータを移動し、移動時にメタデータ間でデータを適切に追跡するための手動または自動のプロセスが必要です。一部の AI ストレージ製品はオブジェクトストレージと直接統合できるため、このプロセスが簡素化されます。パブリッククラウドは、オンプレミスのクラウドサービス間で移動されるデータに対してストレージ料金が発生しないため、機械学習や AI 開発に最適な選択肢となります。たとえば、WekaIO の Matrix は、データを内部および外部に複製し、オブジェクトストレージにアーカイブできます。

統合された

機械学習や AI ワークロード用のローカルストレージを実装しようとしている企業は、容量とパフォーマンスの両方を考慮する必要があります。パフォーマンス層では、機械学習用の統合インフラストラクチャをゼロから構築するか、パッケージ化されたサービスを導入することができます。ビルドオプションを使用すると、企業はオンプレミスのアプライアンスを導入したり、ソフトウェア定義ストレージ (SDS) を使用したりできます。ソフトウェア定義ストレージ (SDS) を使用すると、組織はストレージを別のレイヤーとして実装したり、ハイパーコンバージドインフラストラクチャを構築したりできます。データがオンプレミスに残る場合、組織はアプライアンスを使用するか、ソフトウェア定義のルートに従って、オブジェクトストレージを使用して容量層を展開できます。

パブリッククラウドを利用すると、IT 組織はオブジェクトストレージやブロックストレージなどのネイティブサービスを使用できます。ファイルストレージ製品が機械学習や人工知能アプリケーションの低レイテンシを実現するには、まだ長い道のりが残っています。代わりに、組織はブロックストレージを、特にネイティブブロックリソースにファイルサービスレイヤーを追加するソフトウェア定義ストレージ (SDS) または AI ストレージ製品と組み合わせて使用する場合があります。

<<: 2020 年の予測: AI セキュリティの 10 のトレンド

>>: AI 支援による開発は、手動コーディングよりも 180 倍以上高速です。プログラマーは喜んでいるのでしょうか、それとも心配しているのでしょうか?