適切な AI データ ストレージを選択するための 6 つのガイドライン

適切な AI データ ストレージを選択するための 6 つのガイドライン

間違った AI ストレージ プラットフォームを選択すると、ビジネスに深刻な結果をもたらす可能性があります。したがって、企業の AI データ ストレージ戦略の選択に影響を与える可能性のある 6 つの基準を理解する必要があります。

[[314851]]

人工知能と機械学習は、今日の企業にとって最も重要な 2 つのツールとなり、企業が中核となるデジタル資産を活用して競争上の優位性を生み出すのに役立っています。しかし、AI データ ストレージを導入する前に、企業は機械学習プラットフォームがデータを取得、処理、保持する方法に基づいてさまざまな要件を考慮する必要があります。

まず、機械学習ソフトウェアで使用されるデータのライフサイクルを調べます。これにより、AI 用のストレージを選択する際に考慮すべき事項を理解するのに役立ちます。まず、企業は機械学習や人工知能のアルゴリズムをトレーニングするためのデータを取得する必要があります。これらは、オブジェクトの識別、ビデオの処理、動きの追跡などのタスクを学習するためにデータを処理するソフトウェア ツールです。データはさまざまなソースから生成される可能性があり、オブジェクトやファイルなど、本質的には構造化されていないことがよくあります。

トレーニング プロセスでは、データ資産を取得し、機械学習または人工知能ソフトウェアを使用して、将来のデータ ソースを処理するためのアルゴリズムを作成します。アルゴリズムをトレーニングまたは開発する際、AI ソフトウェアはソース データを処理して、洞察を生み出したりビジネス ニーズに対応したりできるモデルを開発します。

機械学習アルゴリズムの開発は、ほとんどの場合、単一のプロセスで行われることはありません。企業が蓄積するデータが増えるにつれて、アルゴリズムは洗練され、改善されていきます。つまり、破棄されるデータはごくわずかで、時間の経過とともに増加し、再処理されることになります。

AIデータ保存の標準の採用

AI プラットフォーム用のストレージを選択する前に、企業はまず次の点を考慮する必要があります。

(1)料金AI データ ストレージの価格は、企業が購入を検討する重要な要素です。明らかに、経営陣と購買決定に携わる人々は、データ ストレージが可能な限りコスト効率の高いものであることを望んでおり、多くの場合、これが製品の選択と戦略に影響を及ぼします。

(2)スケーラビリティ企業は、機械学習や人工知能モデルを作成するために、大量のデータを収集、保存、処理する必要があります。機械学習アルゴリズムでは、精度の線形改善を実現するために、ソース データの指数関数的な増加が必要です。信頼性が高く正確な機械学習モデルを作成するには、数百テラバイト、さらにはペタバイトのデータが必要になる場合があり、時間の経過とともに増加する可能性があります。

ペタバイト規模のストレージ システムを構築するには、通常、オブジェクト ストレージまたはスケールアウト ファイル システムを使用する必要があります。最新のオブジェクト ストアは AI ワークロードの容量ニーズに対応できますが、高パフォーマンスなどの他の基準を満たさない可能性があります。スケールアウト ファイル システムは高いパフォーマンスと優れたスケーラビリティを提供できますが、データセット全体を単一のプラットフォームに保存するとコストがかかる可能性があります。ブロック ストレージは、スケーラビリティ要件と大容量製品のコストのため、機械学習や AI には適さないことがよくあります。唯一の例外はパブリッククラウドです。

ストレージ コストの変化により、階層化、つまり複数の種類のストレージを使用してデータを保存するという考え方が導入されました。たとえば、オブジェクト リポジトリは、大量の非アクティブな AI データを保存するのに適しています。処理にデータが必要な場合は、高性能ファイル ストレージ クラスターまたはオブジェクト ストレージの高性能向けに設計されたノードに移動し、処理が完了したらデータを元に戻すことができます。

(3)パフォーマンス人工知能データの保存パフォーマンスには 3 つの側面があります。まず、おそらく最も重要なのはレイテンシです。これは、ソフトウェアによって発行された各 I/O 要求が処理される速度を定義します。低レイテンシは重要です。レイテンシを改善すると、機械学習または AI モデルの作成にかかる時間に直接影響するからです。複雑なモデルの開発には、実行に数週間から数か月かかる場合があります。開発サイクルを短縮することで、企業はより迅速にモデルを作成し、改良することができます。レイテンシ機能を調べる場合、オブジェクト アクセスの流動的な性質により、オブジェクトは単一の I/O 要求のレイテンシではなく、最初のバイトまでの時間への参照を保存します。

パフォーマンスのもう 1 つの側面はスループット、つまりストレージ プラットフォームにデータを書き込んだり、そこからデータを読み取ったりする速度です。 AI トレーニングでは大規模なデータセットを処理し、モデルを正確に開発するために同じデータを繰り返し読み取ることが多いため、システム スループットは重要です。自動運転車のセンサーなどの機械学習や AI データのソースは、毎日テラバイト単位の新しいデータを生成する可能性があります。この情報はすべて、既存の処理への影響を最小限に抑えながら、既存のデータ ストアに追加する必要があります。

関係するデータの量が膨大であるため、ストレージ プラットフォームを適切に選択することが重要です。

パフォーマンスの最後の側面は並列アクセスです。機械学習と AI アルゴリズムはデータを並列処理し、同じデータを複数回読み取り、多数の並列タスクにまたがる複数のタスクを実行します。オブジェクト ストレージは、オブジェクトのロックや管理するプロパティがないため、並列読み取り I/O 処理に優れています。ファイル サーバーは、メモリ内の開いている I/O 要求またはファイル ハンドルを追跡します。したがって、アクティブな I/O 要求の数は、プラットフォームで使用可能なメモリによって異なります。

機械学習データは、多数の小さなファイルで構成される場合があります。この点では、ファイル サーバーはオブジェクト ストレージよりも優れたパフォーマンスを提供できます。 AI ストレージ ベンダーに尋ねる重要な質問は、大規模なファイル タイプと小規模なファイル タイプの間で製品のパフォーマンス特性がどのように変化するかということです。

大規模なオブジェクト ストアのほとんどは定期的にバックアップするには大きすぎるため、信頼性の高い消失訂正符号が AI ストレージ プラットフォームの重要な機能になっています。

(5)パブリッククラウド機械学習や人工知能のアルゴリズムを開発するには、高性能ストレージと高性能コンピューティングが必要です。多くの AI システムは、Nvidia DGX などの GPU をベースとしており、正確なアルゴリズムの開発に必要な複雑な数学的計算の多くを軽減します。

パブリック クラウド サービス プロバイダーは、機械学習に使用できる GPU アクセラレーション仮想インスタンスの提供を開始しています。パブリック クラウドで機械学習ツールを実行すると、機械学習開発用のインフラストラクチャを構築するための投資コストが削減されると同時に、機械学習モデルの開発に必要なインフラストラクチャを拡張できるようになります。

パブリック クラウド コンピューティングを使用する際の課題は、コスト効率が高く実用的な方法でデータをパブリック クラウドに取り込むことです。クラウドベースのオブジェクト ストレージは機械学習の I/O 要求を満たすには遅すぎるため、ローカル ブロック ストレージを使用する必要があります。データ移動の遅延と機械学習の遅延は、インフラストラクチャの運用コストの増加を意味します。

パブリック クラウドのもう 1 つの問題は、データ送信のコストです。クラウド コンピューティング サービス プロバイダーは、自社のプラットフォームへのデータの移動に対しては料金を請求しませんが、自社のプラットフォーム外のパブリック ネットワークからアクセスされたデータに対しては料金を請求します。その結果、パブリック クラウドはコンピューティングの柔軟性を提供しますが、クラウド プラットフォームにデータをタイムリーかつコスト効率よく出し入れすることが必ずしも容易であるとは限りません。

クラウド コンピューティング ベンダーは、オンプレミスのインフラストラクチャとクラウド プラットフォームにまたがるパブリック クラウドで自社製品を実行できるストレージ製品を開発しています。これらの製品は、データを効率的にクラウドにコピーまたは移動し、完了した場合にのみ結果を元に戻すことができます。これらのレプリケーション テクノロジーは帯域幅効率に優れているため、オンプレミスでデータを保存し、分析のためにクラウドにインポートすることが実用的になります。

(6)統合機械学習と人工知能のストレージの側面は、コンピューティングから分離する必要があります。 AI データ ストレージの構築は、ストレージ ネットワークや、機械学習アプリケーションで動作するようにストレージを調整するために考慮する必要があるその他の要素のために困難になる可能性があります。

製品を事前にパッケージ化することで、クラウド コンピューティング ベンダーは、製品を顧客に提供する前にテストして最適化することができます。現在、人気の AI ソフトウェア、CPU や GPU などのコンピューティング、ネットワーク、ストレージ デバイスを組み合わせて AI 対応プラットフォームを提供するストレージ製品が存在します。これらのシステムが導入される前に、詳細な調整作業が数多く行われました。コストが問題になる可能性はありますが、パッケージ化されたシステムにより、多くの顧客にとって AI ストレージ導入の障壁を減らすことができます。

当然のことながら、適切な AI データ ストレージ プラットフォームを選択するには、パフォーマンス、スケーラビリティ、コストなどのトレードオフを比較検討する必要があります。関係するデータの量が膨大であるため、ストレージ プラットフォームを適切に選択することが重要です。間違った製品を選択すると、大きな損失を被る可能性があります。あらゆるストレージ製品の決定と同様に、企業にとってクラウド コンピューティング ベンダーと話し合い、その製品が AI と機械学習のニーズをどのように満たしているかを正確に理解することが重要です。エンゲージメント プロセスには、購入決定の前段階としてデモンストレーションと評価を含める必要があります。

<<:  顔認識を使用してアバターにマスクとゴーグルを自動的に追加する方法

>>:  5Gについて知っておくべきことは何ですか?

ブログ    
ブログ    

推薦する

...

...

インベントリ | 2018 年のベスト 30 の機械学習プロジェクト

編集者注: この記事は Mybridge からのもので、過去 1 年間 (2017 年) で最も素晴...

OpenAIはGPT-4を使用したコンテンツモデレーションへの新しいアプローチを提案

最近、OpenAI は、最新の生成人工知能モデル GPT-4 を使用してコンテンツレビューを行い、手...

クレイジーすぎる、GPTsがオンライン:ウルトラマンがマスクの大型模型の手こすりを披露、誰かがサードパーティのマーケットを作った

数日前の開発者会議で、OpenAIは、メンバーシップを購入すれば、GPT-4大規模モデルの新バージョ...

ソフトウェア開発における人工知能: 自動化と最適化

最先端技術である人工知能(AI)は、さまざまな分野で大きな可能性を見せています。ソフトウェア開発の分...

マスク氏はAIが人間を超えると述べ、それを信じない人は単に賢いだけだと語る

北京時間7月23日、テスラのCEOイーロン・マスク氏は水曜日、人工知能(AI)の将来についての懸念を...

4つの主要な機械学習プログラミング言語の比較: R、Python、MATLAB、Octave

この記事の著者は、R、Python、MATLAB、OCTAVE の 4 つの機械学習プログラミング言...

...

今後5~10年で、人工知能+ブロックチェーンは第三者による支払いを終わらせるだろう

インターネットの出現により、伝統的な取引方法は一変しました。第三者保証の取引プラットフォームとして、...

...

...

拡散モデルはオートエンコーダです。ディープマインドの研究者は新しいアイデアを提案し、

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

MSRAがACM TOMM 2017最優秀論文賞を受賞: 複雑でプロフェッショナルなグラフィックデザイン作業をAIに任せよう

豊富な写真と美しいレイアウトで記事を作成、編集する方法に悩んだことはありませんか?あるいは、芸術的な...