適切な AI データ ストレージを選択するための 6 つのガイドライン

適切な AI データ ストレージを選択するための 6 つのガイドライン

間違った AI ストレージ プラットフォームを選択すると、ビジネスに深刻な結果をもたらす可能性があります。したがって、企業の AI データ ストレージ戦略の選択に影響を与える可能性のある 6 つの基準を理解する必要があります。

[[314851]]

人工知能と機械学習は、今日の企業にとって最も重要な 2 つのツールとなり、企業が中核となるデジタル資産を活用して競争上の優位性を生み出すのに役立っています。しかし、AI データ ストレージを導入する前に、企業は機械学習プラットフォームがデータを取得、処理、保持する方法に基づいてさまざまな要件を考慮する必要があります。

まず、機械学習ソフトウェアで使用されるデータのライフサイクルを調べます。これにより、AI 用のストレージを選択する際に考慮すべき事項を理解するのに役立ちます。まず、企業は機械学習や人工知能のアルゴリズムをトレーニングするためのデータを取得する必要があります。これらは、オブジェクトの識別、ビデオの処理、動きの追跡などのタスクを学習するためにデータを処理するソフトウェア ツールです。データはさまざまなソースから生成される可能性があり、オブジェクトやファイルなど、本質的には構造化されていないことがよくあります。

トレーニング プロセスでは、データ資産を取得し、機械学習または人工知能ソフトウェアを使用して、将来のデータ ソースを処理するためのアルゴリズムを作成します。アルゴリズムをトレーニングまたは開発する際、AI ソフトウェアはソース データを処理して、洞察を生み出したりビジネス ニーズに対応したりできるモデルを開発します。

機械学習アルゴリズムの開発は、ほとんどの場合、単一のプロセスで行われることはありません。企業が蓄積するデータが増えるにつれて、アルゴリズムは洗練され、改善されていきます。つまり、破棄されるデータはごくわずかで、時間の経過とともに増加し、再処理されることになります。

AIデータ保存の標準の採用

AI プラットフォーム用のストレージを選択する前に、企業はまず次の点を考慮する必要があります。

(1)料金AI データ ストレージの価格は、企業が購入を検討する重要な要素です。明らかに、経営陣と購買決定に携わる人々は、データ ストレージが可能な限りコスト効率の高いものであることを望んでおり、多くの場合、これが製品の選択と戦略に影響を及ぼします。

(2)スケーラビリティ企業は、機械学習や人工知能モデルを作成するために、大量のデータを収集、保存、処理する必要があります。機械学習アルゴリズムでは、精度の線形改善を実現するために、ソース データの指数関数的な増加が必要です。信頼性が高く正確な機械学習モデルを作成するには、数百テラバイト、さらにはペタバイトのデータが必要になる場合があり、時間の経過とともに増加する可能性があります。

ペタバイト規模のストレージ システムを構築するには、通常、オブジェクト ストレージまたはスケールアウト ファイル システムを使用する必要があります。最新のオブジェクト ストアは AI ワークロードの容量ニーズに対応できますが、高パフォーマンスなどの他の基準を満たさない可能性があります。スケールアウト ファイル システムは高いパフォーマンスと優れたスケーラビリティを提供できますが、データセット全体を単一のプラットフォームに保存するとコストがかかる可能性があります。ブロック ストレージは、スケーラビリティ要件と大容量製品のコストのため、機械学習や AI には適さないことがよくあります。唯一の例外はパブリッククラウドです。

ストレージ コストの変化により、階層化、つまり複数の種類のストレージを使用してデータを保存するという考え方が導入されました。たとえば、オブジェクト リポジトリは、大量の非アクティブな AI データを保存するのに適しています。処理にデータが必要な場合は、高性能ファイル ストレージ クラスターまたはオブジェクト ストレージの高性能向けに設計されたノードに移動し、処理が完了したらデータを元に戻すことができます。

(3)パフォーマンス人工知能データの保存パフォーマンスには 3 つの側面があります。まず、おそらく最も重要なのはレイテンシです。これは、ソフトウェアによって発行された各 I/O 要求が処理される速度を定義します。低レイテンシは重要です。レイテンシを改善すると、機械学習または AI モデルの作成にかかる時間に直接影響するからです。複雑なモデルの開発には、実行に数週間から数か月かかる場合があります。開発サイクルを短縮することで、企業はより迅速にモデルを作成し、改良することができます。レイテンシ機能を調べる場合、オブジェクト アクセスの流動的な性質により、オブジェクトは単一の I/O 要求のレイテンシではなく、最初のバイトまでの時間への参照を保存します。

パフォーマンスのもう 1 つの側面はスループット、つまりストレージ プラットフォームにデータを書き込んだり、そこからデータを読み取ったりする速度です。 AI トレーニングでは大規模なデータセットを処理し、モデルを正確に開発するために同じデータを繰り返し読み取ることが多いため、システム スループットは重要です。自動運転車のセンサーなどの機械学習や AI データのソースは、毎日テラバイト単位の新しいデータを生成する可能性があります。この情報はすべて、既存の処理への影響を最小限に抑えながら、既存のデータ ストアに追加する必要があります。

関係するデータの量が膨大であるため、ストレージ プラットフォームを適切に選択することが重要です。

パフォーマンスの最後の側面は並列アクセスです。機械学習と AI アルゴリズムはデータを並列処理し、同じデータを複数回読み取り、多数の並列タスクにまたがる複数のタスクを実行します。オブジェクト ストレージは、オブジェクトのロックや管理するプロパティがないため、並列読み取り I/O 処理に優れています。ファイル サーバーは、メモリ内の開いている I/O 要求またはファイル ハンドルを追跡します。したがって、アクティブな I/O 要求の数は、プラットフォームで使用可能なメモリによって異なります。

機械学習データは、多数の小さなファイルで構成される場合があります。この点では、ファイル サーバーはオブジェクト ストレージよりも優れたパフォーマンスを提供できます。 AI ストレージ ベンダーに尋ねる重要な質問は、大規模なファイル タイプと小規模なファイル タイプの間で製品のパフォーマンス特性がどのように変化するかということです。

大規模なオブジェクト ストアのほとんどは定期的にバックアップするには大きすぎるため、信頼性の高い消失訂正符号が AI ストレージ プラットフォームの重要な機能になっています。

(5)パブリッククラウド機械学習や人工知能のアルゴリズムを開発するには、高性能ストレージと高性能コンピューティングが必要です。多くの AI システムは、Nvidia DGX などの GPU をベースとしており、正確なアルゴリズムの開発に必要な複雑な数学的計算の多くを軽減します。

パブリック クラウド サービス プロバイダーは、機械学習に使用できる GPU アクセラレーション仮想インスタンスの提供を開始しています。パブリック クラウドで機械学習ツールを実行すると、機械学習開発用のインフラストラクチャを構築するための投資コストが削減されると同時に、機械学習モデルの開発に必要なインフラストラクチャを拡張できるようになります。

パブリック クラウド コンピューティングを使用する際の課題は、コスト効率が高く実用的な方法でデータをパブリック クラウドに取り込むことです。クラウドベースのオブジェクト ストレージは機械学習の I/O 要求を満たすには遅すぎるため、ローカル ブロック ストレージを使用する必要があります。データ移動の遅延と機械学習の遅延は、インフラストラクチャの運用コストの増加を意味します。

パブリック クラウドのもう 1 つの問題は、データ送信のコストです。クラウド コンピューティング サービス プロバイダーは、自社のプラットフォームへのデータの移動に対しては料金を請求しませんが、自社のプラットフォーム外のパブリック ネットワークからアクセスされたデータに対しては料金を請求します。その結果、パブリック クラウドはコンピューティングの柔軟性を提供しますが、クラウド プラットフォームにデータをタイムリーかつコスト効率よく出し入れすることが必ずしも容易であるとは限りません。

クラウド コンピューティング ベンダーは、オンプレミスのインフラストラクチャとクラウド プラットフォームにまたがるパブリック クラウドで自社製品を実行できるストレージ製品を開発しています。これらの製品は、データを効率的にクラウドにコピーまたは移動し、完了した場合にのみ結果を元に戻すことができます。これらのレプリケーション テクノロジーは帯域幅効率に優れているため、オンプレミスでデータを保存し、分析のためにクラウドにインポートすることが実用的になります。

(6)統合機械学習と人工知能のストレージの側面は、コンピューティングから分離する必要があります。 AI データ ストレージの構築は、ストレージ ネットワークや、機械学習アプリケーションで動作するようにストレージを調整するために考慮する必要があるその他の要素のために困難になる可能性があります。

製品を事前にパッケージ化することで、クラウド コンピューティング ベンダーは、製品を顧客に提供する前にテストして最適化することができます。現在、人気の AI ソフトウェア、CPU や GPU などのコンピューティング、ネットワーク、ストレージ デバイスを組み合わせて AI 対応プラットフォームを提供するストレージ製品が存在します。これらのシステムが導入される前に、詳細な調整作業が数多く行われました。コストが問題になる可能性はありますが、パッケージ化されたシステムにより、多くの顧客にとって AI ストレージ導入の障壁を減らすことができます。

当然のことながら、適切な AI データ ストレージ プラットフォームを選択するには、パフォーマンス、スケーラビリティ、コストなどのトレードオフを比較検討する必要があります。関係するデータの量が膨大であるため、ストレージ プラットフォームを適切に選択することが重要です。間違った製品を選択すると、大きな損失を被る可能性があります。あらゆるストレージ製品の決定と同様に、企業にとってクラウド コンピューティング ベンダーと話し合い、その製品が AI と機械学習のニーズをどのように満たしているかを正確に理解することが重要です。エンゲージメント プロセスには、購入決定の前段階としてデモンストレーションと評価を含める必要があります。

<<:  顔認識を使用してアバターにマスクとゴーグルを自動的に追加する方法

>>:  5Gについて知っておくべきことは何ですか?

ブログ    
ブログ    

推薦する

ジャック・マー:テクノロジーは私たちの生活をより健康にしなければ意味がない

9月17日から19日まで、上海で「人工知能が新時代を力づける」をテーマにした2018年世界人工知能大...

パンデミック中の人工知能技術の5つの主要な応用

デジタルセンチネル現在、上海では多くの場所にデジタル監視装置が配備されており、出入国する人は健康コー...

ChatGPTの愚かさに対する新たな説明: 世界はAIによって変化し、訓練されたときとは異なっている

学術界は、ChatGPT がなぜ愚かになったのかという新たな説明を持っています。カリフォルニア大学サ...

Java プログラミング スキル - データ構造とアルゴリズム「ハッシュ テーブル」

[[388064]]基本的な紹介ハッシュ テーブル (ハッシュ テーブルとも呼ばれます) は、キー...

...

Google DeepMindがAGIをランク付け、ChatGPTのランクはどこになるか推測してください

AGI(汎用人工知能)をどのように定義すればよいでしょうか? 100 人の AI 専門家に答えを尋ね...

これを読めば分かるでしょう。これらは人工知能によって排除されつつある主要な職業です。

AIインテリジェンスは近年急速に発展しており、技術の進歩をもたらす一方で、一部の業界にも影響を与え...

AI検出器の仕組みの概要​

翻訳者 | 劉涛レビュー | Chonglou AI ライティング検出器を使用したことがあるかもしれ...

AIと子ども経済が出会うとき、どうすれば中心的ポジションにデビューできるのか?

[[248753]]児童市場は非常に特殊で、この層は購買力がないにもかかわらず、消費市場の価値は数...

テンセントが業界初のAIセキュリティ攻撃マトリックスを発表、リスク排除が辞書を引くのと同じくらい簡単に

近年、人工知能は急速に発展し、家庭、金融、交通、医療などさまざまな分野に深く融合し、人々の生活はより...

2020 年の AI と機械学習の重要なトレンドは何ですか?

競争が激化するテクノロジー市場において、ハイテク新興企業から世界的な多国籍企業まで、誰もが人工知能を...

...

データが生成型 AI に対応できるようにする 7 つの方法

翻訳者 |ブガッティレビュー | Chonglou誰もが生成AIと大規模言語モデルの力を活用したいと...