AIもボトルネックに遭遇。人工知能技術のストレージ性能要件の分析

AIもボトルネックに遭遇。人工知能技術のストレージ性能要件の分析

2020年は多くの人々にとって忘れられない年です。新型コロナウイルス感染症の突然の発生は、ほぼすべての人の生活を変えました。人類経済に多大な損失をもたらしただけでなく、人類の健康にも大きな脅威をもたらしました。この対処困難なウイルスに直面して、私たちは数え切れないほどの勇敢な戦士たちの英雄的な努力を目撃しました。また、科学技術、特にAI(人工知能)技術が疫病との戦い全体で果たした重要な役割も見てきました。AI技術を通じて、ワクチンの開発を加速することができます。AI技術を通じて、多数の医療端末機器と大量の患者臨床データから最適な診断ソリューションを抽出し、診断効率を加速し、診断結果を向上させることができます。この重要な戦いにおいて、AI技術が重要な役割を果たしたと言えるでしょう。

人工知能は医療、教育、産業、エネルギー、金融などさまざまな分野に浸透しています。

したがって、2020年の第3回Software Defined Storage SummitでIntelが提案したテーマが「メモリとストレージのボトルネックを打破し、人工知能の無限の可能性を解き放つ」であったことは驚くことではありません。結局のところ、今回の疫病との戦いにおいて、インテルはパートナーに多額の資金を投じてAI技術を診断やワクチン開発の研究に利用しただけでなく、医療検査、医療用品の生産、疫病シミュレーションなどの分野でAI技術の導入を加速させ、インテルは人類にとってのAIの重要性をよく認識している。 AI(人工知能)技術は、新たなウイルスと戦うだけでなく、実際に人間の生活のあらゆる分野に浸透しています。インテルの中国不揮発性ストレージソリューション部門の戦略事業開発ディレクターである Jinfeng Ni 氏は、サミットで次のように述べました。「医療、教育、工業、エネルギー、金融など、あらゆる業界がデジタルによる積極的な変革を求めています。近い将来、社会全体のデジタルサービスに対する需要が引き続き急増すると予測できます。」

AI技術はストレージ製品に大きな課題をもたらす

人工知能技術のデータパイプラインは、主に取得、準備、トレーニング、推論の 4 つの部分に分かれています。各パーツは異なるタイプのデータを読み書きする必要があり、ワークロードも異なります。

「仕事をうまくやり遂げたいなら、まずツールを磨かなければなりません。」AI技術の力を最大限に引き出すために、企業は強力なITインフラを構築する必要があります。この設備には、強力なプロセッサ、FPGA、GPU だけでなく、高性能なストレージ デバイスも必要です。そうでなければ、機械式ハード ドライブは転送速度が最も遅く、データの検索に最も時間がかかり、システム全体のパフォーマンスのボトルネックになることが多いため、普通のコンピューターと同じになってしまいます。SATA/PCIe NAND SSD でさえ、AI データ処理のニーズに対応できないことがよくあります。倪金鋒氏は、人工知能がどの業界で使用されているかに関係なく、人工知能の仕事は実際には主に収集、準備、トレーニング、推論の4つの部分で構成されていると紹介しました。各パーツは異なるタイプのデータを読み書きする必要があり、ワークロードも異なるため、ストレージ デバイスにはより大きな課題が生じます。

簡単に言えば、AI 実行プロセス全体を通じて、IO 要件は予測不可能で複雑かつ変化しやすいものです。読み書きされるデータには、次の 3 つの重要な特性があります。

1 つ目は、データセットのサイズが大きく異なることです。初期収集段階では PB レベル、トレーニング段階では GB レベル、トレーニングされた関数の実行後の関連モデルでは KB レベルになります。

2 番目に、そのワークロードも複雑で変化しやすく、最初は 100% 書き込み、準備フェーズでは 50% 読み取りと 50% 書き込みの混合負荷、その後のトレーニングおよび推論フェーズでは多くのランダム読み取り操作を含む 100% 読み取りになります。

3 つ目は、ストレージ モードも、最初は順次データ ストリームの書き込みでしたが、その後は完全にランダムな読み取りと書き込みになり、正確なモデルの構築に役立ちます。

そのため、人工知能技術はストレージ性能に対して非常に厳しい要件を持っています。ユーザーは常に、機器が高スループットと低レイテンシの要件を満たすことを望んでおり、より多くのデータがプロセッサに近づき、タイムリーに伝送および実行されることを常に望んでいます。しかし、ユーザーはAIインフラストラクチャの投資コストが制御可能な範囲内であることも望んでいます。これは矛盾した要求であると言えます。では、ユーザーはどのようにしてこの願いを実現できるのでしょうか。

コストを最適化し、パフォーマンスを向上させるインテルのストレージ製品は階層型ストレージを構築します

まず、ユーザーが使用するデータの種類を調べる必要があります。Ni Jinfeng 氏は、Intel の古典的なストレージ ピラミッド図を示しました。アプリケーションでは、すべてのデータが頻繁に使用されるわけではないため、データはホット データ、ウォーム データ、コールド データの 3 つのレベルに分類できます。ホット データとは、銀行が受け取った振込依頼や即時の地理的位置など、すぐに処理する必要があるデータのことです。ウォーム データとは、ユーザーが最近興味を持っているトピックや最近訪れた場所など、即時ではないステータスや行動のデータを指します。一方、コールド データとは、頻繁にアクセスされないデータを指します。

データの種類、データの使用によって形成されるワークロード、データの階層化、およびデータの保存に最適なデバイスの使用を検討することで、ストレージ システムのパフォーマンスを向上させ、コストを削減できます。

このデータの保存にすべての DRAM メモリを使用すると、パフォーマンスは大幅に向上しますが、ユーザーは非常に高いコストを支払う必要が出てきます。したがって、データの種類や負荷に応じてストレージデバイスを合理的に使用することがより合理的です。たとえば、DRAM メモリと Intel Optane 永続メモリは、パフォーマンスが高く、レイテンシが非常に低く、CPU と GPU に最も近く、タイムリーな洞察を得ることができるため、ホット データの保存に使用できます。 Intel Optane SSD は、Intel に代表される TLC および QLC NAND SSD と組み合わせると、その大容量と高性能により、ホット、ウォームホット、ウォームストレージに適しています。この階層化設計の優れた点は、ピラミッドの各レベルで使用されるデータと製品の容量とレイテンシ特性がわずか 1 桁しか違わないことです。これにより、ユーザーはデータの種類とワークロードに基づいてストレージをホット レイヤーとコールド レイヤーに分割し、独自の予算、パフォーマンス要件、消費電力の予測を参考にしてストレージ ソリューションを継続的に最適化できます。

従来の NAND フラッシュ メモリとは異なる革新的な素材を採用した Optane には、インプレース書き込み、ビット アドレス指定のサポート、低レイテンシという 3 つの新しい機能があります。

では、Intel のストレージ テクノロジーはこのタスクを遂行できるのでしょうか? Ni Jinfeng氏の紹介から、従来のNANDフラッシュメモリとは異なるOptaneメディアの使用により、OptaneパーシステントメモリとOptaneソリッドステートドライブには多くの新しい機能があることがわかります。 1つ目は、インプレース書き込みをサポートしており、書き込み前にデータを消去する必要がないことです。通常の NAND フラッシュメモリとは異なり、読み取り、変更、書き込みのプロセスがないため、パフォーマンスが向上します。同時に、長期間の書き込み後、ダーティなデータブロックは発生せず、ガベージコレクションも不要です。そのため、Optane 製品はパフォーマンスの一貫性を良好に維持でき、NAND SSD は使用期間が長くなるほどパフォーマンスが低下するという問題は発生しません。

従来の NAND フラッシュ メモリを搭載した DC P4600 SSD と比較すると、Optane SSD DC P4800X は、レイテンシが低く、一貫性が高く、寿命がはるかに長く、効率性も高くなっています。

第二に、Optane テクノロジーはビット アドレス指定をサポートしており、超低遅延を実現し、より高速な伝送速度を実現します。結局のところ、AI テクノロジーのアプリケーションには、ストレージ デバイスの容量とパフォーマンスに対する非常に高い要件があります。従来の NAND フラッシュ メモリと比較すると、Optane 製品はパフォーマンスが質的に向上しています。比喩的に言えば、データ キャリアを自動車から飛行機にアップグレードするようなものです。レイテンシに関しては、マイクロ秒レベルで実現するのが最も効果的です。DRAM の 0.1 マイクロ秒未満と比較するとまだ一定の差はありますが、NAND フラッシュ メモリの 100 マイクロ秒近くレベルよりははるかに優れています。 Intel のデータによると、Optane DC SSD のアクセス レイテンシは従来の HDD や SATA SSD よりも大幅に低いだけでなく、NVMe インターフェイスも使用する NAND SSD と比べても大きな利点があります。3D NAND パーティクルを使用する Intel DC P4600 SSD と比較すると、Optane SSD DC P4800X の読み取りレイテンシは、さまざまな書き込み圧力とキュー深度で 8 ~ 63 倍低くなります。

さらに、新しいメディアにより、Optane 製品の寿命が大幅に向上しました。Intel Optane SSD は最大 60 DWPD (1 日あたりのフルディスク書き込み) をサポートできますが、おなじみの Intel P4600 や P4610 などの高性能で長寿命の NAND SSD は約 3 DWPD しかサポートできません。Intel Optane SSD の進歩は非常に顕著です。

人工知能技術のデータ パイプラインは、Intel Optane 永続メモリ、Optane SSD、QLC 3D NAND SSD を使用して合理的なマッチングを行うことで、タスク実行の効率を向上させ、コストと消費電力を削減できます。

同時に、AIデータチャネルにおける収集、整理、トレーニング、推論の4つの段階から、各段階でのストレージ要件が非常に高く、継続的かつ一貫したスループット、および一貫性、継続性、超低レイテンシが求められていることがわかります。これらの要件は、まさにOptane製品が優れている点です。Intel QLC 3D NAND SSDの大容量(ディスクあたり32TB)と高性能特性と相まって、このような完璧な組み合わせは、顧客のデータ統合を改善し、ソフトウェア定義ストレージソリューションのパフォーマンスを向上させ、ユーザーが人工知能時代の今後のデータ爆発に備えるのに役立ちます。

インテルのストレージソリューションは、効率を大幅に向上させることで真の価値を発揮します

Optane SSD を導入してから、VMWare vSAN、Hadoop、CEPH などの各種ストレージ システムのパフォーマンスが大幅に向上しました。

Ni Jinfeng氏によると、実際の使用では、多くのプラットフォームがIntel Optane製品に切り替えた後、良好な結果を達成しているとのことです。たとえば、2018 年に Baidu は Intel Optane SSD と Intel QLC 3D NAND SSD をベースにしたストレージ ソリューションをリリースし、AI、ビッグ データ、クラウド コンピューティングのストレージ パフォーマンスが大幅に向上しました。 AI トレーニング シナリオでは、このソリューションは、元の HDD 機械式ハード ドライブ ソリューションと比較して、パフォーマンスが 21 倍向上し、レイテンシが 96% 削減されると同時に、TCO が最大 60% 削減されます。 VMWare vSAN 分散ストレージ システムでは、高性能キャッシュを NAND PCIe SSD から Intel Optane SSD に置き換えた後、仮想マシン密度が 60% 増加し、システム統合率が 30% 向上しました。Hadoop 分散アーキテクチャでは、ユーザーが Intel Optane SSD を Hadoop の一時データ キャッシュとして使用すると、スループットまたはパフォーマンスが約 40% 向上します。

CEPH 分散ストレージ システムでは、メタデータ キャッシュおよびジャーナル ディスクとして従来の NAND SSD を Intel Optane SSD に置き換えると、レイテンシが約 50% 削減され、IOPS パフォーマンスが約 40% 向上します。 Microsoft の Azure Stack HCI クラウド プラットフォームでは、ユーザーが Intel Optane SSD をキャッシュ ディスクとして使用すると、各システムおよび各ノードがサポートできる仮想マシンの数が約 60% 増加し、仮想マシンの実行スコアも約 80 ポイント増加します。さらに、Inspur、VMWare、XSKY、QingCloud などの多くのパートナーを含む多くの国内企業が現在、Intel Optane テクノロジーを使用してストレージ ソリューションを革新しています。

ストレージをコンピューティングリソースに近づけることで、ストレージは高いパフォーマンスと安定性の両方を実現できます。

[[325654]]

インテル中国不揮発性ストレージソリューション部門の戦略事業開発ディレクター、ニ・ジンフェン氏がインタビューを受けた。

上記の技術的な説明と事例から、Intel のソリューションがこれほど優れたパフォーマンスを発揮できる理由は、主にメモリに近いパフォーマンスを持つ Optane ストレージ製品によるものであることがわかります。先日開催された2020年インテル中国年次戦略「FunShareカンファレンス」で、インテルもニアメモリコンピューティングの概念を提案しました。これは将来のストレージトレンドを表しているのでしょうか?幸運なことに、このカンファレンスでインテルの中国不揮発性ストレージソリューション部門の戦略ビジネス開発ディレクターである Jinfeng Ni 氏にインタビューする機会も得ました。倪金鋒氏は、データ爆発の時代、特に5G技術が成熟するにつれて、生成される大量のデータはネットワークを通じてデータセンターに集めることができなくなり、一部のデータはエッジで計算しなければならないと考えています。そのためには、エッジでストレージとコンピューティングを統合する必要があります。効率的なストレージ性能だけが、エッジが計算を迅速に完了するのに役立ちます。

データ センターでは、圧縮や解凍など、定期的かつ反復的でメモリに依存するコンピューティング要件が多数あります。従来の実行方法を使用すると、大量の CPU コンピューティング リソースと DRAM メモリ リソースが消費されます。 Intel の中長期目標は、コンピューティングとストレージを統合し、ストレージとコンピューティングをより密接に結びつけることです。例えば、インテル中国研究所所長の宋吉強氏が挙げた解決策は、FPGAとストレージアーキテクチャを統合するというものだ。ストレージシステムは、圧縮、解凍、AIトレーニングなど、リアルタイムコンピューティングの同様の要件を満たすことができる。同時に、ストレージ システムの参加により、ユーザーの CPU およびメモリ リソースに対する需要が効果的に削減され、コストが削減されます。メモリに近いパフォーマンスを持つ Optane メディアは、確かにこのタスクに適しています。

言うまでもなく、Optane の優れたパフォーマンスは、ニアメモリ コンピューティングを実現するための鍵です。では、企業が Optane を長期間使用する場合、追加のメンテナンスや維持管理を行う必要があるのでしょうか?倪金鋒氏は、このような作業は従来のNANDフラッシュソリッドステートドライブにも必要になる可能性があると述べた。結局のところ、従来の SSD の読み取り、変更、書き込みメカニズムは、ガベージ データの蓄積につながり、パフォーマンスの低下を招き、ガベージ コレクションによってさらに寿命が短くなります。従来の SSD が後々問題になる理由は、第一に、ゴミの蓄積が効果的に処理されないこと、第二に、NAND フラッシュ メモリを長く使用すればするほど不良ブロックが増えるため、不良ブロックの管理作業を大量に行う必要があることです。不良ブロックが増えるほど、冗長スペースが少なくなり、パフォーマンスが低下します。

Optane 製品には書き込み増幅の問題はありません。同時に、消去性が非常に高く、寿命が桁違いに異なるため、ライフサイクル全体を通じてパフォーマンス低下の問題はありません。同時に、Optane 製品は、過酷な負荷条件下での 5 年間の動作をシミュレートするテスト、つまり加速老化テストを含む、厳格なパフォーマンスと信頼性の検証を受けています。 Intel は、Optane 製品のパフォーマンスがライフサイクル全体を通じて一貫しており、継続的に安定していることを証明する大量のデータを保有しています。

OptaneはAI技術を加速させる触媒となる

本稿執筆時点では、COVID-19パンデミックはまだ終わっておらず、人類は依然としてそれと戦っています。しかし、私たちは、冬が永遠に続くことはなく、春が来ないことはないと固く信じています。新興のAI技術は、人類がより早く疫病を克服し、社会のデジタル化とインテリジェンスの発展を加速させるのに役立つことは間違いありません。 AI技術の発展を加速させるには、データをCPUに近づけ、パフォーマンスをメモリに近づけるOptaneのような新しい技術が不可欠です。より大きなストレージ容量と優れたコスト効率を備えた Intel QLC3D NAND は、HDD 機械式ハード ドライブ アレイに代わる新しい選択肢にもなります。 OptaneテクノロジーとQLC 3D NANDテクノロジーの組み合わせがAIテクノロジーの「触媒」となることは間違いありません。私たちも、この「触媒」によってAIテクノロジーがより速く発展し、人類のためにより多くの成果を生み出すことを期待しています。

<<:  長沙の無人タクシーが提起する疑問:本当に無人運転が可能なのか?

>>:  Google: 2020年5月のコアアルゴリズムアップデート、多数のウェブサイトに影響

ブログ    

推薦する

Google Gemini は Baidu を「騙し取っている」が、その背後にいる本当の犯人は誰なのか?

ノア著制作:51CTO テクノロジースタック(WeChat ID:blog)かつて AI の王者だっ...

...

...

オンラインゲームの依存症対策システムは「破られた」のか?記者調査:ネット上で「顔認証」サービスを提供、実名なしでゲームにログインできると主張

現代速報(記者:季宇江南)未成年者がオンラインゲームに依存しないようにするため、依存防止制度が生まれ...

Python+AIで静止画像を動かす

こんにちは、みんな。短い動画を見ているときに、こんな動画を見たことはありませんか?動画の中で、人物の...

人工知能とロボットが医療業界を「支配」していますが、あなたは安心していますか?

人間社会が発展するにつれて、知性は新たな生産要素になりました。近年、人工知能産業の発展は爆発的な成長...

AIアライメントを徹底レビュー!北京大学などが800以上の文書から4万語を要約し、多くの著名な学者が執筆を担当した。

要点を一目でAI アライメントは、RLHF/RLAIF などの成熟した基本手法だけでなく、スケーラブ...

Java プログラミング スキル - データ構造とアルゴリズム「ツリー」

[[388287]]なぜツリー構造が必要なのでしょうか? 1. 配列格納方法の分析:利点: 下付き...

マスク氏がテスラFSD V12の試乗を生放送!世界初のエンドツーエンドAI自動運転、10,000台のH100でトレーニング

現地時間8月26日、マスク氏は自らオンラインにアクセスし、FSD Beta V12の試乗ライブ放送を...

MITチームの新しいテストはAIの推論と人間の思考を比較する

AI が洞察を導き出し、意思決定を行う方法は謎に包まれていることが多く、機械学習の信頼性について懸...

...

AIツアーはAIIA AI開発者会議のサポートで終わりに近づいています

強力なコンピューターと複雑かつ絶えず変化する人間の知性が出会うと、どのような火花が散るのでしょうか?...

...

2018年の機械学習についてお話しましょう

記事全文を読み始める前に、「ロボットが私たちの仕事を奪っている」といったセンセーショナルなニュースの...

機械学習はデータに依存する

[[186928]]ビッグデータ、分析、モノのインターネット、クラウドテクノロジー...近年、これら...