オブジェクトストレージがAIと機械学習に適している3つの理由

オブジェクトストレージがAIと機械学習に適している3つの理由

[[328561]]

今日、あらゆるタイプの企業が人工知能や機械学習のプロジェクトに取り組んでいますが、その真の可能性を実現するには、大きな技術的障壁を克服する必要があります。コンピューティング インフラストラクチャが焦点となることがよくありますが、ストレージ設備も同様に重要です。ファイル ストレージやブロック ストレージではなく、オブジェクト ストレージが AI および機械学習のワークロードを実行するのに適した選択肢である主な理由を 3 つ挙げます。

1. スケーラビリティ

人工知能と機械学習の技術は、学習対象となる大規模で多様なデータソースがある場合に最も効果を発揮します。データ サイエンティストは、この豊富なデータを活用してドメイン モデルをトレーニングします。 「ビッグデータの 5 つの V」(量、タイプ、速度、正確性、価値)のうち、最初の 2 つ(量とタイプ)が最も重要です。つまり、AI と機械学習は、大量の多様なデータ (画像、テキスト、構造化データと半構造化データ) に依存して、有用なモデルを構築し、正確な結果を提供し、最終的にビジネス価値をもたらします。

オブジェクト ストレージは、人工知能や機械学習に必要な大量のデータをサポートするのに特に適した、拡張性に優れたストレージ アーキテクチャです。オブジェクト ストレージは、水平スケーリング アプローチによる無制限の成長を実現するように設計されており、企業は必要なときに必要な場所にノードを追加することで展開を拡大できます。オブジェクト ストレージは単一のグローバル名前空間を使用するため、この種のスケーリングは複数の地理的な場所にまたがって同時に実行することも可能です。一方、ファイル システムとブロック システムでは、通常、拡張されたアプローチが採用されます。つまり、これらのプラットフォームは、単一のノードにさらに多くのコンピューティング リソースを追加することで垂直スケーリングを実現しますが、最終的には限界に達します。追加のノードを展開してコンピューティング リソースを増やすことができないため、水平方向に効果的にスケーリングすることができません。

2. API

堅牢で柔軟なデータ API は、前述のようにさまざまなデータ タイプを使用する AI と機械学習にとって重要です。ストレージ プラットフォームは、さまざまなデータに対応するために API をサポートする必要があります。さらに、AI と ML のイノベーションはパブリック クラウド上でますます起こっていますが、ユース ケースの詳細に応じて、AI と ML の大部分は依然としてオンプレミスのデータ センターまたはプライベート クラウドで行われています (たとえば、科学研究や医療などの分野は、多くの場合、プライベート クラウドに最適です)。つまり、組織にはパブリック クラウドとオンプレミス/プライベート クラウドの両方のワークロードをサポートするストレージ API が必要です。

ファイルおよびブロック ストレージ プラットフォームでは、古いアーキテクチャであるため、サポートされる API が制限されています。対照的に、オブジェクト ストレージは、アプリケーション中心に設計されたクラウド プラットフォームにネイティブな高レベル API を使用し、バージョン管理、ライフサイクル管理、暗号化、オブジェクト ロック、メタデータなど、ファイル ストレージやブロック ストレージよりも幅広い API をサポートします。さらに、ストリーミング データのサポートや大規模なデータ セットに対するクエリのサポートなど、AI および機械学習のユース ケースをサポートする新しいオブジェクト ストレージ API も可能になります。

Amazon S3 のオブジェクト ストレージ API の標準化により、オンプレミスとパブリック クラウドでのソフトウェアの統合が容易になります。企業は、オンプレミス/プライベート クラウド環境からパブリック クラウドに AI および ML の展開を簡単に拡張したり、機能を損なうことなくクラウド ネイティブの AI および ML ワークロードをオンプレミス環境に移行したりできます。このバイモーダル アプローチにより、組織はオンプレミス/プライベート クラウドとパブリック クラウドのリソースを共同で、かつ相互に活用できるようになります。

S3 API はオブジェクト ストレージの事実上の標準となっているため、多くのソフトウェア ツールやライブラリでこの API を活用できます。これにより、コード、ソフトウェア、ツールを共有し、AI および機械学習コミュニティ内での開発を加速することができます。例としては、S3 API が組み込まれた TensorFlow や Apache Spark などの一般的な機械学習プラットフォームが挙げられます。

3. メタデータ

API と同様に、AI と機械学習を使用する組織は、無制限でカスタマイズ可能なメタデータを活用することが重要です。メタデータは、データに関するデータであり、最も基本的なレベルでは、データがいつ、どこで、誰が作成したかを示します。しかし、メタデータはさらに多くのことを記述できます。ユーザーは任意のメタデータ タグを作成して、必要なプロパティを記述できます。

データ サイエンティストは、人工知能や機械学習のモデルを構築して使用するために、特定のデータを見つけるために豊富なメタデータを必要とします。メタデータ注釈により、データに情報が追加されるにつれて、時間の経過とともに知識が蓄積されます。

ファイル ストレージとブロック ストレージは、上記の基本プロパティなどの限られたメタデータのみをサポートします。その多くはスケーラビリティに帰着します。ファイル システムとブロック システムは、ストレージ システムが大量のデータ セットに依存する人工知能や機械学習アプリケーションの豊富なメタデータをサポートしていれば自然に発生する急速でシームレスな拡張に対応できないためです。ただし、オブジェクト ストレージは無制限で完全にカスタマイズ可能なメタデータをサポートしているため、AI や機械学習アルゴリズムのデータを見つけやすくなり、そこからより優れた洞察を得ることができます。

たとえば、X 線画像に画像認識アプリケーションを使用している病院を考えてみましょう。メタデータを使用すると、オブジェクト ストレージ システムに追加された各画像を TensorFlow モデルで分析し、各画像にさらに詳細なメタデータ タグ (骨のサイズや成長に基づく傷害の種類、患者の年齢や性別など) を割り当てることができます。 TensorFlow モデルはメタデータに基づいてトレーニングされ、分析されて、患者に関する新たな洞察を導き出すことができます (たとえば、20 代と 30 代の女性は、5 年前よりも現在、整形外科的疾患に悩まされることが多くなっています)。

ほぼすべてのフォーチュン 500 企業が AI と機械学習の導入を検討していることから、近い将来、これらのテクノロジーが最も重要なエンタープライズ IT イニシアチブになると考えられます。ただし、AI と機械学習の取り組みが成果を上げるには、企業は適切なストレージ インフラストラクチャを活用する必要があります。オブジェクト ストレージは、そのスケーラビリティ、さまざまな API (特に S3) のサポート、豊富なメタデータにより、AI と機械学習の優れたバックボーンとなります。

<<:  新しい問題と古い問題の組み合わせは、個人情報保護に新たな課題をもたらします。

>>:  機械学習:教師あり学習と教師なし学習の違いは何ですか?

ブログ    
ブログ    
ブログ    

推薦する

ディープラーニング可視化ツールの包括的なレビュー(リソース付き)

ディープネットワークは機械学習の研究・応用分野に大きな影響を与えてきましたが、同時にディープネットワ...

メタバースは過大評価されてきたが、2050年までにAIによって現実のものとなる

メタバースの概念が誇張され、まるでそれが本当に存在するかのように人々が話していることは間違いありませ...

MetaMindによるNLP研究の徹底分析:機械学習をスキップさせる方法

自然言語処理は、人工知能研究における中心的な課題の 1 つです。最近、Salesforceによる買収...

...

アルゴリズム王国では中国が他国を追い抜くかもしれない

今年の初め、世界中で人工知能の発展に注目していた人たちの注目を集めた出来事が2つありました。一つは、...

音声認識にPythonを使用する方法を教えます

[[282998]]オンラインでいくつかの例を見つけましたが、音声をテキストに変換できる成熟したモデ...

機械学習は世界をどう見ているか: 機械学習との戦いは人工知能と人間の思考の違いを説明する

人間の観察者にとって、次の 2 つの画像は同一です。しかし、Google の研究者は 2015 年に...

マスク氏は突然、xAI の「奇妙な」モデルを公開し、ユーモアのセンスを見せつけた。 ChatGPTのメジャーアップデートが事前にリークされる

11月3日、マスク氏は週末に突然エキサイティングなニュースをもたらしました。xAIの最初の製品が明日...

次世代人工知能の開発方向(第2部)

[[349523]]人工知能は半世紀以上前から存在していますが、人工知能の分野は過去 10 年間で...

GPT-4はバードに追い抜かれても納得せず、最新モデルが市場に投入された

「ビッグモデル予選コンペティション」チャットボット アリーナの公式リストが更新されました: Goog...

Google、検索結果にAIベースの「要約」機能を追加

Googleは8月4日、今年のGoogle I/Oで「Search Generative Engin...

...

RNN モデルが Transformer の覇権に挑戦!ミストラル7Bに匹敵する1%のコストパフォーマンス、世界最多の100以上の言語をサポート

ビッグモデルが退化する中、トランスフォーマーの地位も次々と脅かされてきました。最近、RWKV は最新...

ChatGPT は月間アクティブユーザー数が 15 億人に達し、他社を大きくリードしています。 50社が6か月間競争し、そのうち80%が自社で立ち上げた企業だった

生成 AI が人気を集め始めてほぼ 1 年が経ちましたが、そろそろ年次総括の時期が来ています。最近、...

データ構造とアルゴリズム: グラフ構造

写真グラフ構造は、ツリー構造よりも複雑な非線形構造です。ツリー構造では、ノード間に分岐階層関係があり...