Milvus は、オープンソースの人工知能エコシステムにデータ サービス機能を提供するオープンソース プロジェクトです。人々はそれからどのように利益を得られるかを理解する必要があります。 オープンソースの人工知能プロジェクトについて話すとき、人々は通常、Google TensorFlow や PyTorch などのモデル フレームワーク プロジェクトを思い浮かべます。モデル フレームワークは人工知能モデルをトレーニングするための重要なコンポーネントであるため、これらのプロジェクトは通常、最も注目を集めます。しかし、AI は単一の技術ではなく、複数のサブフィールドと多くの異なるコンポーネントを含む複雑な技術分野です。
人工知能への移行の転換点 一般的に言えば、テクノロジーのアップグレードの転換点は、その収益がコストをはるかに上回ったときです。 AI 変革に適用する場合、モデル (アルゴリズム)、モデル推論、データ サービスなどのいくつかの基本的な要素が関係します。 モデルについて話すとき、人々は AI テクノロジーを活用することに対する期待を理解する必要があります。すべてのカスタマー サポート スペシャリストを AI 駆動の会話型ボットに置き換えるなど、AI テクノロジーを使用して人間を打ち負かし、人間に取って代わろうとする場合、AI モデルの需要は非常に高くなり、短期間で達成することはできません。 企業がカスタマー サポート スペシャリストを日常的に行っている単調で退屈な業務から解放したい場合、つまり AI テクノロジーを活用して人間の生産性と能力を高める計画を立てる場合、今日のモデルは多くの場合それを実現できます。 それは励みになりますね。しかし、モデルに関する激しい議論は、複数のモデルが利用可能である一方で、単一の最適なモデルは存在しないという点です。 AI 科学者を雇用している企業には、こうした最先端 (SOTA) モデルがあります。パブリックモデルのみを使用すると、競争上の優位性を失うことになりますか? より効率的なモデルの方がビジネス価値が高くなると考えるため、人々はこれに戸惑いますが、この考えは間違っている可能性があります。ほとんどの場合、モデルの有効性とビジネス価値の関係は線形でも単調増加でもありません。この関数のグラフを以下に示します。 これは区分関数です。最初の段階では、モデルがアプリケーション シナリオに実装されるまでビジネス価値はありません。第 2 段階では、理論上はモデルが優れているほどパフォーマンス (応答時間、有効性など) も優れているはずですが、実際のシナリオではそれほど明白ではない可能性があります。以下で見てみましょう。 医師が患者に肺感染症があるかどうかを確認する前に、肺のCTスキャンを行う必要があり、約300枚のCT画像が生成されます。経験豊富な医師であれば、これらの CT 画像を検査するのに 5 分から 15 分かかるでしょう。通常、治療する患者の数が少ない場合は、これは問題になりません。しかし、現在も続いているコロナウイルスの流行のような極端なケースでは、患者の急増が医師の手に負えなくなるだろう。 良いニュースは、データ サイエンティストがコンピューター ビジョン テクノロジーを通じて医師を支援するために取り組んでいることです。彼らが訓練したモデルは、数百または数千枚の CT 画像を処理し、数秒で診断の推奨を提供することができます。したがって、医師がモデルによって生成された結果を確認するのにかかる時間はわずか 1 分です。その結果、機械学習が導入される前は、CTスキャンで生成された結果を医師が確認するのに平均10分かかっていましたが、現在では約1分で済みます。生産性が約90%向上しました。 結果を生成するのにたった 3 秒しかかからない、より高速なモデルがあったらどうなるでしょうか。精度を 80% から 90% に高めることができる、より効率的なモデルがあったらどうなるでしょうか。医師が確認する結果は少なくなるでしょうか。答えは「いいえ」です。モデルの結果が 10 件中 1 件間違っていると、どれが間違っているのかを知る方法がなく、医師はすべての結果を確認しなければならないからです。したがって、それ以上の診断時間は節約されません。 さらに、モデル推論サービスのコストを削減するために、モデルの有効性を犠牲にする必要がある場合もあります。たとえば、ビジネス インテリジェンス プラットフォーム プロバイダーは 5,500 万件の商標画像を保有しており、ユーザーがこれらの商標の所有者を検索できるサービスを提供したいと考えています。ユーザーは、キーワードを入力する代わりに、商標画像を入力クエリとしてアップロードして検索を実行します。 その背後にある技術は、VGG モデルなどのコンピューター ビジョンです。企業がバックエンド サーバーでモデル推論を実行する場合、データ センターのハードウェア リソースを割り当てて予約する必要があります。もう 1 つの選択肢は、より小さなモデルを展開して、企業がモデル推論をエッジ コンピューティング デバイス (ほとんどの場合、スマートフォン) に配置できるようにすることです。これにより、GPU などの高価なモデル推論ハードウェアのコストが確実に削減されます。これは、SOTA モデルがすべてのシナリオで競争力を持つことが不可能であることを示すもう 1 つの例です。 私たちはすでに人工知能への変革の転換点にいます。そうなると、この転換点をいかに乗り越え、AI テクノロジーを導入してビジネス能力を強化するかという問題が出てきます。 モデルが利用可能であることが前提条件です。しかし、モデルだけがあれば AI プログラムを開発するのは簡単ではありません。従来のアプリケーションと同様に、データ サービスは常に重要な部分です。ご覧のとおり、これは今日の人工知能の導入に不可欠な要素となっています。そのため、人工知能の導入を加速させるためにオープンソース プロジェクト Milvus が開始されました。 AI導入におけるデータの課題 一部の企業が人工知能技術を通じて処理しようとするデータのほとんどは非構造化されているため、Milvus プロジェクトは非構造化データ サービスの強固な基盤を提供することが期待されています。 通常、データは構造化データ、半構造化データ、非構造化データの 3 つのタイプに分類されます。構造化データには、数値、日付、文字列などが含まれます。半構造化データには通常、さまざまなコンピュータ システム ログなど、特定の形式のテキスト情報が含まれます。非構造化データには、画像、ビデオ、音声、自然言語、およびコンピューターで直接処理できないその他のデータが含まれます。 非構造化データはデジタルデータ全体の少なくとも 80% を占めると推定されています。たとえば、人々は家族、友人、同僚と毎日数キロバイトのテキストメッセージを送受信することがあります。しかし、12メガピクセルのカメラを搭載したiPhone 11のようなモバイルデバイスで写真を撮るだけでも、数メガバイトの容量が必要になることがあります。 720pビデオを撮影するとどうなりますか? 構造化データを効率的に処理するために、リレーショナル データベースやビッグ データなどのテクノロジを開発している企業もあります。半構造化データは、Lucene、Solr、Elastic searchなどのテキストベースの検索エンジンで処理できますが、これまで大量の非構造化データを効果的に分析する方法はありませんでした。近年のディープラーニング技術の台頭により、非構造化データ処理技術は急速に発展してきました。 非構造化データサービス 埋め込みはディープラーニングの用語で、モデルを通じて非構造化データを特徴ベクトルに変換することを指します。固有ベクトルは数値の配列なので、コンピューターで簡単に処理できます。したがって、非構造化データの分析はベクトル コンピューティングに変換できます。 最も一般的な議論の 1 つは、特徴ベクトルは非構造化データ処理の中間結果であるように見えるというものです。一般的なベクトル類似性検索エンジンを構築する必要がありますか? モデルに含める必要がありますか? 専門家は、特徴ベクトルは単なる中間結果以上のものだと考えています。これは、ディープラーニング シナリオにおける非構造化データの知識表現です。これは特徴学習とも呼ばれます。 もう 1 つの議論は、特徴ベクトルには数値も含まれているため、既存のデータ処理プラットフォーム (データベースなど) またはコンピューティング フレームワーク (Spark など) でベクトル計算を実行できないのではないかというものです。 正確に言うと、ベクトルは数値のリストで構成されます。これにより、ベクトル計算と数値演算の間に 2 つの重要な違いが生じます。
これらの大きな違いにより、従来のデータベースとビッグデータ技術はベクトル解析の要件を満たすことがほとんどできません。サポートするアルゴリズムと重点を置くシナリオは異なります。 |
<<: ドジャースが勝利! AIが野球ワールドシリーズの意思決定プロセスを支配
単純なスペルミスや単語の誤用によって会話ボットの応答が変わってしまう可能性がありますが、人間のエージ...
ディープニューラルネットワークのパラメータネットワークは非常に大きく複雑であり、これによりマシンはこ...
昨日、Lao Huangが再び「勝利」しました!なぜ?最新の MLPerf ベンチマークでは、NVI...
インターネットとモバイルインターネット時代の「ビジネスモデルの革新」がもたらす投資配当は、マクロ経済...
基本概念データストレージの観点から見ると、配列ストレージとツリーストレージは相互に変換できます。つま...
導入データサイエンス (機械学習) プログラムは、この分野でのキャリアをスタートさせる有望な方法を提...
[[410798]] FaceAppの人気は過ぎ去り、最近では、あなたの顔を数秒で「ディズニー」に変...
[[407579]]序文大企業の秋季採用の先行スタートが始まっており、新卒採用の秋季大幅強化の警鐘が...