ガートナーレポート: 私たちはデータサイエンスと機械学習ツールの「大爆発」の時代を迎えている

ガートナーレポート: 私たちはデータサイエンスと機械学習ツールの「大爆発」の時代を迎えている
ガートナー社によると、現在データサイエンスに使用されているツールは急速に変化しているという。同社は新しいデータサイエンスと機械学習プラットフォームに関するレポートの中で、私たちは「ビッグバン」の真っ只中にいると述べた。
[[259979]]

最近、ガートナーはデータサイエンスおよび機械学習ツールの 2019 年マジック クアドラントを発表しました。ガートナーのマジック・クアドラントは、特定の時点における市場の状況をグラフで表したものです。ガートナーの定義によれば、これは標準に基づいて市場におけるメーカーのガートナーの分析を説明しています。 Datanami の Alex Woodie が、2019 年のデータ サイエンスおよび機械学習ツールのマジック クアドラントを分析します。

ガートナー社によると、現在データサイエンスに使用されているツールは急速に変化しているという。同社は新しいデータサイエンスと機械学習プラットフォームに関するレポートの中で、私たちは「ビッグバン」の真っ只中にいると述べた。

1 月 28 日、ガートナーはデータ サイエンスおよび機械学習プラットフォームのマジック クアドラントを発表し、次のように述べています。「データ サイエンスおよび機械学習市場は健全かつ活発で、さまざまなベンダーがさまざまな製品を提供しています。この市場は「ビッグバン」を経験しており、データ サイエンスと機械学習を誰が行うべきかだけでなく、データ サイエンスと機械学習をどのように実装すべきかを再定義しています。」

アナリスト グループは、データ サイエンス プラットフォームを、データ サイエンティスト、シチズン データ サイエンティスト、開発者がデータ サイエンス アプリケーションの構築に必要なすべてのコア機能を利用できるだけでなく、それらを既存のビジネス プロセスと管理に組み込み、管理および保守できる包括的な場所と定義しています。

データ サイエンスおよび機械学習プラットフォームは、最小要件を満たし、次のツールを含める必要があります。

♦ データの抽出と準備

♦ データをインタラクティブに探索および視覚化します。

♦ エンジニアリングデータの特性評価と予測モデルの構築。

♦ これらのモデルを周囲のインフラストラクチャと統合、テスト、展開します。


ガートナーのデータサイエンスおよび機械学習プラットフォームのマジッククアドラント(図:ガートナー)

ガートナーは、統合と結合が重要であり、アプリケーション (特にオープンソース製品) がさまざまなパッケージとライブラリを単にバンドルしているだけであれば、そのような製品は真のプラットフォームとはみなされないと考えています。

これらのコア要件はデータ サイエンスと機械学習プラットフォームの基盤となりますが、ベンダーによって実装方法に大きな違いがあります。ガートナーは、プロのデータ サイエンティストは Python や R でコードを書くことを好む一方で、Jupyter などのデータ サイエンス ノートブックの使いやすさを好む人もいると指摘しています。また、テクノロジーにあまり詳しくなく、直感的に操作できるためマウスでクリックすることを好む人もいます。

リーダーズクアドラント

ガートナーは、リーダー クアドラントに、KNIME、RapidMiner、TIBCO Software、SAS の 4 つのベンダーを含めました。

ガートナーの評価では、強力な顧客サポート、幅広い製品ポートフォリオ、そして市場で最もバランスの取れたビジョンの 1 つにより、KNIME は高い評価を得ました。チューリッヒに本社を置く同社の製品ラインには、オープンソースの KNIME Analytics 製品と商用の KNIME Server 製品が含まれており、分析の「スイスアーミーナイフ」として知られています。ディープラーニングのサポート、中級ユーザーにとっての使いやすさ、他のパッケージとの高度な統合機能は高く評価されましたが、パフォーマンスとスケーラビリティが弱点と見られ、IoT への魅力は限られていました。

Rapid Miner も、使いやすさと複雑なデータ サイエンスをサポートする能力のバランスが取れているため、高い評価を得ています。このソフトウェアはディープラーニング技術と GPU への展開をサポートしており、Gartner は Rapid Miner が機械学習の展開に対してより透明性を提供する点を高く評価しているようです。オープンソース ツールとの統合により、データ サイエンティストにメリットがもたらされます。主な焦点は、データの準備と視覚化、ライセンスと価格設定、およびモデル操作です。

TIBCO は、Jaspersoft、Spotfire、Statistica、Alpine Data などの分析企業を多数買収し、それらを統合プラットフォームに統合することで、チャレンジャー象限から大きく脱却しました。 Gartner は、エンドツーエンドのワークフロー統合と IoT 機能、特にストリーミング分析の統合を提供する TIBCO を高く評価しています。潜在的な問題には、パフォーマンスと安定性、データ管理、運用上の問題などがあります。

SAS はこのリストの常連候補です。実際、評価されたプラットフォームは複数あります。同社の Enterprise Miner 製品は、さまざまな指標にわたって強力で信頼性の高いパフォーマンスを実現し、Visual Data Mining and Machine Learning (VDMML) はデータの準備と強化において高い評価を得ました。高い顧客満足度と強力な市場シェアにより、SAS の地位は確固たるものになりました。しかし、ガートナーは、特に価格と製品の一貫性の面で、SAS のいくつかの欠点も指摘しました。SAS EM のユーザー エクスペリエンスは一般の期待に応えておらず、SAS のオープン ソース アプローチはガートナーにとって疑問符でした。

チャレンジャー・クアドラント

チャレンジャー象限はかなり空いており、この象限には Alteryx と Dataiku の 2 つのベンダーのみが含まれています。

Alteryx は、「実行能力」(Y 軸) を維持しながら、「視覚的な完全性」(X 軸) をある程度失うことでこれを達成しました。ガートナーは、カリフォルニア州アービンの同社のエンドツーエンドのパイプラインにおける市民データサイエンス機能を挙げ、アナリストパネルは、Alteryx の機能にもかかわらず、市場が Alteryx を単なるデータ準備ツールと認識しているため、その真の価値が不明瞭になっていると述べました。

Dataiku の Data Science Studio (DSS) は、データ エンジニアから科学者まで、さまざまな関係者間のコラボレーションを促進する点が高く評価されました。 Gartner は、機械学習ワークフローに自動化をもたらす点や、実稼働後のモデルの管理と監視も高く評価しています。レポートによると、Dataiku の問題には、スケーラビリティ、価格、ストリーミング分析と IoT ユースケースのサポートなどが含まれる。

ビジョナリーズ・クアドラント

ビジョナリー象限は非常に混雑しており、7 社未満の新規ベンダーがその地位を争っています。

Databricksは2月5日にベンチャーキャピタルから2億5000万ドルを調達した。 Gartner は、Databricks の分析ライフサイクル全体に対するサポート、ハイブリッド クラウド戦略に対するサポート、さまざまなユーザーをサポートする能力に感銘を受けました。ユーザーは Spark ベースの製品を高く評価しており、Gartner によれば、ドキュメントは Databricks の強みの 1 つです。ただし、価格設定、契約交渉、監視、管理、トラブルシューティング、デバッグに関する潜在的な問題は、Databricks の潜在的な弱点となります。

ガートナーは、DataRobot がビジョナリー クアドラントに登場したのは今回が初めてであり、その理由として同社が「拡張データ サイエンスと機械学習の標準を確立した」こと、そしてその結果、顧客が優れた体験をし、それが同社の既存の忠実な顧客基盤をさらに強化するのに役立っていることを挙げた。販売の実行、価格設定、スケーラビリティの問題、そして「拡張分析」分野のコモディティ化の可能性はすべて共通の懸念事項でした。

H2O.aiは、激しい市場競争と自社の能力に対する顧客からの懸念を受けて、2月5日にH2Oワールドカンファレンスを開催した。しかし、中核となるオープンソースの機械学習コンポーネントのパフォーマンスは依然として H2O.ai の強みであり、GPU ベースのディープラーニングと無人 AI による機械学習の自動化機能はガートナーに高い評価を与えました。しかし、非開発者にとっては学習曲線が急峻であること、管理機能、データ アクセス、データ準備機能の不足など、懸念事項が山積しています。

ガートナーによると、Mathworks は資産中心の業界の顧客のニーズを満たす「驚異的な強み」を持っています (同社は製造業者やエンジニアリング組織との長年の経験を持っています)。その結果、MathWorks は「チャレンジャー」象限から「ビジョナリー」象限へと大きな一歩を踏み出しました。同社が提供する MATLAB は、「市民エンジニア」機能で広く賞賛されており、統合されたデータ準備とリアルタイム ストリーミング、ディープラーニング、シミュレーションのサポートは人々を感動させます。 Dings はエンジニア以外の人にとっては使いにくく、Google Cloud Platform をサポートしておらず、自動機械学習機能も欠けています。

Microsoft は、Azure Machine Learning、Azure Data Factory、Azure HDInsight、Power BI などのクラウドベースの製品で優れた成果を上げています。 Microsoft がサードパーティ、特に Databricks の Spark 製品と連携して、さまざまなデータ ロール (初心者レベルの機械学習愛好家を含む) をサポートしていることもプラスです。機械学習プロセスの自動化は問題であり、さまざまなツール間の一貫性も問題です。ローカリゼーション機能がないため、適用範囲も制限されます。

IBM は 2019 年もビジョナリー クアドラントに留まりましたが、地位は低下しました。ガートナーは、専門家と一般のデータ サイエンティストの両方に役立つ IBM の Watson Studio の包括性を高く評価しました。 SPSS Modeler の Watson Studio への統合も高く評価されました。しかし、完全なエンドツーエンドの機能には複数の製品のライセンスも必要となるため、IBM が製品を刷新し、戦略を変更する頻度は Gartner にとって懸念事項です。

Google は、Google のクラウドで利用できる幅広いツールのおかげで、データ サイエンスおよび機械学習プラットフォームのランキングで非常に良い成績を収めています。コアとなるデータ サイエンス プラットフォームには、Cloud ML Engine、Cloud AutoML、TensorFlow、BigQuery ML が含まれます。しかし、Google は、Tensor Processing Unit (TPU)、Kaggle クラウドソーシング、その他のさまざまな製品を含む独自のハードウェアも提供しています。 Google にとって、スケーラビリティとスピードは Google の強みです。しかし、これらのツール間のエンドツーエンドの一貫性の欠如は、使いやすさの欠如と同様に問題です。さらに、ローカライズされた製品の不足も問題です。

ニッチプレイヤー象限

ニッチ プレーヤー象限には 4 つのベンダーが存在します。

SAP の Predictive Analytics (PA) 製品は HANA と緊密に統合されており、SAP HANA のお客様に適しています。大規模な HANA データ セットを処理し、モデルを SAP アプリケーションに展開する機能が強みです。同じことは、Leonardo Machine Learning Foundation と連携した、統合機械学習アーキテクチャに関する SAP のビジョンにも当てはまります。しかし、製品の一貫性、AI戦略の変化、顧客体験はすべて、このドイツの巨大企業に不利に働いている兆候だ。

Domino Data Lab は、主に実行能力の低下が認識されたことを反映して、ビジョナリー クアドラントから格下げされました。ガートナーは、Domino の製品戦略、特にコラボレーションとエンドツーエンドのソリューションの構築に重点を置いている点を高く評価しています。オープンソース製品と独自製品の両方と統合できる機能と拡張性も、さらなる利点です。しかし、ガートナーによると、Domino は専門のデータ サイエンティストに重点を置いているため、一般のデータ サイエンティストの満足度は低く、データの準備、自動化、拡張機能が一部欠けているとのことです。

Anaconda は依然としてニッチなカテゴリに属します。 Anaconda 製品の主な利点は、データ サイエンスの革新を推進し続けているオープン ソース Python コミュニティにアクセスできることです。オープンソースの Python を拡張できる点もプラスです。しかし、ガートナーによると、Anaconda プラットフォームをうまく利用するために必要な専門知識は、Python の「ジャングル」の複雑さと同様、警告サインです。オープンソース コミュニティへの依存は、顧客が特定のものを必要とするときに不利な状況に陥ることにもつながります (Gartner はモデルの運用化の例を挙げています)。また、全体的な一貫性のレベルも不利になります。

Datawatch は、こ​​の分野で 20 年以上の経験を持つ企業である Angoss を 2018 年 1 月に買収し、マジック クアドラントに新しく参入しました。 Datawatch の製品の一貫性と使いやすさは Gartner によって高く評価され、テキスト分析と最適化エンジンのコンポーネントは平均を上回ると評価されました。顧客サポートもプラスですが、データ準備機能の欠如と、製品の全体的な見通しと買収をめぐる不確実性により、Datawatch のスコアは低迷しています。

オリジナルリンク:

https://www.datanami.com/2019/02/08/the-big-bang-of-data-science-and-ml-tools/

<<:  教師なし機械学習技術は金融セキュリティの懸念を解決できる

>>:  ビッグデータアルゴリズムとアプリケーションシナリオパート1: 統計と分布

ブログ    

推薦する

公式論文コードが公開されました。OpenAIはGPT-3のイメージ版をどのように実装したのでしょうか?

OpenAIはDALL-Eに関するいくつかの論文と実装コードを公開しました。今年初め、OpenAI...

受注収益が7億人民元を超えるPercentが、なぜこれほど爆発的な成長を遂げることができたのでしょうか?

2009年に設立されたPercentage Pointは、間違いなく中国のビッグデータ産業の発展の...

4分でノーベル賞の再現に成功! CMU は化学研究を覆す GPT-4 化学者、自律コーディング、ロボット制御を開発し、Nature に発表

ChatGPT モデルは今年人気となり、予想外に化学の分野全体を覆しました。まず、Google De...

...

初心者に適した機械学習アルゴリズムの選び方

この記事の主な対象読者は、機械学習の愛好家やデータサイエンスの初心者、そして機械学習アルゴリズムを学...

アルパカファミリーモデルが集合的に進化! Tian Yuandong のチームが作成した、GPT-4 と同等の 32k コンテキスト

オープンソースのアルパカ モデル LLaMA コンテキストは、1 つの簡単な変更だけで GPT-4 ...

...

デザイナーがAIについて語る:「デザインは最終的に完全に消滅するだろう」

デザイン界では有名なブランド、フィリップ・スタルク。国際宇宙ステーションの居住モジュールからスティー...

...

柔らかいロボットの進化:優しくて怖い

[[387359]] 30年以上前、エドワード・シザーハンズの「ナイフがなければ、君を守ることはでき...

...

基本的なプログラミングアルゴリズムを簡単にマスターする(パート2)

[[121970]]この記事を書く前に、プログラマーの基本的な知識についてお話ししたいと思います。...

NLP を上手に使いこなすには、適切な「武器」が必要です。GLUE で 1 位にランクされている武器をご存知ですか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

脳コンピューターインターフェースが人間の思考を制御するのではないかと心配ですか?神経科学者:考えすぎ

[[400401]]現在、脳コンピューターインターフェースの急速な発展により、人々はパニックに陥って...

3D MRI および CT スキャンのディープラーニング モデルの概要

医療画像データと他の日常的な画像との最大の違いの 1 つは、DICOM シリーズ データを扱う場合、...