2021 年に検討すべき 15 のデータサイエンスツール

企業データの量と複雑さは増大しており、ビジネス上の意思決定や戦略計画においてデータが果たす中心的な役割により、企業はデータ資産を理解し、そこから洞察を得るために人材、プロセス、テクノロジーに投資するようになっています。これには、データサイエンスアプリケーションで一般的に使用されるさまざまなツールが含まれます。

[[395783]]

市場調査会社IDCは、パンデミックによるリモートワークやオンラインストリーミングの増加でデータ利用が加速し、2020年には64ZB（640億TBに相当）を超えるデータが作成、取得、コピー、使用されたと推定しています。ただし、データ分析の取り組みも重要な役割を果たします。 IDC が 2020 年 5 月に 59 ZB を最初に予測したとき、IDC の Global DataSphere 予測担当シニアバイスプレジデントの David Reinsel 氏は、継続的なデータ増加は「作成するデータよりも、使用および分析するデータによって推進される」と述べました。

有効なテクノロジーのポートフォリオを構築する際、データサイエンスチームはさまざまなツールとプラットフォームから選択できます。以下は、分析に役立つ可能性のある上位 15 個のデータサイエンスツールです。機能と特徴の詳細、および潜在的な制限とともに、アルファベット順にリストされています。

1. Apache Spark

Apache Spark は、数ペタバイトを超える膨大な量のデータを処理できるオープンソースのデータ処理および分析エンジンです。 2009 年の創設以来、Spark の高速データ処理能力によりプラットフォームの急速な発展が推進され、Spark プロジェクトはビッグデータテクノロジーにおける最大のオープンソースコミュニティの 1 つになりました。

Spark は高速であるため、ストリーミングデータをほぼリアルタイムで処理する継続的なインテリジェンスアプリケーションに最適です。ただし、汎用分散処理エンジンとして、Spark は抽出、変換、ロードの目的やその他の SQL バッチ処理ジョブにも同様に適しています。実際、Spark は当初、Hadoop クラスターでのバッチ処理用の MapReduce エンジンのより高速な代替手段として宣伝されていました。

Spark は今でも Hadoop と併用されることが多いですが、スタンドアロンで実行したり、他のファイルシステムやデータストアと連携したりすることもできます。機械学習ライブラリや主要なプログラミング言語のサポートを含む広範な開発者ライブラリと API を備えているため、データサイエンティストはプラットフォームをすぐに使い始めることができます。

2. D3.js

D3.js は、Web ブラウザーでカスタムデータ視覚化を作成するための JavaScript ライブラリである別のオープンソースツールです。 D3 (Data-Driven Documents の略) と呼ばれることが多く、独自のグラフィックス語彙ではなく、HTML、Scalable Vector Graphics、CSS などの Web 標準を使用します。 D3 の開発者は、D3 を最小限の作業でデータの視覚的表現を生成する動的かつ柔軟なツールであると説明しています。

D3.js を使用すると、ビジュアルデザイナーはドキュメントオブジェクトモデルを通じてデータをドキュメントにバインドし、DOM 操作メソッドを使用してドキュメントに対してデータ駆動型の変換を実行できます。 2011 年に初めてリリースされ、インタラクティブ性、アニメーション、注釈、定量分析などの機能をサポートし、さまざまな種類のデータ視覚化を設計するために使用できます。

ただし、D3 には 30 を超えるモジュールと 1,000 を超える視覚化方法が含まれているため、学習が複雑になります。さらに、多くのデータサイエンティストは JavaScript のスキルを持っていません。したがって、彼らは Tableau などの商用の視覚化ツールを好む可能性があり、D3 データ視覚化の主なユーザーは開発者や専門家 (データサイエンスチームのメンバーでもある) になります。

3. IBM SPSS

IBM SPSS は、複雑な統計データを管理および分析するためのソフトウェアファミリです。これには、統計分析、データ視覚化、レポート作成ツールである SPSS Statistics と、ドラッグアンドドロップ UI と機械学習機能を備えたデータサイエンスおよび予測分析プラットフォームである SPSS Modeler という 2 つの主要製品が含まれます。

SPSS Statistics は、計画からモデルの展開まで、分析プロセスのすべてのステップをカバーし、ユーザーが変数間の関係を明らかにしたり、データポイントのクラスターを作成したり、傾向を特定したり、予測を行ったりする機能などを可能にします。一般的な構造化データ型にアクセスでき、メニュー駆動型の UI、独自のコマンド構文、R および Python 拡張機能との統合、プロセスの自動化、SPSS Modeler への関係のインポート/エクスポート機能を提供します。

1968 年に SPSS Inc. によって開発され、当初は SPSS for Social Sciences として知られていたこの統計分析ソフトウェアは、SPSS が以前に買収した予測モデリングプラットフォームとともに、2009 年に IBM に買収されました。この製品ラインは正式には IBM SPSS として知られていますが、ソフトウェアは今でも単に SPSS と呼ばれることがよくあります。

4. ジュリア

Julia は、数値計算、機械学習、その他の種類のデータサイエンスアプリケーションに使用されるオープンソースプログラミング言語です。 2012年にJuliaを発表したブログ記事で、4人の開発者は自分たちのニーズをすべて満たす言語を設計していると述べた。ここで重要な目標は、ある言語でプログラムを記述し、それを実行するために別の言語に変換することを避けることです。

このため、Julia は高レベルの動的言語の利便性と、C や Java などの静的型付け言語に匹敵するパフォーマンスを兼ね備えています。ユーザーはプログラム内でデータ型を定義する必要はありませんが、定義することもできます。実行時に複数のディスパッチメソッドを使用すると、実行速度の向上にも役立ちます。

Julia 1.0 は、言語がリリースされてから 9 年後の 2018 年にリリースされました。最新バージョンは2021年3月にリリースされた1.6です。 Julia のドキュメントには、そのコンパイラーは Python や R などのデータサイエンス言語のインタープリターとは異なるため、新しいユーザーは「最初は Julia のパフォーマンスが直感的ではないと感じる可能性があります」と記載されています。しかし、Julia は次のように主張しています。「Julia の仕組みを理解すれば、C と同じくらい速くコードを書くのが簡単になります。」

5. Jupyterノートブック

数学者、研究者、その他のユーザー間のインタラクティブなコラボレーション。これは、説明テキスト、画像、その他の情報とともにコードを作成、編集、共有するために使用できる計算ノートブックツールです。たとえば、Jupyter ユーザーは、ソフトウェアコード、計算、注釈、データの視覚化、計算結果のリッチメディア表現をノートブックと呼ばれる単一のドキュメントに追加し、同僚と共有したり変更したりできます。

したがって、Jupyter Notebook のドキュメントによると、ノートブックは「データサイエンスチームのメンバー間の対話型セッションの計算の完全な記録として機能することができます」。ノートブックドキュメントはバージョン管理された JSON ファイルです。さらに、ノートブックビューアーサービスを使用すると、システムに Jupyter がインストールされていないユーザーが表示できるように、静的 Web ページとしてレンダリングできます。

Jupyter Notebook は Python プログラミング言語に由来しており、2014 年に分離される前は、もともと IPython インタラクティブツールキットオープンソースプロジェクトの一部でした。これら 3 つの言語のサポートに加えて、Jupyter は他の数十の言語用のモジュラーカーネルも提供します。

6. ケラス

Keras は、データサイエンティストが TensorFlow 機械学習プラットフォームに簡単にアクセスして使用できるようにするプログラミングインターフェイスです。これは、TensorFlow 上で実行され、現在プラットフォームに統合されている、Python で記述されたオープンソースのディープラーニング API およびフレームワークです。 Keras は以前は複数のバックエンドをサポートしていましたが、2020 年 6 月のバージョン 2.4.0 以降では TensorFlow のみにバンドルされています。

高レベルの API である Keras は、他のディープラーニングオプションよりも少ないコーディングで、シンプルで高速な実験を実行できるように設計されています。 Keras のドキュメントに記載されているように、その目標は、「高い反復速度」を備えた開発プロセスを通じて機械学習モデル (特にディープラーニングニューラルネットワーク) の展開を高速化することです。

Keras フレームワークには、入力と出力を持つ比較的単純なレイヤーの線形スタックを作成するためのシーケンシャルインターフェースと、より複雑なレイヤーグラフを構築したり、ディープラーニングモデルをゼロから作成したりするための機能 API が含まれています。 Keras モデルは CPU または GPU 上で実行でき、Web ブラウザーや Android および iOS モバイルデバイスなど、複数のプラットフォームに展開できます。

7. マトラボ

1984 年以来ソフトウェアベンダー MathWorks によって開発および販売されている Matlab は、数値計算、数学モデリング、およびデータ視覚化のための高水準プログラミング言語および分析環境です。従来、エンジニアや科学者は、無線通信、産業用制御、信号処理、その他のアプリケーション向けのデータの分析、アルゴリズムの設計、組み込みシステムの開発にこれを使用しており、多くの場合、モデルベースの設計およびシミュレーション機能を提供する Simulink ツールと組み合わせて使用されています。

Matlab は、Python、R、Julia などの言語ほどデータサイエンスアプリケーションで広く使用されているわけではありませんが、機械学習やディープラーニング、予測モデリング、ビッグデータ分析、コンピュータービジョン、およびデータサイエンティストが行うその他の作業をサポートしています。プラットフォームに組み込まれたデータタイプと高度な機能は、分析アプリケーションでの探索的データ分析とデータ準備を高速化するように設計されています。

Matlab は比較的習得しやすく使いやすいと考えられています。正式名称は matrix laboratory です。ビルド済みのアプリケーションが含まれており、ユーザーは独自のアプリケーションを構築できます。また、分野固有のソフトウェアを含むアドオンツールボックスのライブラリや、2D および 3D グラフィックスでデータを視覚化する機能を含む数百の組み込み機能も備えています。

8. マトプロット

Matplotlib は、分析アプリケーションでデータを読み取り、入力し、視覚化するためのオープンソースの Python プロットライブラリです。データサイエンティストやその他のユーザーは、Matplotlib を使用して、Python スクリプト、Python および IPython シェル、Jupyter Notebook、Web アプリケーションサーバー、さまざまな GUI ツールキットで静的、アニメーション化、インタラクティブなデータ視覚化を作成できます。

ライブラリの大規模なコードベースは把握しにくい場合がありますが、レイヤー構造になっており、ユーザーが主に高レベルのコマンドを使用して視覚化を構築できるように設計されています。この階層の最も重要なコンポーネントは pyplot です。これは、「ステートマシン環境」を提供し、Matlab と同様の一連の単純なプロット関数を提供するモジュールです。

2003 年に初めてリリースされた Matplotlib にもオブジェクト指向インターフェースが含まれており、pyplot と一緒に使用することも、単独で使用することもできます。より複雑なデータプロットのための低レベルコマンドをサポートします。このライブラリは主に 2D 視覚化の作成に重点を置いていますが、3D プロット機能を備えた追加のツールキットも提供します。

9. パイソン

Python は、データサイエンスと機械学習の分野で最も広く使用されているプログラミング言語であり、最も人気のある言語の 1 つです。 Python オープンソースプロジェクトの Web サイトでは、Python を「動的なセマンティクスを備えた、解釈型のオブジェクト指向の高水準プログラミング言語」であり、組み込みのデータ構造と動的な型付けおよびバインディング機能を備えていると説明されています。また、同サイトでは、Python のシンプルな構文を宣伝し、習得が容易で、読みやすさを重視しているためプログラムのメンテナンスコストが削減されると述べている。

この多用途の言語は、データ分析、データ視覚化、AI、自然言語処理、ロボティックプロセスオートメーションなど、さまざまなタスクに使用できます。開発者は Python を使用して、Web、モバイル、デスクトップアプリケーションを作成することもできます。オブジェクト指向プログラミングに加えて、プロシージャ、関数、その他の型、および C または C++ で記述された拡張機能もサポートします。

Python は、データサイエンティスト、プログラマー、ネットワークエンジニアだけでなく、そのユーザーフレンドリーな機能に魅力を感じるコンピューティングプロフェッショナル (会計士から数学者、科学者まで) にも使用されています。 Python 2.x と 3.x はどちらも本番環境で使用可能な言語バージョンですが、2.x シリーズのサポートは 2020 年に終了しました。

10. パイトーチ

PyTorch は、ニューラルネットワークに基づくディープラーニングモデルの構築とトレーニングを行うオープンソースフレームワークです。PyTorch の支持者は、PyTorch が高速で柔軟な実験と、本番環境へのシームレスな移行をサポートすると主張しています。 Python ライブラリは、Lua プログラミング言語に基づく前身の機械学習フレームワークである Torch よりも使いやすいように設計されています。開発者によると、PyTorch は Torch よりも優れた柔軟性と速度も提供します。

2017 年に初めて公開された PyTorch は、配列のようなテンソルを使用してモデルの入力、出力、およびパラメーターをエンコードします。そのテンソルは、科学計算用の別の Python ライブラリである NumPy でサポートされている多次元配列に似ていますが、PyTorch では GPU 上でモデルを実行するための組み込みサポートが追加されています。 NumPy 配列は、PyTorch で処理するためにテンソルに変換でき、その逆も可能です。

このライブラリには、torch.autograd と呼ばれる自動微分パッケージやニューラルネットワークを構築するためのモジュール、PyTorch モデルをデプロイするための TorchServe ツール、iOS および Android デバイスのデプロイサポートなど、さまざまな機能とテクノロジが含まれています。 PyTorch は、メインの Python API に加えて、別のフロントエンドインターフェイスとして使用したり、Python アプリケーションの拡張機能を作成したりできる C++ も提供します。

11. り

R プログラミング言語は、統計計算やグラフィックアプリケーション、およびデータ処理、分析、視覚化のために設計されたオープンソースコード環境です。多くのデータサイエンティスト、学術研究者、統計学者がデータの取得、クリーニング、分析、提示に R を使用しており、R はデータサイエンスと高度な分析で最も人気のある言語の 1 つとなっています。

このオープンソースプロジェクトは R Foundation によってサポートされており、R の機能を強化するコードライブラリを含む、ユーザー作成のパッケージ数千個をホストしています。たとえば、R ベースのデータサイエンスツールの tidyverse の一部である、グラフィックスを作成するための有名なパッケージである ggplot2 などがあります。さらに、いくつかのベンダーが R 用の統合開発環境と商用コードライブラリを提供しています。

R は Python に似たインタープリタ型言語であり、比較的直感的であることで知られています。これは、1970 年代に開発された統計プログラミング言語である S の代替として 1990 年代に作成されました。R は、2 人の作成者のイニシャルです。

12. スエージェンシー

SAS は、統計分析、高度な分析、BI、データ管理のための統合ソフトウェアスイートです。ソフトウェアベンダーのSAS Institute Inc.が開発、販売するこのプラットフォームにより、ユーザーはデータを統合、クリーニング、準備、処理することができ、その後、さまざまな統計およびデータサイエンスの手法を使用してデータを分析することができます。 SAS は、基本的な BI やデータの視覚化から、リスク管理、運用分析、データマイニング、予測分析、機械学習まで、さまざまなタスクに使用できます。

SAS の開発は 1966 年にノースカロライナ州立大学で始まりました。この技術の利用は 1970 年代初頭から増加し始め、1976 年に SAS Institute が独立した会社として設立されました。このソフトウェアはもともと統計学者向けに設計されました。SAS は Statistics Analysis System の略です。しかし、時間が経つにつれて、幅広い機能が追加され、商業企業と学術界の両方で最も広く使用されている分析スイートの 1 つになりました。

現在、開発とマーケティングの取り組みは、2016 年にリリースされ、2020 年にクラウドネイティブになるように再設計されたプラットフォームのクラウドベースバージョンである SAS Viya に重点が置かれています。

13. サイキットラーン

Scikit-learn は、SciPy および NumPy 科学計算ライブラリと、データをプロットするための Matplotlib をベースにした、Python 用のオープンソース機械学習ライブラリです。教師あり機械学習と教師なし機械学習の両方をサポートし、scikit-learn 用語で推定器と呼ばれる多くのアルゴリズムとモデルが含まれています。さらに、モデルのフィッティング、選択、評価、およびデータの前処理と変換のための機能も提供します。

もともと scikits.learn として知られていたこのライブラリは、2007 年に Google Summer of Code プロジェクトとして始まり、2010 年に初めて一般公開されました。名前の最初の部分は SciPy Toolbox の略語で、他の SciPy アドオンでも使用されます。 Scikit-learn は主に、NumPy 配列または SciPy スパース行列に格納された数値データを処理します。

ライブラリのツールスイートは、データトランスフォーマーオブジェクトとエスティメーターを組み合わせたデータセットの読み込みやワークフローパイプラインの作成など、さまざまなタスクもサポートします。しかし、scikit-learn には設計上の制約による制限もあります。たとえば、ディープラーニング、強化学習、GPU はサポートされておらず、ライブラリの Web サイトには、開発者は「十分に確立されたアルゴリズムのみを組み込むことを検討する」と記載されています。

14. テンソルフロー

TensorFlow は、Google が開発したオープンソースの機械学習プラットフォームであり、ディープラーニングニューラルネットワークの展開に特に人気があります。このプラットフォームは、NumPy 多次元配列に似たテンソルの形式で入力を受け取り、グラフ構造を使用して、開発者がデータに対して指定した一連の計算操作を実行します。また、グラフを使用せずに操作を独立して実行する Eager 実行プログラミング環境も提供し、機械学習モデルの調査とデバッグの柔軟性を高めます。

Google は 2015 年に TensorFlow をオープンソース化し、2017 年にバージョン 1.0.0 をリリースしました。 TensorFlow は Python をコアプログラミング言語として使用し、モデルの構築とトレーニングに Keras 高レベル API も組み込むようになりました。さらに、TensorFlow.js ライブラリは JavaScript でのモデル開発をサポートしており、カスタム操作 (ops と略記) を C++ で構築できます。

このプラットフォームには、本番環境の機械学習パイプラインをエンドツーエンドで展開するための TensorFlow 拡張モジュールと、モバイルおよび IoT デバイス用の TensorFlow Lite も含まれています。 TensorFlow モデルは、CPU、GPU、Google の専用 Tensor Processing Unit でトレーニングおよび実行できます。

15. ウェカ

Weka は、データマイニングタスクに使用できる一連の機械学習アルゴリズムを提供するオープンソースワークベンチです。 Weka のアルゴリズムは分類子と呼ばれ、GUI またはコマンドラインインターフェイスを介してプログラミングなしでデータセットに直接適用して追加機能を提供できます。また、Java API を介して展開することもできます。

ワークベンチは、分類、クラスタリング、回帰、関連ルールマイニングアプリケーションに使用でき、データの前処理および視覚化ツールのセットも含まれています。さらに、Weka は R、Python、Spark、scikit-learn などの他のライブラリとの統合をサポートしています。ディープラーニングの目的で、アドオンパッケージはこれを Eclipse Deeplearning4j ライブラリと組み合わせます。

Weka は、GNU General Public License に基づいてライセンスされたフリーソフトウェアです。このソフトウェアは 1992 年にニュージーランドのワイカト大学で開発され、最初のバージョンが Java で書き直されて現在のワークベンチが作成され、1999 年に初めてリリースされました。 Weka は、ニュージーランド原産の飛べない鳥にちなんで「知識分析のためのワイカト環境」の略称で、この技術の開発者らは、この鳥には「好奇心旺盛な性質」があると述べている。

データサイエンスと機械学習プラットフォーム

多くのソフトウェアベンダーは、機械学習、AI、その他のデータサイエンスアプリケーション向けの機能を統合した商用ライセンスのプラットフォームも提供しています。これらの製品は多岐にわたります。機械学習オペレーションセンター、自動化された機械学習プラットフォーム、フル機能の分析スイートなどがあり、これらの機能を組み合わせた製品もあります。多くのプラットフォームには、上記のデータサイエンスツールが含まれています。

Matlab と SAS もデータサイエンスプラットフォームとして数えられます。データサイエンスチームが検討すべきその他の重要なプラットフォームオプションは次のとおりです。

Alteryx 分析プロセス自動化プラットフォーム
Amazon セージメーカー
Azure 機械学習
Databricks レイクハウスプラットフォーム
ダタイク
データロボット
Domino データサイエンスプラットフォーム
Google Cloud AI プラットフォーム
H2O AIハイブリッドクラウド
IBM ワトソンスタジオ
クニメ
ラピッドマイナー
ティブコデータサイエンス

一部のプラットフォームでは、Dataiku や H2O など、無料のオープンソースバージョンやコミュニティバージョンも提供されています。 Knime は、オープンソースの分析プラットフォームと商用の Knime Server パッケージを組み合わせて、チームベースのコラボレーションとワークフローの自動化、展開、管理を可能にします。

<<: MITの新しい水中ロボット！機械学習を使用して 18 時間でパトリックスターを作成する (ダニエララスとの共著)

>>: TOP50 人工知能のケーススタディ: AI は単なる誇大宣伝ではなく、努力によって実現される