データサイエンスに必須の Python パッケージ 10 個

[51CTO.com クイック翻訳] データサイエンスに対する人々の関心は過去 5 年間で大幅に高まりました。データサイエンスや機械学習に適したプログラミング言語は数多くありますが、最も人気があるのはPythonです。

Python は機械学習に最適な言語であるため、この記事では最も人気のある機械学習パッケージを含む、10 個の重要な Python 中心のデータサイエンスパッケージについて説明します。

サイキットラーン

Scikit-Learn は、SciPy と NumPy をベースにした Python 機械学習モジュールです。これは、Google Summer of Code プロジェクトとして David Cournapeau によって開発されました。それ以来、コミット数は 20,000 件を超え、リリース数は 90 件を超えるまでに成長しました。 JPMorgan Chase や Spotify などの企業は、データサイエンスの取り組みにこれを使用しています。

Scikit-Learn は学習曲線が緩やかなので、企業のビジネスパーソンでも使用できます。たとえば、Scikit-Learn の公式 Web サイト (https://scikit-learn.org/stable/auto_examples/index.html#examples-based-on-real-world-datasets) にある一連のチュートリアルでは、実際のデータセットを分析する方法が説明されています。初心者で機械学習ライブラリを学びたい場合、Scikit-Learn が最適な選択です。

要件は次のとおりです。

Python 3.5以上
NumPy 1.11.0 以上
SciPy 0.17.0以上

パイトーチ

PyTorch は 2 つの点で優れています。まず、強力な GPU を使用してテンソル計算を高速化します。 2 番目に、テープベースの autograd システム上に動的なニューラルネットワークを構築し、再利用とパフォーマンスの向上を実現します。これら両方の機能を簡単に習得できるパッケージを求めている学者やエンジニアにとって、PyTorch は最適です。

PyTorch は特定の状況で優れています。たとえば、前述のように、GPU を使用してテンソルをより速く計算したいですか? NumPy ではそれができないため、PyTorch を使用します。言語処理に RNN を使用したいですか? ランタイム定義の機能があるため、PyTorch を使用してください。あるいは、ディープラーニングを使いたいけれど初心者ですか? Scikit-Learn はディープラーニングには適していないため、PyTorch を使用してください。

PyTorch の要件はオペレーティングシステムによって異なります。インストールは Scikit-Learn よりも少し複雑です。「はじめに」ページをガイドとして使用することをお勧めします。通常、次のものが必要です。

Python 3.6以上
Conda 4.6.0 以上

カフェ

Caffe は畳み込みネットワークを実装するための最も高速なツールの 1 つであり、画像認識に最適です。画像の処理に優れています。

Yangqing Jia 氏は、カリフォルニア大学バークレー校で博士号取得を目指しながら Caffe の開発を始めました。これは BSD 2 条項ライセンスの下でリリースされており、市場で最も高性能なディープラーニングフレームワークの 1 つとして高く評価されています。公式サイトによれば、Caffe の画像処理速度は非常に驚異的で、「1 つの NVIDIA K40 GPU を使用して 1 日あたり 6,000 万枚以上の画像を処理できる」と主張しています。

学習曲線はまだ比較的緩やかですが、Caffe では少なくとも機械学習に関する中級レベルの知識があることを前提としていることを強調しておきます。

PyTorch と同様に、要件はオペレーティングシステムによって異なります。インストールガイドについては、こちら (http://caffe.berkeleyvision.org/installation.html) を参照してください。可能であれば、すぐに使用できるように Docker 版を使用することをお勧めします。必須の依存関係は次のとおりです。

GPU モード用の CUDA (https://developer.nvidia.com/cuda-zone)

ライブラリバージョン7以上と最新のドライババージョンが推奨されますが、6シリーズバージョンも良いです
5.5 は 5.0 と互換性がありますが、古いバージョンと見なされます。

BLAS (http://en.wikipedia.org/wiki/Basic_Linear_Algebra_Subprograms)、ATLAS、MKL、または OpenBLAS 経由
Boost 1.55 以上 (http://www.boost.org/)

テンソルフロー

TensorFlow は、いくつかの非常に良い理由から、最も有名な機械学習ライブラリの 1 つです。データフローグラフを使用した数値計算に優れています。

TensorFlow はもともと Google Brain によって開発されたオープンソースです。さまざまなタスクにデータフローグラフと微分可能プログラミングを使用し、これまでに作成された中で最も柔軟で強力な機械学習ライブラリの 1 つとなっています。

大規模なデータセットを迅速に処理する必要がある場合、これは無視できないライブラリです。

最新の安定バージョンは v1.13.1 ですが、新しい v2.0 は現在ベータテスト中です。

テアノ

Theano は、ディープラーニング開発用の最も初期のオープンソースソフトウェアライブラリの 1 つであり、高速コンピューティングに最適です。

Theano は 2017 年の v1.0 のリリース後に大規模な開発の停止を発表しましたが、その歴史を研究することはまだ可能です。この Python パッケージがデータサイエンス向けトップ 10 のリストに載っているのは、このパッケージに精通していれば、その革新が後にどのように進化して、今日の競合ライブラリに見られる機能になったかについて、大まかな見当がつくからです。

パンダ

Pandas は、Python で書かれた強力で柔軟なデータ分析ライブラリです。厳密には機械学習ライブラリではありませんが、大規模なデータセットのデータ分析や処理に適しています。特に、データ構造 (DataFrame など)、時系列の操作と分析、数値データテーブルに使用するのが好きです。大企業やスタートアップ企業の多くのビジネス従業員は、分析に Pandas を簡単に使用できます。さらに、使い始めるのは非常に簡単で、データ分析機能は競合するライブラリに匹敵します。

Pandas を使用する場合は、次のものが必要です。

Setuptools バージョン 24.2.0 以降
NumPy バージョン 1.12.0 以上
Python dateutil 2.5.0 以上
クロスプラットフォームのタイムゾーン計算のためのpytz

ケラス

Keras は迅速な実験のために設計されています。 TensorFlow などの他のフレームワークでも実行できます。ディープラーニングライブラリとして、Keras はプロトタイピングを簡単かつ迅速に行うことで知られています。

Keras は、使いやすい API のため、ディープラーニングライブラリ愛好家の間で人気があります。 Jeff Hale 氏は主要なディープラーニングフレームワークの分類とランキングを行いましたが、Keras は劣っていません。

Keras に必要なのは、TensorFlow、Theano、CNTK の 3 つのバックエンドエンジンのいずれかだけです。

ナンピ

NumPy は、Python による科学計算に必要な必須パッケージです。科学計算用の使いやすい Python ライブラリを求める研究者にとって、これは最適な選択肢です。実際、NumPy はまさにこの目的のために設計されました。配列の計算がはるかに簡単になります。

もともと、NumPy コードは SciPy の一部でした。しかし、仕事で配列オブジェクトを使用する必要がある科学者は、かさばる SciPy パッケージをインストールする必要があります。これを回避するために、SciPy とは別に NumPy という新しいパッケージが作成されました。

NumPy を使用する場合は、Python 2.6.x、2.7.x、3.2.x 以上が必要です。

マトプロット

Matplotlib は、クロスプラットフォームのチャートやグラフを簡単に作成できる Python 2D プロットライブラリです。

これまで、私たちは多くの機械学習、ディープラーニング、さらには高速コンピューティングフレームワークを導入してきました。しかし、データサイエンスでは、グラフやチャートを描くことも必要です。データサイエンスと Python について話すとき、プロットとデータの視覚化のための Matplotlib がすぐに思い浮かびます。出版物品質の図や表を作成するのに最適です。

長期サポートの場合、現在の安定バージョンは v2.2.4 ですが、最新機能を入手するには v3.0.3 をダウンロードできます。 Python 2 のサポートは廃止されたため、Python 3 以降が必要になります。

サイパイ

SciPy は、主に数学、科学、工学におけるデータサイエンス用のパッケージの大規模なライブラリです。技術的および科学的な計算を実行するために必要なものをすべて求めているデータサイエンティストまたはエンジニアであれば、SciPy が最適です。

SciPy は NumPy 上に構築されているため、同じターゲットユーザーを対象としています。多数のサブパッケージがあり、それぞれがフーリエ変換、信号処理、最適化アルゴリズム、空間アルゴリズム、最近傍法などの特定の領域に焦点を当てています。実際、これは典型的なデータサイエンティストが必要とする Python コンパニオンライブラリです。

要件に関して言えば、SciPy が必要な場合は NumPy も必要です。

これらは、データサイエンスに関連する上位 10 の Python ライブラリです。

原題: Python に必須のデータサイエンスパッケージ 10 選、著者: TJ Simmons

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: ボストン・ダイナミクスの二足歩行ロボット「アトラス」が驚異的な体操ショーを披露、ネットユーザー「恐ろしい」

>>: AI軍拡競争により、将来のAIハードウェアアーキテクチャの開発に3つの主要な方向性が生まれました。