データサイエンスに必須の Python パッケージ 10 個

データサイエンスに必須の Python パッケージ 10 個

[51CTO.com クイック翻訳] データサイエンスに対する人々の関心は過去 5 年間で大幅に高まりました。データサイエンスや機械学習に適したプログラミング言語は数多くありますが、最も人気があるのはPythonです。

Python は機械学習に最適な言語であるため、この記事では最も人気のある機械学習パッケージを含む、10 個の重要な Python 中心のデータ サイエンス パッケージについて説明します。

サイキットラーン

Scikit-Learn は、SciPy と NumPy をベースにした Python 機械学習モジュールです。これは、Google Summer of Code プロジェクトとして David Cournapeau によって開発されました。それ以来、コミット数は 20,000 件を超え、リリース数は 90 件を超えるまでに成長しました。 JPMorgan Chase や Spotify などの企業は、データ サイエンスの取り組みにこれを使用しています。

Scikit-Learn は学習曲線が緩やかなので、企業のビジネスパーソンでも使用できます。たとえば、Scikit-Learn の公式 Web サイト (https://scikit-learn.org/stable/auto_examples/index.html#examples-based-on-real-world-datasets) にある一連のチュートリアルでは、実際のデータセットを分析する方法が説明されています。初心者で機械学習ライブラリを学びたい場合、Scikit-Learn が最適な選択です。

要件は次のとおりです。

  • Python 3.5以上
  • NumPy 1.11.0 以上
  • SciPy 0.17.0以上

パイトーチ

PyTorch は 2 つの点で優れています。まず、強力な GPU を使用してテンソル計算を高速化します。 2 番目に、テープベースの autograd システム上に動的なニューラル ネットワークを構築し、再利用とパフォーマンスの向上を実現します。これら両方の機能を簡単に習得できるパッケージを求めている学者やエンジニアにとって、PyTorch は最適です。

PyTorch は特定の状況で優れています。たとえば、前述のように、GPU を使用してテンソルをより速く計算したいですか? NumPy ではそれができないため、PyTorch を使用します。言語処理に RNN を使用したいですか? ランタイム定義の機能があるため、PyTorch を使用してください。あるいは、ディープラーニングを使いたいけれど初心者ですか? Scikit-Learn はディープラーニングには適していないため、PyTorch を使用してください。

PyTorch の要件はオペレーティング システムによって異なります。インストールは Scikit-Learn よりも少し複雑です。 「はじめに」ページをガイドとして使用することをお勧めします。通常、次のものが必要です。

  • Python 3.6以上
  • Conda 4.6.0 以上

カフェ

Caffe は畳み込みネットワークを実装するための最も高速なツールの 1 つであり、画像認識に最適です。画像の処理に優れています。

Yangqing Jia 氏は、カリフォルニア大学バークレー校で博士号取得を目指しながら Caffe の開発を始めました。これは BSD 2 条項ライセンスの下でリリースされており、市場で最も高性能なディープラーニング フレームワークの 1 つとして高く評価されています。公式サイトによれば、Caffe の画像処理速度は非常に驚異的で、「1 つの NVIDIA K40 GPU を使用して 1 日あたり 6,000 万枚以上の画像を処理できる」と主張しています。

学習曲線はまだ比較的緩やかですが、Caffe では少なくとも機械学習に関する中級レベルの知識があることを前提としていることを強調しておきます。

PyTorch と同様に、要件はオペレーティング システムによって異なります。インストール ガイドについては、こちら (http://caffe.berkeleyvision.org/installation.html) を参照してください。可能であれば、すぐに使用できるように Docker 版を使用することをお勧めします。必須の依存関係は次のとおりです。

  1. GPU モード用の CUDA (https://developer.nvidia.com/cuda-zone)
  • ライブラリバージョン7以上と最新のドライババージョンが推奨されますが、6シリーズバージョンも良いです
  • 5.5 は 5.0 と互換性がありますが、古いバージョンと見なされます。
  1. BLAS (http://en.wikipedia.org/wiki/Basic_Linear_Algebra_Subprograms)、ATLAS、MKL、または OpenBLAS 経由
  2. Boost 1.55 以上 (http://www.boost.org/)

テンソルフロー

TensorFlow は、いくつかの非常に良い理由から、最も有名な機械学習ライブラリの 1 つです。データフローグラフを使用した数値計算に優れています。

TensorFlow はもともと Google Brain によって開発されたオープンソースです。さまざまなタスクにデータフローグラフと微分可能プログラミングを使用し、これまでに作成された中で最も柔軟で強力な機械学習ライブラリの 1 つとなっています。

大規模なデータセットを迅速に処理する必要がある場合、これは無視できないライブラリです。

最新の安定バージョンは v1.13.1 ですが、新しい v2.0 は現在ベータ テスト中です。

テアノ

Theano は、ディープラーニング開発用の最も初期のオープンソース ソフトウェア ライブラリの 1 つであり、高速コンピューティングに最適です。

Theano は 2017 年の v1.0 のリリース後に大規模な開発の停止を発表しましたが、その歴史を研究することはまだ可能です。この Python パッケージがデータ サイエンス向けトップ 10 のリストに載っているのは、このパッケージに精通していれば、その革新が後にどのように進化して、今日の競合ライブラリに見られる機能になったかについて、大まかな見当がつくからです。

パンダ

Pandas は、Python で書かれた強力で柔軟なデータ分析ライブラリです。厳密には機械学習ライブラリではありませんが、大規模なデータセットのデータ分析や処理に適しています。特に、データ構造 (DataFrame など)、時系列の操作と分析、数値データ テーブルに使用するのが好きです。大企業やスタートアップ企業の多くのビジネス従業員は、分析に Pandas を簡単に使用できます。さらに、使い始めるのは非常に簡単で、データ分析機能は競合するライブラリに匹敵します。

Pandas を使用する場合は、次のものが必要です。

  • Setuptools バージョン 24.2.0 以降
  • NumPy バージョン 1.12.0 以上
  • Python dateutil 2.5.0 以上
  • クロスプラットフォームのタイムゾーン計算のためのpytz

ケラス

Keras は迅速な実験のために設計されています。 TensorFlow などの他のフレームワークでも実行できます。ディープラーニング ライブラリとして、Keras はプロトタイピングを簡単かつ迅速に行うことで知られています。

Keras は、使いやすい API のため、ディープラーニング ライブラリ愛好家の間で人気があります。 Jeff Hale 氏は主要なディープラーニング フレームワークの分類とランキングを行いましたが、Keras は劣っていません。

Keras に必要なのは、TensorFlow、Theano、CNTK の 3 つのバックエンド エンジンのいずれかだけです。

ナンピ

NumPy は、Python による科学計算に必要な必須パッケージです。科学計算用の使いやすい Python ライブラリを求める研究者にとって、これは最適な選択肢です。実際、NumPy はまさにこの目的のために設計されました。配列の計算がはるかに簡単になります。

もともと、NumPy コードは SciPy の一部でした。しかし、仕事で配列オブジェクトを使用する必要がある科学者は、かさばる SciPy パッケージをインストールする必要があります。これを回避するために、SciPy とは別に NumPy という新しいパッケージが作成されました。

NumPy を使用する場合は、Python 2.6.x、2.7.x、3.2.x 以上が必要です。

マトプロット

Matplotlib は、クロスプラットフォームのチャートやグラフを簡単に作成できる Python 2D プロット ライブラリです。

これまで、私たちは多くの機械学習、ディープラーニング、さらには高速コンピューティングフレームワークを導入してきました。しかし、データサイエンスでは、グラフやチャートを描くことも必要です。データ サイエンスと Python について話すとき、プロットとデータの視覚化のための Matplotlib がすぐに思い浮かびます。出版物品質の図や表を作成するのに最適です。

長期サポートの場合、現在の安定バージョンは v2.2.4 ですが、最新機能を入手するには v3.0.3 をダウンロードできます。 Python 2 のサポートは廃止されたため、Python 3 以降が必要になります。

サイパイ

SciPy は、主に数学、科学、工学におけるデータ サイエンス用のパッケージの大規模なライブラリです。技術的および科学的な計算を実行するために必要なものをすべて求めているデータ サイエンティストまたはエンジニアであれば、SciPy が最適です。

SciPy は NumPy 上に構築されているため、同じターゲット ユーザーを対象としています。多数のサブパッケージがあり、それぞれがフーリエ変換、信号処理、最適化アルゴリズム、空間アルゴリズム、最近傍法などの特定の領域に焦点を当てています。実際、これは典型的なデータ サイエンティストが必要とする Python コンパニオン ライブラリです。

要件に関して言えば、SciPy が必要な場合は NumPy も必要です。

これらは、データ サイエンスに関連する上位 10 の Python ライブラリです。

原題: Python に必須のデータ サイエンス パッケージ 10 選、著者: TJ Simmons

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  ボストン・ダイナミクスの二足歩行ロボット「アトラス」が驚異的な体操ショーを披露、ネットユーザー「恐ろしい」

>>:  AI軍拡競争により、将来のAIハードウェアアーキテクチャの開発に3つの主要な方向性が生まれました。

ブログ    
ブログ    

推薦する

人工知能の台頭が懸念を引き起こしています。私たちはどう対応すべきでしょうか?

AlphaGoがイ・セドルに勝利したことで世界は人工知能に再び親しむようになったが、アップグレード...

ロボットはどのようにして深く学習するのでしょうか?論理的判断と感情的な選択は依然として障害となっている

[[187099]]一人でいるときに少し寂しさを感じたらどうすればいいでしょうか?Microsoft...

脳コンピューターインターフェースにおける重要な進歩!国内チームが「フルスペクトル中国語解読」に成功:トップ3の正解率は100%に迫る

今年8月、ネイチャー誌に立て続けに掲載された2つの論文は、脳コンピューターインターフェースが言語回復...

逆転!清華大学の卒業生の死はグーグルのレイオフとは無関係、家庭内暴力の詳細が明らかに、男性は殺人罪で起訴された

地元警察は、ここ数日話題になっている「グーグルの人員削減により清華大学の夫婦が自殺」事件の詳細を発表...

...

...

その光景は衝撃的だ! 「世界最強」のロボット9台が国連AIロボット会議のステージに登場

今日はスカイネットが来ます!ロボットたちはジュネーブで初めての記者会見を開催したばかりだ。 9 台の...

...

脳コンピューターインターフェースが人間の思考を制御するのではないかと心配ですか?神経科学者:考えすぎ

[[400401]]現在、脳コンピューターインターフェースの急速な発展により、人々はパニックに陥って...

マイクロソフトとOpenAIが訴えられた後、アップルはニュース出版社とAIモデルのトレーニング費用の支払いについて交渉している

Appleは、AIモデルのトレーニングと開発のためにニュース資料にアクセスするために、いくつかの国際...

最初の壮大な統合事前トレーニング済みモデル! BEVGPT: 予測、意思決定、動作計画を統合します。

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

...

テスラのヒューマノイドロボットが再び進化:視覚のみに基づいて物体を自律的に分類し、ヨガができる

数ヶ月沈黙していたテスラのヒューマノイドロボット、オプティマスプライムがついに新たな展開を見せた。私...

あなたが知らないかもしれないゲームにおける AI に関する 5 つの予測

仮想現実ゲームの発展により、ゲームのプレイ方法や交流の仕方が急速に変化しています。仮想現実はゲームの...