データサイエンスに必須の Python パッケージ 10 個

データサイエンスに必須の Python パッケージ 10 個

[51CTO.com クイック翻訳] データサイエンスに対する人々の関心は過去 5 年間で大幅に高まりました。データサイエンスや機械学習に適したプログラミング言語は数多くありますが、最も人気があるのはPythonです。

Python は機械学習に最適な言語であるため、この記事では最も人気のある機械学習パッケージを含む、10 個の重要な Python 中心のデータ サイエンス パッケージについて説明します。

サイキットラーン

Scikit-Learn は、SciPy と NumPy をベースにした Python 機械学習モジュールです。これは、Google Summer of Code プロジェクトとして David Cournapeau によって開発されました。それ以来、コミット数は 20,000 件を超え、リリース数は 90 件を超えるまでに成長しました。 JPMorgan Chase や Spotify などの企業は、データ サイエンスの取り組みにこれを使用しています。

Scikit-Learn は学習曲線が緩やかなので、企業のビジネスパーソンでも使用できます。たとえば、Scikit-Learn の公式 Web サイト (https://scikit-learn.org/stable/auto_examples/index.html#examples-based-on-real-world-datasets) にある一連のチュートリアルでは、実際のデータセットを分析する方法が説明されています。初心者で機械学習ライブラリを学びたい場合、Scikit-Learn が最適な選択です。

要件は次のとおりです。

  • Python 3.5以上
  • NumPy 1.11.0 以上
  • SciPy 0.17.0以上

パイトーチ

PyTorch は 2 つの点で優れています。まず、強力な GPU を使用してテンソル計算を高速化します。 2 番目に、テープベースの autograd システム上に動的なニューラル ネットワークを構築し、再利用とパフォーマンスの向上を実現します。これら両方の機能を簡単に習得できるパッケージを求めている学者やエンジニアにとって、PyTorch は最適です。

PyTorch は特定の状況で優れています。たとえば、前述のように、GPU を使用してテンソルをより速く計算したいですか? NumPy ではそれができないため、PyTorch を使用します。言語処理に RNN を使用したいですか? ランタイム定義の機能があるため、PyTorch を使用してください。あるいは、ディープラーニングを使いたいけれど初心者ですか? Scikit-Learn はディープラーニングには適していないため、PyTorch を使用してください。

PyTorch の要件はオペレーティング システムによって異なります。インストールは Scikit-Learn よりも少し複雑です。 「はじめに」ページをガイドとして使用することをお勧めします。通常、次のものが必要です。

  • Python 3.6以上
  • Conda 4.6.0 以上

カフェ

Caffe は畳み込みネットワークを実装するための最も高速なツールの 1 つであり、画像認識に最適です。画像の処理に優れています。

Yangqing Jia 氏は、カリフォルニア大学バークレー校で博士号取得を目指しながら Caffe の開発を始めました。これは BSD 2 条項ライセンスの下でリリースされており、市場で最も高性能なディープラーニング フレームワークの 1 つとして高く評価されています。公式サイトによれば、Caffe の画像処理速度は非常に驚異的で、「1 つの NVIDIA K40 GPU を使用して 1 日あたり 6,000 万枚以上の画像を処理できる」と主張しています。

学習曲線はまだ比較的緩やかですが、Caffe では少なくとも機械学習に関する中級レベルの知識があることを前提としていることを強調しておきます。

PyTorch と同様に、要件はオペレーティング システムによって異なります。インストール ガイドについては、こちら (http://caffe.berkeleyvision.org/installation.html) を参照してください。可能であれば、すぐに使用できるように Docker 版を使用することをお勧めします。必須の依存関係は次のとおりです。

  1. GPU モード用の CUDA (https://developer.nvidia.com/cuda-zone)
  • ライブラリバージョン7以上と最新のドライババージョンが推奨されますが、6シリーズバージョンも良いです
  • 5.5 は 5.0 と互換性がありますが、古いバージョンと見なされます。
  1. BLAS (http://en.wikipedia.org/wiki/Basic_Linear_Algebra_Subprograms)、ATLAS、MKL、または OpenBLAS 経由
  2. Boost 1.55 以上 (http://www.boost.org/)

テンソルフロー

TensorFlow は、いくつかの非常に良い理由から、最も有名な機械学習ライブラリの 1 つです。データフローグラフを使用した数値計算に優れています。

TensorFlow はもともと Google Brain によって開発されたオープンソースです。さまざまなタスクにデータフローグラフと微分可能プログラミングを使用し、これまでに作成された中で最も柔軟で強力な機械学習ライブラリの 1 つとなっています。

大規模なデータセットを迅速に処理する必要がある場合、これは無視できないライブラリです。

最新の安定バージョンは v1.13.1 ですが、新しい v2.0 は現在ベータ テスト中です。

テアノ

Theano は、ディープラーニング開発用の最も初期のオープンソース ソフトウェア ライブラリの 1 つであり、高速コンピューティングに最適です。

Theano は 2017 年の v1.0 のリリース後に大規模な開発の停止を発表しましたが、その歴史を研究することはまだ可能です。この Python パッケージがデータ サイエンス向けトップ 10 のリストに載っているのは、このパッケージに精通していれば、その革新が後にどのように進化して、今日の競合ライブラリに見られる機能になったかについて、大まかな見当がつくからです。

パンダ

Pandas は、Python で書かれた強力で柔軟なデータ分析ライブラリです。厳密には機械学習ライブラリではありませんが、大規模なデータセットのデータ分析や処理に適しています。特に、データ構造 (DataFrame など)、時系列の操作と分析、数値データ テーブルに使用するのが好きです。大企業やスタートアップ企業の多くのビジネス従業員は、分析に Pandas を簡単に使用できます。さらに、使い始めるのは非常に簡単で、データ分析機能は競合するライブラリに匹敵します。

Pandas を使用する場合は、次のものが必要です。

  • Setuptools バージョン 24.2.0 以降
  • NumPy バージョン 1.12.0 以上
  • Python dateutil 2.5.0 以上
  • クロスプラットフォームのタイムゾーン計算のためのpytz

ケラス

Keras は迅速な実験のために設計されています。 TensorFlow などの他のフレームワークでも実行できます。ディープラーニング ライブラリとして、Keras はプロトタイピングを簡単かつ迅速に行うことで知られています。

Keras は、使いやすい API のため、ディープラーニング ライブラリ愛好家の間で人気があります。 Jeff Hale 氏は主要なディープラーニング フレームワークの分類とランキングを行いましたが、Keras は劣っていません。

Keras に必要なのは、TensorFlow、Theano、CNTK の 3 つのバックエンド エンジンのいずれかだけです。

ナンピ

NumPy は、Python による科学計算に必要な必須パッケージです。科学計算用の使いやすい Python ライブラリを求める研究者にとって、これは最適な選択肢です。実際、NumPy はまさにこの目的のために設計されました。配列の計算がはるかに簡単になります。

もともと、NumPy コードは SciPy の一部でした。しかし、仕事で配列オブジェクトを使用する必要がある科学者は、かさばる SciPy パッケージをインストールする必要があります。これを回避するために、SciPy とは別に NumPy という新しいパッケージが作成されました。

NumPy を使用する場合は、Python 2.6.x、2.7.x、3.2.x 以上が必要です。

マトプロット

Matplotlib は、クロスプラットフォームのチャートやグラフを簡単に作成できる Python 2D プロット ライブラリです。

これまで、私たちは多くの機械学習、ディープラーニング、さらには高速コンピューティングフレームワークを導入してきました。しかし、データサイエンスでは、グラフやチャートを描くことも必要です。データ サイエンスと Python について話すとき、プロットとデータの視覚化のための Matplotlib がすぐに思い浮かびます。出版物品質の図や表を作成するのに最適です。

長期サポートの場合、現在の安定バージョンは v2.2.4 ですが、最新機能を入手するには v3.0.3 をダウンロードできます。 Python 2 のサポートは廃止されたため、Python 3 以降が必要になります。

サイパイ

SciPy は、主に数学、科学、工学におけるデータ サイエンス用のパッケージの大規模なライブラリです。技術的および科学的な計算を実行するために必要なものをすべて求めているデータ サイエンティストまたはエンジニアであれば、SciPy が最適です。

SciPy は NumPy 上に構築されているため、同じターゲット ユーザーを対象としています。多数のサブパッケージがあり、それぞれがフーリエ変換、信号処理、最適化アルゴリズム、空間アルゴリズム、最近傍法などの特定の領域に焦点を当てています。実際、これは典型的なデータ サイエンティストが必要とする Python コンパニオン ライブラリです。

要件に関して言えば、SciPy が必要な場合は NumPy も必要です。

これらは、データ サイエンスに関連する上位 10 の Python ライブラリです。

原題: Python に必須のデータ サイエンス パッケージ 10 選、著者: TJ Simmons

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  ボストン・ダイナミクスの二足歩行ロボット「アトラス」が驚異的な体操ショーを披露、ネットユーザー「恐ろしい」

>>:  AI軍拡競争により、将来のAIハードウェアアーキテクチャの開発に3つの主要な方向性が生まれました。

ブログ    
ブログ    

推薦する

...

ガートナーが中国のAIスタートアップに関するレポートを発表:ほとんどの企業がこれら3つの技術に注目

最近、著名な国際データ調査機関であるガートナーが「市場ガイド:中国AIスタートアップ」調査レポートを...

ノキア、ネットワーク自動化におけるAI推進のためドバイに「イノベーションラボ」を開設すると発表

9月26日、海外メディアETテレコムによると、ノキアは中東とアフリカでの技術革新を促進し、ネットワー...

ヴェノムのように変形・修復可能なロボットが登場、1.5mmの亀裂も楽々通過

映画「ヴェノム」を見たことがある友人なら、「シンビオート」が液体の形で現れることを知っているでしょう...

ニューラルネットワークと人間の思考の深い関係

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

描いた場所に画像が動きます! Gen-2の新機能「マジックブラシ馬良」が大ヒット、ネットユーザー:緊急、緊急、緊急

動画生成AIはここまで進化したのか? !写真をスワイプするだけで、選択したターゲットが動きます。明ら...

OpenAIは、テキストを使用してユーザーの感情を検出できる教師なし感情ニューロンを「巧みに」発見した。

OpenAIは4月7日、公式サイトで最新の研究結果を発表し、感情表現を効率的に学習し、現在Amaz...

機械学習を通じて実際のビジネス価値を掘り出すにはどうすればよいでしょうか?

運用効率の向上から継続的なイノベーションの実現まで、機械学習はビジネス開発に不可欠なものとなっていま...

新しい AI スキル: 芸術の分類と鑑賞

芸術作品の分類と分析は難しいことで知られており、ごく少数の専門家だけが発言権を持ち、この分野への人工...

OpenAIがテキストから動画を生成するAIジェネレーター「Sora」をリリース

OpenAI が Sora をリリースし、テキストからビデオへの AI コンテンツ生成競争に参入。 ...

...

人工知能がウェブホスティング業界に優位性をもたらす

近年、ウェブホスティング業界は劇的に変化しました。そして、業界を永遠に変える可能性のあるいくつかのト...

...

機械学習の公平性研究は正しい方向に進んでいるのでしょうか?

機械学習における公平性に関する研究は本当に正しい方向に進んでいるのでしょうか?人工知能の発展に伴い、...

...