データサイエンスに必須の Python パッケージ 10 個

データサイエンスに必須の Python パッケージ 10 個

[51CTO.com クイック翻訳] データサイエンスに対する人々の関心は過去 5 年間で大幅に高まりました。データサイエンスや機械学習に適したプログラミング言語は数多くありますが、最も人気があるのはPythonです。

Python は機械学習に最適な言語であるため、この記事では最も人気のある機械学習パッケージを含む、10 個の重要な Python 中心のデータ サイエンス パッケージについて説明します。

サイキットラーン

Scikit-Learn は、SciPy と NumPy をベースにした Python 機械学習モジュールです。これは、Google Summer of Code プロジェクトとして David Cournapeau によって開発されました。それ以来、コミット数は 20,000 件を超え、リリース数は 90 件を超えるまでに成長しました。 JPMorgan Chase や Spotify などの企業は、データ サイエンスの取り組みにこれを使用しています。

Scikit-Learn は学習曲線が緩やかなので、企業のビジネスパーソンでも使用できます。たとえば、Scikit-Learn の公式 Web サイト (https://scikit-learn.org/stable/auto_examples/index.html#examples-based-on-real-world-datasets) にある一連のチュートリアルでは、実際のデータセットを分析する方法が説明されています。初心者で機械学習ライブラリを学びたい場合、Scikit-Learn が最適な選択です。

要件は次のとおりです。

  • Python 3.5以上
  • NumPy 1.11.0 以上
  • SciPy 0.17.0以上

パイトーチ

PyTorch は 2 つの点で優れています。まず、強力な GPU を使用してテンソル計算を高速化します。 2 番目に、テープベースの autograd システム上に動的なニューラル ネットワークを構築し、再利用とパフォーマンスの向上を実現します。これら両方の機能を簡単に習得できるパッケージを求めている学者やエンジニアにとって、PyTorch は最適です。

PyTorch は特定の状況で優れています。たとえば、前述のように、GPU を使用してテンソルをより速く計算したいですか? NumPy ではそれができないため、PyTorch を使用します。言語処理に RNN を使用したいですか? ランタイム定義の機能があるため、PyTorch を使用してください。あるいは、ディープラーニングを使いたいけれど初心者ですか? Scikit-Learn はディープラーニングには適していないため、PyTorch を使用してください。

PyTorch の要件はオペレーティング システムによって異なります。インストールは Scikit-Learn よりも少し複雑です。 「はじめに」ページをガイドとして使用することをお勧めします。通常、次のものが必要です。

  • Python 3.6以上
  • Conda 4.6.0 以上

カフェ

Caffe は畳み込みネットワークを実装するための最も高速なツールの 1 つであり、画像認識に最適です。画像の処理に優れています。

Yangqing Jia 氏は、カリフォルニア大学バークレー校で博士号取得を目指しながら Caffe の開発を始めました。これは BSD 2 条項ライセンスの下でリリースされており、市場で最も高性能なディープラーニング フレームワークの 1 つとして高く評価されています。公式サイトによれば、Caffe の画像処理速度は非常に驚異的で、「1 つの NVIDIA K40 GPU を使用して 1 日あたり 6,000 万枚以上の画像を処理できる」と主張しています。

学習曲線はまだ比較的緩やかですが、Caffe では少なくとも機械学習に関する中級レベルの知識があることを前提としていることを強調しておきます。

PyTorch と同様に、要件はオペレーティング システムによって異なります。インストール ガイドについては、こちら (http://caffe.berkeleyvision.org/installation.html) を参照してください。可能であれば、すぐに使用できるように Docker 版を使用することをお勧めします。必須の依存関係は次のとおりです。

  1. GPU モード用の CUDA (https://developer.nvidia.com/cuda-zone)
  • ライブラリバージョン7以上と最新のドライババージョンが推奨されますが、6シリーズバージョンも良いです
  • 5.5 は 5.0 と互換性がありますが、古いバージョンと見なされます。
  1. BLAS (http://en.wikipedia.org/wiki/Basic_Linear_Algebra_Subprograms)、ATLAS、MKL、または OpenBLAS 経由
  2. Boost 1.55 以上 (http://www.boost.org/)

テンソルフロー

TensorFlow は、いくつかの非常に良い理由から、最も有名な機械学習ライブラリの 1 つです。データフローグラフを使用した数値計算に優れています。

TensorFlow はもともと Google Brain によって開発されたオープンソースです。さまざまなタスクにデータフローグラフと微分可能プログラミングを使用し、これまでに作成された中で最も柔軟で強力な機械学習ライブラリの 1 つとなっています。

大規模なデータセットを迅速に処理する必要がある場合、これは無視できないライブラリです。

最新の安定バージョンは v1.13.1 ですが、新しい v2.0 は現在ベータ テスト中です。

テアノ

Theano は、ディープラーニング開発用の最も初期のオープンソース ソフトウェア ライブラリの 1 つであり、高速コンピューティングに最適です。

Theano は 2017 年の v1.0 のリリース後に大規模な開発の停止を発表しましたが、その歴史を研究することはまだ可能です。この Python パッケージがデータ サイエンス向けトップ 10 のリストに載っているのは、このパッケージに精通していれば、その革新が後にどのように進化して、今日の競合ライブラリに見られる機能になったかについて、大まかな見当がつくからです。

パンダ

Pandas は、Python で書かれた強力で柔軟なデータ分析ライブラリです。厳密には機械学習ライブラリではありませんが、大規模なデータセットのデータ分析や処理に適しています。特に、データ構造 (DataFrame など)、時系列の操作と分析、数値データ テーブルに使用するのが好きです。大企業やスタートアップ企業の多くのビジネス従業員は、分析に Pandas を簡単に使用できます。さらに、使い始めるのは非常に簡単で、データ分析機能は競合するライブラリに匹敵します。

Pandas を使用する場合は、次のものが必要です。

  • Setuptools バージョン 24.2.0 以降
  • NumPy バージョン 1.12.0 以上
  • Python dateutil 2.5.0 以上
  • クロスプラットフォームのタイムゾーン計算のためのpytz

ケラス

Keras は迅速な実験のために設計されています。 TensorFlow などの他のフレームワークでも実行できます。ディープラーニング ライブラリとして、Keras はプロトタイピングを簡単かつ迅速に行うことで知られています。

Keras は、使いやすい API のため、ディープラーニング ライブラリ愛好家の間で人気があります。 Jeff Hale 氏は主要なディープラーニング フレームワークの分類とランキングを行いましたが、Keras は劣っていません。

Keras に必要なのは、TensorFlow、Theano、CNTK の 3 つのバックエンド エンジンのいずれかだけです。

ナンピ

NumPy は、Python による科学計算に必要な必須パッケージです。科学計算用の使いやすい Python ライブラリを求める研究者にとって、これは最適な選択肢です。実際、NumPy はまさにこの目的のために設計されました。配列の計算がはるかに簡単になります。

もともと、NumPy コードは SciPy の一部でした。しかし、仕事で配列オブジェクトを使用する必要がある科学者は、かさばる SciPy パッケージをインストールする必要があります。これを回避するために、SciPy とは別に NumPy という新しいパッケージが作成されました。

NumPy を使用する場合は、Python 2.6.x、2.7.x、3.2.x 以上が必要です。

マトプロット

Matplotlib は、クロスプラットフォームのチャートやグラフを簡単に作成できる Python 2D プロット ライブラリです。

これまで、私たちは多くの機械学習、ディープラーニング、さらには高速コンピューティングフレームワークを導入してきました。しかし、データサイエンスでは、グラフやチャートを描くことも必要です。データ サイエンスと Python について話すとき、プロットとデータの視覚化のための Matplotlib がすぐに思い浮かびます。出版物品質の図や表を作成するのに最適です。

長期サポートの場合、現在の安定バージョンは v2.2.4 ですが、最新機能を入手するには v3.0.3 をダウンロードできます。 Python 2 のサポートは廃止されたため、Python 3 以降が必要になります。

サイパイ

SciPy は、主に数学、科学、工学におけるデータ サイエンス用のパッケージの大規模なライブラリです。技術的および科学的な計算を実行するために必要なものをすべて求めているデータ サイエンティストまたはエンジニアであれば、SciPy が最適です。

SciPy は NumPy 上に構築されているため、同じターゲット ユーザーを対象としています。多数のサブパッケージがあり、それぞれがフーリエ変換、信号処理、最適化アルゴリズム、空間アルゴリズム、最近傍法などの特定の領域に焦点を当てています。実際、これは典型的なデータ サイエンティストが必要とする Python コンパニオン ライブラリです。

要件に関して言えば、SciPy が必要な場合は NumPy も必要です。

これらは、データ サイエンスに関連する上位 10 の Python ライブラリです。

原題: Python に必須のデータ サイエンス パッケージ 10 選、著者: TJ Simmons

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  ボストン・ダイナミクスの二足歩行ロボット「アトラス」が驚異的な体操ショーを披露、ネットユーザー「恐ろしい」

>>:  AI軍拡競争により、将来のAIハードウェアアーキテクチャの開発に3つの主要な方向性が生まれました。

ブログ    

推薦する

...

AIチップがまだ普及していないのはなぜでしょうか?

2019年、国内外の業界関係者が共同でAIチップの開発を推進しました。 7nmチップはまだ完全に展...

銀行業務における人工知能と機械学習の利用拡大

[[432637]]銀行ガバナンスリーダーシップネットワーク(BGLN)は最近、銀行が人工知能(AI...

米国の学区は校内暴力を防ぐためにAIを活用し、脅迫的な言葉を検知して管理者に通知しているが、事前診断率はわずか25%に過ぎない。

アメリカでまた銃撃事件が発生。 5月24日、テキサス州ユバルデのロブ小学校で銃撃事件が発生し、少なく...

Midjourney 5.2 がリリースされました!オリジナルの絵画から3Dシーンを生成し、無限の宇宙を無限に拡大します

旅の途中と安定した拡散が限界に達しました! Stable Diffusion XL 0.9 がリリー...

ARMベースの3DES暗号化アルゴリズムの実装(1)

暗号化アルゴリズムは主にソフトウェアとハ​​ードウェアを通じて実装されます。ソフトウェア実装には柔軟...

...

ゲイリー・マーカスはヒントンとマスクを公然と非難した。「ディープラーニングは壁にぶつかった。10万ドル賭けるよ」

「もし誰かが(ディープラーニングが)壁にぶつかったと言うなら、ディープラーニングではできないことの...

オンラインレビューの 7 分の 1 は偽物です。人工知能は役に立つでしょうか?

目視で観察すると、コメント欄は中国文学の巨匠の密度が比較的高く、侮辱やおどけのレベルも比較的高く、A...

Pangu-Agentの5つのイノベーション

大規模言語モデル (LLM) の開発と応用により、人工知能の分野で LLM ベースの自律エージェント...

AIの5つの本当の危険性

偽造品、アルゴリズムの偏り、その他の問題が私たちの日常生活に及ぼす影響[[323166]]過去数年間...

古典的なアルゴリズム: 順序付けられていない配列の K 番目に大きい値を見つける

[[409182]] 1. K番目に大きいものを見つけるタイトル順序付けられていない整数配列がありま...

IoT技術は2024年までに成熟する

AI、機械学習 (ML)、5G、その他の接続サービスなどの IoT テクノロジーは 2024 年まで...

生徒のエッセイ採点における新たな傾向: 教師と AI の共同モデル

テクノロジーが進歩するにつれ、それが従来の人間の仕事をどのように変えたり、置き換えたりするのかという...

102歳の統計学の伝説、CRラオ氏が死去。彼の人生は「統計の世紀」を経験した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...