レビュー: 8 月に Github で注目すべき 7 つのデータサイエンスプロジェクト

[[279134]]

機械学習の旅で次の大きな一歩を踏み出す準備はできていますか? 実験的なデータセット、一般的なデータサイエンスライブラリ、フレームワークを使用することは良いスタートですが、競争相手から目立つためには、さらに一歩進んで差別化する必要があります。

これを行う最善の方法は、データサイエンスの分野における最新の技術を使用してプロジェクトを完了することです。コンピュータービジョンの専門家になりたいですか? それなら、最先端のオブジェクト検出アルゴリズムを学習しましょう。自然言語処理 (NLP) で変化を起こしたい場合は、Transformer モデルのさまざまな機能とブランチを学習してください。

重要なのは、常に最新のデータサイエンス技術に取り組む準備と意欲を持つことです。データサイエンスは最も急速に成長している分野の 1 つであり、データサイエンティストとして私たちは学び続け、成長し続ける必要があります。

この記事では、2019 年 8 月に GitHub で作成された 7 つのデータサイエンスプロジェクトについて説明します。私が選んだプロジェクトの範囲は非常に広く、機械学習から強化学習まで多くの分野をカバーしています。

この記事では、これらのデータサイエンスプロジェクトを 3 つの主要なカテゴリに分類します。

機械学習プロジェクト
ディープラーニングプロジェクト
プログラミングプロジェクトによる最高のデータサイエンスプロジェクト

機械学習プロジェクト

pyforest - 1 行のコードですべての Python データサイエンスライブラリをインポートします

この Python ライブラリは本当に気に入っています。タイトルにあるように、一般的なデータサイエンスライブラリはすべて、単一の pyforest ライブラリを通じてインポートできます。ライブラリの Github リポジトリから抽出したこの例を見てみましょう。

ワクワクしますか? Pyforest には現在、pandas、NumPy、matplotlib などのデータサイエンスライブラリが含まれています。

pip install pyforest を呼び出してライブラリをマシンにインストールするだけで、1 行のコードですべての一般的な Python データサイエンスライブラリをインポートできます。

 pyforestからのインポート *

すごいですね！私と同じように、あなたもきっと楽しんで使えると思います。

HungaBunga – sklearn ライブラリを使用して機械学習モデルを構築する別の方法

構築された機械学習モデルから最も適切なものを選択するにはどうすればよいでしょうか? 正しいハイパーパラメータが確実に機能するようにするにはどうすればよいでしょうか? これらは、データサイエンティストが答える必要のある重要な質問です。

HungaBunga プロジェクトを使用すると、ユーザーは他のほとんどのデータベースよりも速く回答を見つけることができます。 sklearn ライブラリ内のすべてのモデル (そうです、すべてです!) をすべての可能なハイパーパラメータで実行し、クロス検証を使用してモデルをランク付けします。

すべてのモデル（分類モデルと回帰モデルを含む）をインポートする方法は次のとおりです。

hunga_bunga から HungaBungaClassifier、HungaBungaRegressor をインポートします

教師あり機械学習アルゴリズムの包括的な説明については、次の記事を参照してください。

一般的な機械学習アルゴリズム（Python と R を使用）

ディープラーニングプロジェクト

DeepMindがリリースした強化学習用Behavior Suite（bsuite）

最近、年々増加しているディープマインドの巨額損失がニュースになっています。しかし、強化学習の研究において同社がまだはるかに先を進んでいることは認めざるを得ない。彼らはこの分野に多くの人的資源とリソースを投入しており、強化学習が人工知能の未来であると信じています。

ここでは、最新のオープンソース製品である bsuite を紹介します。このプロジェクトは、強化学習オブジェクトの中核特性を理解することを目的とした多くの実験の結果をまとめたものです。

私はこの研究分野が好きです。なぜなら、この研究分野は必然的に 2 つの目標 (Github リポジトリごとに 1 つ) を達成しようと努めているからです。

効率的で一般的な機械学習アルゴリズムの設計で遭遇する主要な問題を捉えた、価値があり一般化可能なプロジェクトを収集します。
普遍的なスケールを基準として、オブジェクトの動作をそのパフォーマンスによって研究します。

この Github リポジトリでは、bsuite の使用方法が詳しく説明されています。

読者は BERT について聞いたことがあるはずです。これは、自然言語処理 (NLP) の分野で最も人気のあるフレームワークであり、ますます広く使用されている Transformer アーキテクチャに基づいています。

ただし、実行には大量のリソースが必要になる可能性があるので注意してください。では、データサイエンティストはどのようにして自分のマシンで BERT を実行できるのでしょうか? さらに一歩進んで、DistilBERT を使用してください。

DistilBERT は、PyTorch 変換フレームワークチームによって開発された Distillated-BERT の略です。これは、BERT アーキテクチャ上に構築された小型で安価な Transformer モデルです。開発チームによれば、DistilBERT は BERT よりも 60% 高速に実行され、パフォーマンスは BERT と 5% 未満の差しかないとのことです。

この Github リポジトリでは、DistilBERT が Python コードと連携してどのように動作するかについて説明します。 PyTorch-Transformers フレームワークとそれを Python で使用する方法の詳細については、以下のリンクをクリックしてください。