レビュー: 8 月に Github で注目すべき 7 つのデータ サイエンス プロジェクト

レビュー: 8 月に Github で注目すべき 7 つのデータ サイエンス プロジェクト

[[279134]]

機械学習の旅で次の大きな一歩を踏み出す準備はできていますか? 実験的なデータセット、一般的なデータ サイエンス ライブラリ、フレームワークを使用することは良いスタートですが、競争相手から目立つためには、さらに一歩進んで差別化する必要があります。

これを行う最善の方法は、データ サイエンスの分野における最新の技術を使用してプロジェクトを完了することです。コンピューター ビジョンの専門家になりたいですか? それなら、最先端のオブジェクト検出アルゴリズムを学習しましょう。自然言語処理 (NLP) で変化を起こしたい場合は、Transformer モデルのさまざまな機能とブランチを学習してください。

重要なのは、常に最新のデータ サイエンス技術に取り組む準備と意欲を持つことです。データ サイエンスは最も急速に成長している分野の 1 つであり、データ サイエンティストとして私たちは学び続け、成長し続ける必要があります。

この記事では、2019 年 8 月に GitHub で作成された 7 つのデータ サイエンス プロジェクトについて説明します。私が選んだプロジェクトの範囲は非常に広く、機械学習から強化学習まで多くの分野をカバーしています。

この記事では、これらのデータ サイエンス プロジェクトを 3 つの主要なカテゴリに分類します。

  • 機械学習プロジェクト
  • ディープラーニングプロジェクト
  • プログラミング プロジェクトによる最高のデータ サイエンス プロジェクト

機械学習プロジェクト

pyforest - 1 行のコードですべての Python データ サイエンス ライブラリをインポートします

この Python ライブラリは本当に気に入っています。タイトルにあるように、一般的なデータ サイエンス ライブラリはすべて、単一の pyforest ライブラリを通じてインポートできます。ライブラリの Github リポジトリから抽出したこの例を見てみましょう。

ワクワクしますか? Pyforest には現在、pandas、NumPy、matplotlib などのデータ サイエンス ライブラリが含まれています。

pip install pyforest を呼び出してライブラリをマシンにインストールするだけで、1 行のコードですべての一般的な Python データ サイエンス ライブラリをインポートできます。

  1. pyforestからのインポート *

すごいですね!私と同じように、あなたもきっと楽しんで使えると思います。

HungaBunga – sklearn ライブラリを使用して機械学習モデルを構築する別の方法

構築された機械学習モデルから最も適切なものを選択するにはどうすればよいでしょうか? 正しいハイパーパラメータが確実に機能するようにするにはどうすればよいでしょうか? これらは、データ サイエンティストが答える必要のある重要な質問です。

HungaBunga プロジェクトを使用すると、ユーザーは他のほとんどのデータベースよりも速く回答を見つけることができます。 sklearn ライブラリ内のすべてのモデル (そうです、すべてです!) をすべての可能なハイパーパラメータで実行し、クロス検証を使用してモデルをランク付けします。

すべてのモデル(分類モデルと回帰モデルを含む)をインポートする方法は次のとおりです。

  • hunga_bunga から HungaBungaClassifier、HungaBungaRegressor をインポートします

教師あり機械学習アルゴリズムの包括的な説明については、次の記事を参照してください。

  • 一般的な機械学習アルゴリズム(Python と R を使用)

ディープラーニングプロジェクト

DeepMindがリリースした強化学習用Behavior Suite(bsuite)

最近、年々増加しているディープマインドの巨額損失がニュースになっています。しかし、強化学習の研究において同社がまだはるかに先を進んでいることは認めざるを得ない。彼らはこの分野に多くの人的資源とリソースを投入しており、強化学習が人工知能の未来であると信じています。

ここでは、最新のオープンソース製品である bsuite を紹介します。このプロジェクトは、強化学習オブジェクトの中核特性を理解することを目的とした多くの実験の結果をまとめたものです。

私はこの研究分野が好きです。なぜなら、この研究分野は必然的に 2 つの目標 (Github リポジトリごとに 1 つ) を達成しようと努めているからです。

  • 効率的で一般的な機械学習アルゴリズムの設計で遭遇する主要な問題を捉えた、価値があり一般化可能なプロジェクトを収集します。
  • 普遍的なスケールを基準として、オブジェクトの動作をそのパフォーマンスによって研究します。

この Github リポジトリでは、bsuite の使用方法が詳しく説明されています。

読者は BERT について聞いたことがあるはずです。これは、自然言語処理 (NLP) の分野で最も人気のあるフレームワークであり、ますます広く使用されている Transformer アーキテクチャに基づいています。

ただし、実行には大量のリソースが必要になる可能性があるので注意してください。では、データ サイエンティストはどのようにして自分のマシンで BERT を実行できるのでしょうか? さらに一歩進んで、DistilBERT を使用してください。

DistilBERT は、PyTorch 変換フレームワーク チームによって開発された Distillated-BERT の略です。これは、BERT アーキテクチャ上に構築された小型で安価な Transformer モデルです。開発チームによれば、DistilBERT は BERT よりも 60% 高速に実行され、パフォーマンスは BERT と 5% 未満の差しかないとのことです。

この Github リポジトリでは、DistilBERT が Python コードと連携してどのように動作するかについて説明します。 PyTorch-Transformers フレームワークとそれを Python で使用する方法の詳細については、以下のリンクをクリックしてください。

  • Pytorch-Transformers の紹介: 本当に素晴らしい NLP ライブラリ (Python コード付き)

ShuffleNet シリーズ - モバイル デバイス向けの非常に効率的な畳み込みニューラル ネットワーク

次はコンピューター ビジョン プロジェクトです。ShuffleNet は、計算能力が限られているモバイル デバイスに最適な、計算効率の高い畳み込みニューラル ネットワーク アーキテクチャです。

この Github リポジトリには、次の ShuffleNet モデル (複数あります) が含まれています。

  • ShuffleNet: モバイルデバイス向けの非常に効率的な畳み込みニューラルネットワーク
  • ShuffleNetV2: 効率的な CNN アーキテクチャ設計のための実用的な提案
  • ShuffleNetV2+: ShuffleNetV2の拡張バージョン
  • ShuffleNetV2.Large: ShuffleNetV2 のより深いバージョン
  • OneShot: 均一サンプリングによるシングルチャネルシングルショットニューラルアーキテクチャ
  • DetNAS: 物体検出技術の研究を支援

RAdam – 学習率の分散を増やす

現在、2週間も経たないうちにリリースされたRAdamプロジェクトは、1,200を超える星を獲得しています。これは、この倉庫が非常に強力であることを証明しています。

RAdam の開発者は論文 (https://arxiv.org/pdf/1908.03265.pdf) で、ディープラーニング技術の収束問題は、モデルトレーニングの初期段階での適応学習率の大きな変動によるものであることを示しました。

RAdam は、適応学習率の変化を修正できる Adam の新しいバージョンです。このバージョンでは、通常の Adam オプティマイザーに大幅な改良が加えられ、分散の問題が改善されています。

異なる学習率を扱う場合の RAdam のパフォーマンスを Adam および SGD と比較すると次のようになります (x 軸はトレーニング ラウンドの数を表します)。

機械学習の最適化に関する以下のガイド(Adam をカバー)を必ず確認してください。

  • 機械学習における勾配降下法アルゴリズム(および変数タイプ)の紹介

プログラミングプロジェクト

ggtext – ggplot2 のテキストレンダリングの改善

このプロジェクトは、コミュニティ内のすべての R ユーザー、特に ggplot2 パッケージを定期的に使用するユーザー (ほぼ全員) にとって非常に役立ちます。

Ggtext パッケージを使用すると、生成された画像にリッチ テキストをレンダリングできます。 ggtext で実行できる操作の一部を以下に示します。

  • element_markdown() という新しいテーマ要素を生成します。これはテキストをマークダウンまたは HTML としてレンダリングできます。
  • 画像を軸に挿入します(下図参照)
  • geom_richtext() 関数を使用して、マークダウン/HTML タグを作成します (以下を参照)

この GitHub リポジトリには、自分のマシンで再現できる簡単な例がいくつか含まれています。

Ggtext はまだ CRAN から入手できないため、ユーザーは次の手順で GitHub からダウンロードしてインストールする必要があります。

<<:  5G自動運転はどのようなものになるのでしょうか?韓国のテストではこの結果が出た

>>:  世界トップ10のAIトレーニングチップの包括的なレビュー

ブログ    
ブログ    

推薦する

AIの脳回路は人間と非常に似ている、OpenAIの最新研究は白熱した議論を引き起こしている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ChatGPTの不正行為から逃れるのは難しいです! 99%のヒット検出、カンザス大学の新しいアルゴリズム、Cellジャーナルに掲載された研究

これまで、多くの人が ChatGPT 検出器を開発してきましたが、実際に効果的に識別できるものはあり...

人工知能がデジタル変革の課題に対処できる 5 つの分野

[[378652]]調査会社IDCが最近発表した「世界の人工知能支出ガイド」によると、世界の人工知能...

OpenAIがついにオープン:DALL-E 3の論文が発表され、ChatGPTが開始、著者の半数が中国人

最後に、「OpenAI は再びオープンになりました。」 OpenAIが発表したばかりのDALL・E ...

...

人工知能の可能性を解き放つ3つのステップ

ガートナーのデータによると、2020 年までに人工知能は CIO の 30% 以上にとって最優先事項...

IT リーダーにとって必須のコース: 人工知能のビジネスへの影響と価値をどのように測定するか?

実績のある AI プロジェクトが大規模に導入されるケースが増えており、一部の企業では大きなメリットが...

Pythonを知らない人は、人工知能時代の新たな「文盲」になるだろう

各段階で、「文盲」の定義は異なります。以前は、漢字を知らないことが文盲とみなされ、後には、英語を話せ...

乱雑なファイルキャビネットとはお別れしましょう! AI ドキュメント管理システムの 7 つのメリット

[[341868]]従来のファイリングキャビネットは、契約書、ベンダー契約書、入社書類、その他の書類...

鄒聖龍が初めて人工知能について公に語り、荀雷の将来の計画が明らかにされた

「ビジネスを運営する観点から見ると、人工知能には2つの陣営があります。1つは人工知能プラットフォーム...

...

Nature: 機械視覚による行動理解と脳神経の間には本質的なつながりがあるのでしょうか?上海交通大学のLu Cewu氏のチームはマッピングモデルを構築した

被験者が特定の行動をとったとき、その脳はそれに対応する安定した脳神経パターンのマッピングを生成するで...

インスピレーションプログラミング: 最大公約数アルゴリズムの分析

2 つの正の整数が与えられたら、その最大公約数を求めます。これは、コードを書く学生なら誰でも遭遇した...

作業効率を大幅に向上できるAIツール

AI はワークフローを強化し、反復的なタスクを削減し、出力を増幅します。スタンフォード大学とMITの...