レビュー: 8 月に Github で注目すべき 7 つのデータ サイエンス プロジェクト

レビュー: 8 月に Github で注目すべき 7 つのデータ サイエンス プロジェクト

[[279134]]

機械学習の旅で次の大きな一歩を踏み出す準備はできていますか? 実験的なデータセット、一般的なデータ サイエンス ライブラリ、フレームワークを使用することは良いスタートですが、競争相手から目立つためには、さらに一歩進んで差別化する必要があります。

これを行う最善の方法は、データ サイエンスの分野における最新の技術を使用してプロジェクトを完了することです。コンピューター ビジョンの専門家になりたいですか? それなら、最先端のオブジェクト検出アルゴリズムを学習しましょう。自然言語処理 (NLP) で変化を起こしたい場合は、Transformer モデルのさまざまな機能とブランチを学習してください。

重要なのは、常に最新のデータ サイエンス技術に取り組む準備と意欲を持つことです。データ サイエンスは最も急速に成長している分野の 1 つであり、データ サイエンティストとして私たちは学び続け、成長し続ける必要があります。

この記事では、2019 年 8 月に GitHub で作成された 7 つのデータ サイエンス プロジェクトについて説明します。私が選んだプロジェクトの範囲は非常に広く、機械学習から強化学習まで多くの分野をカバーしています。

この記事では、これらのデータ サイエンス プロジェクトを 3 つの主要なカテゴリに分類します。

  • 機械学習プロジェクト
  • ディープラーニングプロジェクト
  • プログラミング プロジェクトによる最高のデータ サイエンス プロジェクト

機械学習プロジェクト

pyforest - 1 行のコードですべての Python データ サイエンス ライブラリをインポートします

この Python ライブラリは本当に気に入っています。タイトルにあるように、一般的なデータ サイエンス ライブラリはすべて、単一の pyforest ライブラリを通じてインポートできます。ライブラリの Github リポジトリから抽出したこの例を見てみましょう。

ワクワクしますか? Pyforest には現在、pandas、NumPy、matplotlib などのデータ サイエンス ライブラリが含まれています。

pip install pyforest を呼び出してライブラリをマシンにインストールするだけで、1 行のコードですべての一般的な Python データ サイエンス ライブラリをインポートできます。

  1. pyforestからのインポート *

すごいですね!私と同じように、あなたもきっと楽しんで使えると思います。

HungaBunga – sklearn ライブラリを使用して機械学習モデルを構築する別の方法

構築された機械学習モデルから最も適切なものを選択するにはどうすればよいでしょうか? 正しいハイパーパラメータが確実に機能するようにするにはどうすればよいでしょうか? これらは、データ サイエンティストが答える必要のある重要な質問です。

HungaBunga プロジェクトを使用すると、ユーザーは他のほとんどのデータベースよりも速く回答を見つけることができます。 sklearn ライブラリ内のすべてのモデル (そうです、すべてです!) をすべての可能なハイパーパラメータで実行し、クロス検証を使用してモデルをランク付けします。

すべてのモデル(分類モデルと回帰モデルを含む)をインポートする方法は次のとおりです。

  • hunga_bunga から HungaBungaClassifier、HungaBungaRegressor をインポートします

教師あり機械学習アルゴリズムの包括的な説明については、次の記事を参照してください。

  • 一般的な機械学習アルゴリズム(Python と R を使用)

ディープラーニングプロジェクト

DeepMindがリリースした強化学習用Behavior Suite(bsuite)

最近、年々増加しているディープマインドの巨額損失がニュースになっています。しかし、強化学習の研究において同社がまだはるかに先を進んでいることは認めざるを得ない。彼らはこの分野に多くの人的資源とリソースを投入しており、強化学習が人工知能の未来であると信じています。

ここでは、最新のオープンソース製品である bsuite を紹介します。このプロジェクトは、強化学習オブジェクトの中核特性を理解することを目的とした多くの実験の結果をまとめたものです。

私はこの研究分野が好きです。なぜなら、この研究分野は必然的に 2 つの目標 (Github リポジトリごとに 1 つ) を達成しようと努めているからです。

  • 効率的で一般的な機械学習アルゴリズムの設計で遭遇する主要な問題を捉えた、価値があり一般化可能なプロジェクトを収集します。
  • 普遍的なスケールを基準として、オブジェクトの動作をそのパフォーマンスによって研究します。

この Github リポジトリでは、bsuite の使用方法が詳しく説明されています。

読者は BERT について聞いたことがあるはずです。これは、自然言語処理 (NLP) の分野で最も人気のあるフレームワークであり、ますます広く使用されている Transformer アーキテクチャに基づいています。

ただし、実行には大量のリソースが必要になる可能性があるので注意してください。では、データ サイエンティストはどのようにして自分のマシンで BERT を実行できるのでしょうか? さらに一歩進んで、DistilBERT を使用してください。

DistilBERT は、PyTorch 変換フレームワーク チームによって開発された Distillated-BERT の略です。これは、BERT アーキテクチャ上に構築された小型で安価な Transformer モデルです。開発チームによれば、DistilBERT は BERT よりも 60% 高速に実行され、パフォーマンスは BERT と 5% 未満の差しかないとのことです。

この Github リポジトリでは、DistilBERT が Python コードと連携してどのように動作するかについて説明します。 PyTorch-Transformers フレームワークとそれを Python で使用する方法の詳細については、以下のリンクをクリックしてください。

  • Pytorch-Transformers の紹介: 本当に素晴らしい NLP ライブラリ (Python コード付き)

ShuffleNet シリーズ - モバイル デバイス向けの非常に効率的な畳み込みニューラル ネットワーク

次はコンピューター ビジョン プロジェクトです。ShuffleNet は、計算能力が限られているモバイル デバイスに最適な、計算効率の高い畳み込みニューラル ネットワーク アーキテクチャです。

この Github リポジトリには、次の ShuffleNet モデル (複数あります) が含まれています。

  • ShuffleNet: モバイルデバイス向けの非常に効率的な畳み込みニューラルネットワーク
  • ShuffleNetV2: 効率的な CNN アーキテクチャ設計のための実用的な提案
  • ShuffleNetV2+: ShuffleNetV2の拡張バージョン
  • ShuffleNetV2.Large: ShuffleNetV2 のより深いバージョン
  • OneShot: 均一サンプリングによるシングルチャネルシングルショットニューラルアーキテクチャ
  • DetNAS: 物体検出技術の研究を支援

RAdam – 学習率の分散を増やす

現在、2週間も経たないうちにリリースされたRAdamプロジェクトは、1,200を超える星を獲得しています。これは、この倉庫が非常に強力であることを証明しています。

RAdam の開発者は論文 (https://arxiv.org/pdf/1908.03265.pdf) で、ディープラーニング技術の収束問題は、モデルトレーニングの初期段階での適応学習率の大きな変動によるものであることを示しました。

RAdam は、適応学習率の変化を修正できる Adam の新しいバージョンです。このバージョンでは、通常の Adam オプティマイザーに大幅な改良が加えられ、分散の問題が改善されています。

異なる学習率を扱う場合の RAdam のパフォーマンスを Adam および SGD と比較すると次のようになります (x 軸はトレーニング ラウンドの数を表します)。

機械学習の最適化に関する以下のガイド(Adam をカバー)を必ず確認してください。

  • 機械学習における勾配降下法アルゴリズム(および変数タイプ)の紹介

プログラミングプロジェクト

ggtext – ggplot2 のテキストレンダリングの改善

このプロジェクトは、コミュニティ内のすべての R ユーザー、特に ggplot2 パッケージを定期的に使用するユーザー (ほぼ全員) にとって非常に役立ちます。

Ggtext パッケージを使用すると、生成された画像にリッチ テキストをレンダリングできます。 ggtext で実行できる操作の一部を以下に示します。

  • element_markdown() という新しいテーマ要素を生成します。これはテキストをマークダウンまたは HTML としてレンダリングできます。
  • 画像を軸に挿入します(下図参照)
  • geom_richtext() 関数を使用して、マークダウン/HTML タグを作成します (以下を参照)

この GitHub リポジトリには、自分のマシンで再現できる簡単な例がいくつか含まれています。

Ggtext はまだ CRAN から入手できないため、ユーザーは次の手順で GitHub からダウンロードしてインストールする必要があります。

<<:  5G自動運転はどのようなものになるのでしょうか?韓国のテストではこの結果が出た

>>:  世界トップ10のAIトレーニングチップの包括的なレビュー

ブログ    
ブログ    

推薦する

AIがバリアフリー時代へ:手話認識・翻訳の応用が意味するものとは?

人々の印象では、AIは「多数派」に属する技術カテゴリーであると私は信じています。いわゆる多数とは、第...

Google の「Model Soup」が微調整により ImageNet リストのトップに躍り出ました。方法は半ページだけ

最近、Google は強力なコンピューティング リソースで再び大きな話題を呼び、Meta AI の友...

Google の新しい AI が話題に!世界で最も長い単語を描くことができる

友達、この英語の単語が何だか知っていますか?超微細珪火山性肺炎。これは45文字からなる世界最長の単語...

GitHub Copilot の盗作が確認されました! GitHub: 私たちの AI はコードを「暗唱」しません

[[409261]] GitHub Copilot は、コードを自動生成するという強力な機能により、...

...

Volcano Engineがビヨンドのクラシックコンサートを超高解像度で復元、その技術的能力が一般公開される

7月3日夜、TikTokはユニバーサルミュージック傘下のレーベル、ポリグラムと提携し、ボルケーノエン...

これら 19 の主流 AI テクノロジーについて、どの企業がサービスを提供しているかご存知ですか?

[51CTO.com クイック翻訳] 自然言語生成や音声認識などの分野を中心に、現在主流となってい...

...

...

ニューラルネットワークはマルウェアを隠すことができる、と研究で判明

[[441136]] [51CTO.com クイック翻訳]ディープラーニング モデルには数百万、ある...

陳一然教授の論文が2024 IEEE優秀論文賞を受賞しました! STN-iCNN: エンドツーエンドの顔解析フレームワーク

陳一然教授の論文が賞を受賞しました!この顔認識/分析に関する論文は、2024 IEEE CIS TE...

新世代の人工知能標準システムを構築するには?ガイドが来ます →

国家標準化局中央サイバースペース委員会 国家発展改革委員会 科学技術省 工業情報化省 「 国家新世...

...

スマート農業におけるモノのインターネットの応用

人口は飛躍的に増加しており、農業は人口を養う問題を解決する必要がある。農業をより効率的かつ持続可能な...