機械学習の旅で次の大きな一歩を踏み出す準備はできていますか? 実験的なデータセット、一般的なデータ サイエンス ライブラリ、フレームワークを使用することは良いスタートですが、競争相手から目立つためには、さらに一歩進んで差別化する必要があります。 これを行う最善の方法は、データ サイエンスの分野における最新の技術を使用してプロジェクトを完了することです。コンピューター ビジョンの専門家になりたいですか? それなら、最先端のオブジェクト検出アルゴリズムを学習しましょう。自然言語処理 (NLP) で変化を起こしたい場合は、Transformer モデルのさまざまな機能とブランチを学習してください。 重要なのは、常に最新のデータ サイエンス技術に取り組む準備と意欲を持つことです。データ サイエンスは最も急速に成長している分野の 1 つであり、データ サイエンティストとして私たちは学び続け、成長し続ける必要があります。 この記事では、2019 年 8 月に GitHub で作成された 7 つのデータ サイエンス プロジェクトについて説明します。私が選んだプロジェクトの範囲は非常に広く、機械学習から強化学習まで多くの分野をカバーしています。 この記事では、これらのデータ サイエンス プロジェクトを 3 つの主要なカテゴリに分類します。
機械学習プロジェクト pyforest - 1 行のコードですべての Python データ サイエンス ライブラリをインポートします この Python ライブラリは本当に気に入っています。タイトルにあるように、一般的なデータ サイエンス ライブラリはすべて、単一の pyforest ライブラリを通じてインポートできます。ライブラリの Github リポジトリから抽出したこの例を見てみましょう。 ワクワクしますか? Pyforest には現在、pandas、NumPy、matplotlib などのデータ サイエンス ライブラリが含まれています。 pip install pyforest を呼び出してライブラリをマシンにインストールするだけで、1 行のコードですべての一般的な Python データ サイエンス ライブラリをインポートできます。
すごいですね!私と同じように、あなたもきっと楽しんで使えると思います。 HungaBunga – sklearn ライブラリを使用して機械学習モデルを構築する別の方法 構築された機械学習モデルから最も適切なものを選択するにはどうすればよいでしょうか? 正しいハイパーパラメータが確実に機能するようにするにはどうすればよいでしょうか? これらは、データ サイエンティストが答える必要のある重要な質問です。 HungaBunga プロジェクトを使用すると、ユーザーは他のほとんどのデータベースよりも速く回答を見つけることができます。 sklearn ライブラリ内のすべてのモデル (そうです、すべてです!) をすべての可能なハイパーパラメータで実行し、クロス検証を使用してモデルをランク付けします。 すべてのモデル(分類モデルと回帰モデルを含む)をインポートする方法は次のとおりです。
教師あり機械学習アルゴリズムの包括的な説明については、次の記事を参照してください。
ディープラーニングプロジェクト DeepMindがリリースした強化学習用Behavior Suite(bsuite) 最近、年々増加しているディープマインドの巨額損失がニュースになっています。しかし、強化学習の研究において同社がまだはるかに先を進んでいることは認めざるを得ない。彼らはこの分野に多くの人的資源とリソースを投入しており、強化学習が人工知能の未来であると信じています。 ここでは、最新のオープンソース製品である bsuite を紹介します。このプロジェクトは、強化学習オブジェクトの中核特性を理解することを目的とした多くの実験の結果をまとめたものです。 私はこの研究分野が好きです。なぜなら、この研究分野は必然的に 2 つの目標 (Github リポジトリごとに 1 つ) を達成しようと努めているからです。
この Github リポジトリでは、bsuite の使用方法が詳しく説明されています。 読者は BERT について聞いたことがあるはずです。これは、自然言語処理 (NLP) の分野で最も人気のあるフレームワークであり、ますます広く使用されている Transformer アーキテクチャに基づいています。 ただし、実行には大量のリソースが必要になる可能性があるので注意してください。では、データ サイエンティストはどのようにして自分のマシンで BERT を実行できるのでしょうか? さらに一歩進んで、DistilBERT を使用してください。 DistilBERT は、PyTorch 変換フレームワーク チームによって開発された Distillated-BERT の略です。これは、BERT アーキテクチャ上に構築された小型で安価な Transformer モデルです。開発チームによれば、DistilBERT は BERT よりも 60% 高速に実行され、パフォーマンスは BERT と 5% 未満の差しかないとのことです。 この Github リポジトリでは、DistilBERT が Python コードと連携してどのように動作するかについて説明します。 PyTorch-Transformers フレームワークとそれを Python で使用する方法の詳細については、以下のリンクをクリックしてください。
ShuffleNet シリーズ - モバイル デバイス向けの非常に効率的な畳み込みニューラル ネットワーク 次はコンピューター ビジョン プロジェクトです。ShuffleNet は、計算能力が限られているモバイル デバイスに最適な、計算効率の高い畳み込みニューラル ネットワーク アーキテクチャです。 この Github リポジトリには、次の ShuffleNet モデル (複数あります) が含まれています。
RAdam – 学習率の分散を増やす 現在、2週間も経たないうちにリリースされたRAdamプロジェクトは、1,200を超える星を獲得しています。これは、この倉庫が非常に強力であることを証明しています。 RAdam の開発者は論文 (https://arxiv.org/pdf/1908.03265.pdf) で、ディープラーニング技術の収束問題は、モデルトレーニングの初期段階での適応学習率の大きな変動によるものであることを示しました。 RAdam は、適応学習率の変化を修正できる Adam の新しいバージョンです。このバージョンでは、通常の Adam オプティマイザーに大幅な改良が加えられ、分散の問題が改善されています。 異なる学習率を扱う場合の RAdam のパフォーマンスを Adam および SGD と比較すると次のようになります (x 軸はトレーニング ラウンドの数を表します)。 機械学習の最適化に関する以下のガイド(Adam をカバー)を必ず確認してください。
プログラミングプロジェクト ggtext – ggplot2 のテキストレンダリングの改善 このプロジェクトは、コミュニティ内のすべての R ユーザー、特に ggplot2 パッケージを定期的に使用するユーザー (ほぼ全員) にとって非常に役立ちます。 Ggtext パッケージを使用すると、生成された画像にリッチ テキストをレンダリングできます。 ggtext で実行できる操作の一部を以下に示します。
この GitHub リポジトリには、自分のマシンで再現できる簡単な例がいくつか含まれています。 Ggtext はまだ CRAN から入手できないため、ユーザーは次の手順で GitHub からダウンロードしてインストールする必要があります。 |
<<: 5G自動運転はどのようなものになるのでしょうか?韓国のテストではこの結果が出た
>>: 世界トップ10のAIトレーニングチップの包括的なレビュー
人々の印象では、AIは「多数派」に属する技術カテゴリーであると私は信じています。いわゆる多数とは、第...
最近、Google は強力なコンピューティング リソースで再び大きな話題を呼び、Meta AI の友...
友達、この英語の単語が何だか知っていますか?超微細珪火山性肺炎。これは45文字からなる世界最長の単語...
[[409261]] GitHub Copilot は、コードを自動生成するという強力な機能により、...
[[420317]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
7月3日夜、TikTokはユニバーサルミュージック傘下のレーベル、ポリグラムと提携し、ボルケーノエン...
[51CTO.com クイック翻訳] 自然言語生成や音声認識などの分野を中心に、現在主流となってい...
[[441136]] [51CTO.com クイック翻訳]ディープラーニング モデルには数百万、ある...
陳一然教授の論文が賞を受賞しました!この顔認識/分析に関する論文は、2024 IEEE CIS TE...
国家標準化局中央サイバースペース委員会 国家発展改革委員会 科学技術省 工業情報化省 「 国家新世...
人口は飛躍的に増加しており、農業は人口を養う問題を解決する必要がある。農業をより効率的かつ持続可能な...