機械学習の旅で次の大きな一歩を踏み出す準備はできていますか? 実験的なデータセット、一般的なデータ サイエンス ライブラリ、フレームワークを使用することは良いスタートですが、競争相手から目立つためには、さらに一歩進んで差別化する必要があります。 これを行う最善の方法は、データ サイエンスの分野における最新の技術を使用してプロジェクトを完了することです。コンピューター ビジョンの専門家になりたいですか? それなら、最先端のオブジェクト検出アルゴリズムを学習しましょう。自然言語処理 (NLP) で変化を起こしたい場合は、Transformer モデルのさまざまな機能とブランチを学習してください。 重要なのは、常に最新のデータ サイエンス技術に取り組む準備と意欲を持つことです。データ サイエンスは最も急速に成長している分野の 1 つであり、データ サイエンティストとして私たちは学び続け、成長し続ける必要があります。 この記事では、2019 年 8 月に GitHub で作成された 7 つのデータ サイエンス プロジェクトについて説明します。私が選んだプロジェクトの範囲は非常に広く、機械学習から強化学習まで多くの分野をカバーしています。 この記事では、これらのデータ サイエンス プロジェクトを 3 つの主要なカテゴリに分類します。
機械学習プロジェクト pyforest - 1 行のコードですべての Python データ サイエンス ライブラリをインポートします この Python ライブラリは本当に気に入っています。タイトルにあるように、一般的なデータ サイエンス ライブラリはすべて、単一の pyforest ライブラリを通じてインポートできます。ライブラリの Github リポジトリから抽出したこの例を見てみましょう。 ワクワクしますか? Pyforest には現在、pandas、NumPy、matplotlib などのデータ サイエンス ライブラリが含まれています。 pip install pyforest を呼び出してライブラリをマシンにインストールするだけで、1 行のコードですべての一般的な Python データ サイエンス ライブラリをインポートできます。
すごいですね!私と同じように、あなたもきっと楽しんで使えると思います。 HungaBunga – sklearn ライブラリを使用して機械学習モデルを構築する別の方法 構築された機械学習モデルから最も適切なものを選択するにはどうすればよいでしょうか? 正しいハイパーパラメータが確実に機能するようにするにはどうすればよいでしょうか? これらは、データ サイエンティストが答える必要のある重要な質問です。 HungaBunga プロジェクトを使用すると、ユーザーは他のほとんどのデータベースよりも速く回答を見つけることができます。 sklearn ライブラリ内のすべてのモデル (そうです、すべてです!) をすべての可能なハイパーパラメータで実行し、クロス検証を使用してモデルをランク付けします。 すべてのモデル(分類モデルと回帰モデルを含む)をインポートする方法は次のとおりです。
教師あり機械学習アルゴリズムの包括的な説明については、次の記事を参照してください。
ディープラーニングプロジェクト DeepMindがリリースした強化学習用Behavior Suite(bsuite) 最近、年々増加しているディープマインドの巨額損失がニュースになっています。しかし、強化学習の研究において同社がまだはるかに先を進んでいることは認めざるを得ない。彼らはこの分野に多くの人的資源とリソースを投入しており、強化学習が人工知能の未来であると信じています。 ここでは、最新のオープンソース製品である bsuite を紹介します。このプロジェクトは、強化学習オブジェクトの中核特性を理解することを目的とした多くの実験の結果をまとめたものです。 私はこの研究分野が好きです。なぜなら、この研究分野は必然的に 2 つの目標 (Github リポジトリごとに 1 つ) を達成しようと努めているからです。
この Github リポジトリでは、bsuite の使用方法が詳しく説明されています。 読者は BERT について聞いたことがあるはずです。これは、自然言語処理 (NLP) の分野で最も人気のあるフレームワークであり、ますます広く使用されている Transformer アーキテクチャに基づいています。 ただし、実行には大量のリソースが必要になる可能性があるので注意してください。では、データ サイエンティストはどのようにして自分のマシンで BERT を実行できるのでしょうか? さらに一歩進んで、DistilBERT を使用してください。 DistilBERT は、PyTorch 変換フレームワーク チームによって開発された Distillated-BERT の略です。これは、BERT アーキテクチャ上に構築された小型で安価な Transformer モデルです。開発チームによれば、DistilBERT は BERT よりも 60% 高速に実行され、パフォーマンスは BERT と 5% 未満の差しかないとのことです。 この Github リポジトリでは、DistilBERT が Python コードと連携してどのように動作するかについて説明します。 PyTorch-Transformers フレームワークとそれを Python で使用する方法の詳細については、以下のリンクをクリックしてください。
ShuffleNet シリーズ - モバイル デバイス向けの非常に効率的な畳み込みニューラル ネットワーク 次はコンピューター ビジョン プロジェクトです。ShuffleNet は、計算能力が限られているモバイル デバイスに最適な、計算効率の高い畳み込みニューラル ネットワーク アーキテクチャです。 この Github リポジトリには、次の ShuffleNet モデル (複数あります) が含まれています。
RAdam – 学習率の分散を増やす 現在、2週間も経たないうちにリリースされたRAdamプロジェクトは、1,200を超える星を獲得しています。これは、この倉庫が非常に強力であることを証明しています。 RAdam の開発者は論文 (https://arxiv.org/pdf/1908.03265.pdf) で、ディープラーニング技術の収束問題は、モデルトレーニングの初期段階での適応学習率の大きな変動によるものであることを示しました。 RAdam は、適応学習率の変化を修正できる Adam の新しいバージョンです。このバージョンでは、通常の Adam オプティマイザーに大幅な改良が加えられ、分散の問題が改善されています。 異なる学習率を扱う場合の RAdam のパフォーマンスを Adam および SGD と比較すると次のようになります (x 軸はトレーニング ラウンドの数を表します)。 機械学習の最適化に関する以下のガイド(Adam をカバー)を必ず確認してください。
プログラミングプロジェクト ggtext – ggplot2 のテキストレンダリングの改善 このプロジェクトは、コミュニティ内のすべての R ユーザー、特に ggplot2 パッケージを定期的に使用するユーザー (ほぼ全員) にとって非常に役立ちます。 Ggtext パッケージを使用すると、生成された画像にリッチ テキストをレンダリングできます。 ggtext で実行できる操作の一部を以下に示します。
この GitHub リポジトリには、自分のマシンで再現できる簡単な例がいくつか含まれています。 Ggtext はまだ CRAN から入手できないため、ユーザーは次の手順で GitHub からダウンロードしてインストールする必要があります。 |
<<: 5G自動運転はどのようなものになるのでしょうか?韓国のテストではこの結果が出た
>>: 世界トップ10のAIトレーニングチップの包括的なレビュー
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
これまで、多くの人が ChatGPT 検出器を開発してきましたが、実際に効果的に識別できるものはあり...
[[378652]]調査会社IDCが最近発表した「世界の人工知能支出ガイド」によると、世界の人工知能...
大企業がこのビジネスに参入し始めています! ByteDance と Alibaba のツールが人気を...
最後に、「OpenAI は再びオープンになりました。」 OpenAIが発表したばかりのDALL・E ...
ガートナーのデータによると、2020 年までに人工知能は CIO の 30% 以上にとって最優先事項...
実績のある AI プロジェクトが大規模に導入されるケースが増えており、一部の企業では大きなメリットが...
各段階で、「文盲」の定義は異なります。以前は、漢字を知らないことが文盲とみなされ、後には、英語を話せ...
[[341868]]従来のファイリングキャビネットは、契約書、ベンダー契約書、入社書類、その他の書類...
「ビジネスを運営する観点から見ると、人工知能には2つの陣営があります。1つは人工知能プラットフォーム...
被験者が特定の行動をとったとき、その脳はそれに対応する安定した脳神経パターンのマッピングを生成するで...
2 つの正の整数が与えられたら、その最大公約数を求めます。これは、コードを書く学生なら誰でも遭遇した...
AI はワークフローを強化し、反復的なタスクを削減し、出力を増幅します。スタンフォード大学とMITの...