最新の機械学習開発と最先端のコードを持つプラットフォームはどれでしょうか? そう、GitHub です! この記事では、最近リリースされた GitHub 機械学習プロジェクトを 7 つ紹介します。これらのプロジェクトは、自然言語処理 (NLP)、コンピューター ビジョン、ビッグ データなど、機械学習の幅広い分野をカバーしています。 Github のトップ機械学習プロジェクト 1. PyTorch-Transformers(NLP) ポータル: https://github.com/huggingface/pytorch-transformers 自然言語処理 (NLP) の力は驚くべきものです。 NLP は、テキストの処理方法をほぼ言葉では言い表せないほど変えました。 最も先進的な NLP ライブラリの中で、PyTorch-Transformers は最新のものとして登場しましたが、さまざまな NLP タスクにおける既存のベンチマークをすべて破りました。最も魅力的な点は、PyTorch の実装、事前トレーニング済みのモデルの重み、その他の重要な要素をカバーしており、ユーザーがすぐに使い始めることができることです。 最先端のモデルを実行するには、膨大な計算能力が必要です。 PyTorch-Transformers はこの問題を大幅に解決し、最先端の NLP モデルを構築するのに役立ちます。 ここでは、PyTorch-Transformers に関する詳細な記事をいくつか紹介します。これらの記事は、ユーザーがこのモデル (および NLP の事前トレーニング済みモデルの概念) を理解するのに役立ちます。
2. ニューラル分類器 (NLP) ポータル: https://github.com/Tencent/NeuralNLP-NeuralClassifier 現実の世界では、テキスト データのマルチラベル分類は大きな課題です。私たちが初めて NLP の問題に直面したとき、通常は単一ラベルのタスクを扱っていましたが、現実の世界ではそれはそれほど単純ではありません。 マルチラベル分類問題では、インスタンス/レコードには複数のラベルがあり、各インスタンスのラベルの数は固定されていません。 NeuralClassifier を使用すると、多層、マルチラベルの分類タスクにニューラル モデルを迅速に実装できます。私のお気に入りは、FastText、RCNN、Transformer など、さまざまな有名なテキスト エンコーダーを提供する NeuralClassifier です。 NeuralClassifier を使用して、次の分類タスクを実行できます。
マルチラベル分類とは何か、そしてそれを Python でどのように実行するかを正確に説明している 2 つの優れた記事を以下に示します。
3. TDEngine(ビッグデータ) ポータル: https://github.com/taosdata/TDengine TDEngine データベースには、1 か月足らずで 10,000 個近くの星が蓄積されました。読み進めれば、その理由がすぐにわかるでしょう。 TDEngine は、以下の用途向けのオープンソース ビッグデータ プラットフォームです。
本質的に、TDEngine はデータ エンジニアリング関連のタスクの完全なセットを提供し、それらはすべて非常に高速に完了できます (クエリ処理速度が 10 倍になり、コンピューティングの使用率は 1/5 に削減されます)。 現時点で注意すべき点は、TDEngine は Linux での実行のみをサポートしていることです。 TDEngine データベースには、完全なドキュメントと、コードを含む入門ガイドが含まれています。 データ エンジニア向けの包括的なリソース ガイドを読むことをお勧めします。
4. ビデオオブジェクトの削除(コンピュータビジョン) ポータル: https://github.com/zllrunning/video-object-removal 画像データを扱ったことがありますか? コンピューター ビジョンは、画像を操作および処理するために使用される高度なテクノロジーです。コンピューター ビジョンの専門家になりたい場合、画像内のオブジェクト検出は一般的に必須であると考えられています。 ビデオについてはどうでしょうか? 複数のビデオ内のオブジェクトの境界ボックスを描画するのは簡単そうに思えるかもしれませんが、実際にはそれよりもはるかに難しく、オブジェクトの動的な性質によりタスクはさらに複雑になります。 ビデオ オブジェクトの削除は本当に便利です。ビデオ内のオブジェクトの周囲に境界ボックスを描いて削除するだけです。とても簡単です! 例を挙げてみましょう: コンピューター ビジョンの世界にまだ慣れていない場合は、すぐに始めるのに役立つ 2 つの記事を以下に示します。
5. Python オートコンプリート (プログラミング) ポータル: https://github.com/vpj/python_autocomplete Python オートコンプリートを気に入っていただけると思います。データ サイエンティストの仕事は、さまざまなアルゴリズムを実験することだけです (少なくともほとんどの人はそうしています)。Python Autocomplete は、単純な LSTM モデルを使用して Python コードを自動的に記述できます。 下の画像では、灰色の部分は LSTM モデルによって自動的に入力されたコードです (結果は画像の下部にあります)。 開発者は次のように説明しています。 まず、Python コード内のコメント、文字列、空白行をクリアしてから、トレーニングと予測を実行します。モデルのトレーニングでは、Python コードがトークン化されていることを前提としており、これはバイト エンコーディングを使用してバイトを予測するよりも効率的であると思われます。 単調な Python コードを何行も書いて時間を費やした (無駄にした) ことがあるなら、このモデルがまさにあなたが探しているものかもしれません。しかし、その開発はまだ非常に初期段階にあり、運用においてはいくつかの問題が避けられません。 LSTM が何であるかを知りたい場合は、この記事の紹介を読んでください。
6. tfpyth – TensorFlow から PyTorch へ、そして TensorFlow へ (プログラミング) ポータル: https://github.com/BlackHC/tfpyth TensorFlow と PyTorch はどちらも膨大なユーザーベースを持っていますが、後者の使用率は信じられないほど高く、今後 1 ~ 2 年で前者を上回る可能性があります。ただし、注意してください。Tensorflow の立場は非常に堅固であるため、これは Tensorflow を非難するものではありません。 したがって、TensorFlow で一連のコードを記述し、次に PyTorch で別の一連のコードを記述し、これら 2 つを組み合わせてモデルをトレーニングしたい場合は、tfpyth フレームワークが適切な選択肢になります。 Tfpyth の最大の利点は、ユーザーが以前に記述したコードを書き直す必要がないことです。 このプロジェクトは、tfpyth の使用方法について構造化された例を提供しており、これは間違いなく TensorFlow と PyTorch の間の議論を再検討するものです。 tfpyth のインストールは簡単です:
TensorFlow と PyTorch の仕組みを詳しく説明した 2 つの記事をご紹介します。
7. メディカルネット MedicalNet には、論文「Med3D: 転移学習による 3D 医療画像分析」(https://arxiv.org/abs/1904.00625) のアイデアを実践する PyTorch プロジェクトが含まれています。この機械学習プロジェクトでは、さまざまなモダリティ、対象臓器、病状の医療データセットを組み合わせて、より大きなデータセットを構築します。 ご存知のとおり、ディープラーニング モデルには (通常) 大量のトレーニング データが必要ですが、TenCent がリリースした MedicalNet は非常に優れたオープン ソース プロジェクトです。ぜひ皆さんも試してみてください。 MedicalNet の開発者は、23 のデータセットに基づいて 4 つの事前トレーニング済みモデルをリリースしました。必要であれば、転移学習の視覚的な紹介をご覧ください。
|
<<: AIの大規模導入における大きなギャップを埋めます!アリババ、テンセント、百度などが共同でインターネットサービスAIベンチマークを開始
>>: 業界大手がIoTとAIを成功裏に導入するための3つのステップ
テクノロジーは建設業界にかつてないほど大きな影響を与えています。クラウドベースのコラボレーションやデ...
人工知能の定義は、「人工知能」と「知能」の 2 つの部分に分けられます。 「人工的」というのは理解し...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
家庭でますます一般的になりつつある掃除ロボットは、ほこりを吸い取るだけでなく、個人のプライバシーも「...
マイクロソフトは、機械学習を使用して人々がより効率的に仕事を遂行できるよう支援する、多数の新機能を ...
デジタル化により市場のグローバル化のプロセスが加速しました。新しいテクノロジーは、従来のビジネスモデ...
オハイオ州立大学とアイオワ大学の研究者による研究で、ハトは問題を解決する際に人工知能に似た「力ずく」...
この記事では、上位 5 つのフレームワークとライブラリを実際のアプリケーションとともに紹介したいと思...
変分量子分類器 (VQC) は、量子コンピューティング技術を使用して分類タスクを実行する機械学習アル...
ガートナーの 2021 年人工知能ハイプ サイクルの 4 つのトレンドが、短期的な AI イノベーシ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
テレンス・タオ氏は、ChatGPT が数学的証明を覆すだろうと常に楽観的でしたが、現在、化学分野にお...
人工知能技術の継続的なアップグレードと革新的な変化に伴い、中国は時代の変化に対応し、人工知能関連のコ...