11月に最も人気のあるオープンソース機械学習プロジェクトとRedditの議論トップ5

11月に最も人気のあるオープンソース機械学習プロジェクトとRedditの議論トップ5

導入

データ サイエンティストになる上で最も良いことの 1 つはプログラミングです。多くの場合、私はプロジェクトをゼロからプログラミングすることに没頭しています。自分の努力が成功したモデルを生み出すのを見るのは本当に興奮します!

しかし、データ サイエンティスト (またはプログラマー) としては、さまざまな段階でコード チェックポイントを作成することも同様に重要です。前回どこから始めたかを知っておくと非常に役立ちます。そうすれば、過去のコードを確認したり、コードを別のパスに分岐したりする必要がある場合でも、常にフォールバックする余地があります。これが、GitHub が人気のコード プラットフォームである理由です。

このシリーズの以前の記事では、すべてのデータ サイエンティストがアクティブな GitHub アカウントを持つ必要がある理由について説明しました。コラボレーション、コードのやり直しや結合、教育目的など、コーディングのスキルと知識を高めるのに最適なプラットフォームです。

それでは、この記事の核心である機械学習コードについて説明しましょう。私は、すべてのデータ サイエンティストが試してみるべき興味深いプロジェクトをいくつか選びました。

プログラミング以外にも、データ サイエンティストになるには多くの側面が関係します。コミュニティの最新の動向、他の機械学習の専門家や思想的リーダーが何を話しているのか、物議を醸すプロジェクトに取り組むことの倫理的な影響は何かなど、すべてを把握しておく必要があります。そのため、私は Reddit での議論を記事に含めました。

GitHub ホットプロジェクト

オープン AI 深層強化学習リソース

[[253640]]

プロジェクトアドレス: https://github.com/openai/spinningup

このシリーズでは、強化学習のリソースを継続的に追加していきます。これまでで最大のリソースは、OpenAI のリソース無料提供です。これは、誰もが簡単に深層強化学習を学習できるようにすることを目的としたオープンソースの教育リソースです。強化学習はほとんどの人にとって複雑すぎることを考慮すると、これは初心者に優しい知識ベースです。

このリポジトリには便利なリソースがいくつか含まれています:

  • RL用語、さまざまなアルゴリズム、基礎理論の紹介
  • RL研究者として成長する方法に関する論文
  • トピック別の重要論文リスト
  • 主要なアルゴリズムの短いスタンドアロン実装のリポジトリ
  • 練習するためのいくつかの小さな練習

NVIDIA の WaveGlow

プロジェクトアドレス: https://github.com/NVIDIA/waveglow

これはオーディオおよび音声処理の分野の人々向けです。 WaveGlow は、音声合成のためのフローベースの生成ネットワークです。言い換えれば、メルスペクトログラムから高品質の音声を生成できるネットワーク(そうです、単一のネットワークです!)です。

このプロジェクトには、WaveGlow の PyTorch 実装と事前トレーニング済みモデルが含まれています。これは本当に素晴らしいフレームワークです。さらに詳しく知りたい場合は、以下のリンクをクリックしてください。

  • 研究論文: https://arxiv.org/abs/1811.00002
  • オーディオサンプルデモウェブサイト: https://nv-adlr.github.io/WaveGlow

サービスとしてのBERT

プロジェクトアドレス: https://github.com/hanxiao/bert-as-service

先月の投稿では BERT の PyTorch 実装を紹介しましたが、ここでは別のバージョンを紹介します。 BERT を初めて知る方のために説明すると、BERT は Bidirectional Encoder Representations from Transformers の略です。言語表現を事前トレーニングする方法です。

BERT の結果は NLP の世界に輝きをもたらし、Google の研究者は研究を促進するためにいくつかの事前トレーニング済みモデルをリリースしてくれました。

このコードベースでは、BERT を文エンコーダーとして使用し、ZeroMQ を通じてアクセス可能なサービスとして使用しているため、文を固定長の特徴表現にマッピングするには 2 行のコードのみが必要です。 BERT は使いやすく、非常に高速で、拡張性も高いです。ぜひお試しください!

Google クイック ドロー ゲーム Python 実装

[[253642]]

プロジェクトアドレス: https://github.com/1991viet/QuickDraw

Quick Draw は、Google が開発した人気のオンライン ゲームで、ニューラル ネットワークが描画内容を推測します。ニューラル ネットワークは各描画から学習し、落書きの内容を正確に推測する能力が向上します。開発者たちは、ユーザーが以前に描いた落書きから膨大なデータセットを構築しました。これはオープンソースのデータセットです。データセットのアドレスは次のとおりです: https://github.com/googlecreativelab/quickdraw-dataset。

このリポジトリに基づいて、Python で独自の Quick Draw ゲームを構築できるようになりました。詳細なチュートリアルがあります。このコードを使用すると、コンピューターのカメラの前で描画し、キャンバスにも描画するアプリケーションを実行できます。

GANの理解と可視化

プロジェクトアドレス: https://github.com/CSAILVision/gandissect

GAN 分解は、MIT のコンピューター科学および人工知能研究所の研究者によって開発された手法であり、敵対的生成ネットワーク (GAN) のニューロンを視覚化して理解するための独自の方法です。しかし、それだけではありません。研究者たちは、GAN 分解がどのように機能するかを示すために GANPaint も作成しました。

GAN 分解は、特定の GAN モデルの内部ニューロンを検査および操作することで、GAN モデルが学習した内容を探索します。まず研究論文とビデオデモをチェックし、その後すぐに GitHub リポジトリにアクセスしてコードを調べてみましょう。

Reddit ディスカッション

そもそもなぜ勾配降下法が必要なのでしょうか?

https://www.reddit.com/r/MachineLearning/comments/9sfv8x/d_a_note_on_why_gradient_descent_is_even_needed/

機械学習の基本的な概念を学習しているときに、この疑問が頭に浮かんだことはありませんか?勾配降下法は、学習の初期段階で遭遇する基本的なアルゴリズムの 1 つであり、ML で非常に効果的であることが証明されています。しかし、この記事を読み始めると、これまで学んだことすべてに疑問を感じるでしょう。

最初は単純な質問として始まったものが、Reddit の幹部の間で大きな議論に発展しました。私はこれらのレビューを閲覧して大いに楽しみました。この分野に興味があり、数学に対して真剣な姿勢を持っている人にとっては、これが役に立つと思います。

大規模ニューラルネットワークのリバースエンジニアリング

https://www.reddit.com/r/MachineLearning/comments/9symfk/d_reverseengineering_a_massive_neural_network/

複雑で大規模なニューラル ネットワークの開発者が、ネットワークを理解するために必要なドキュメントを一切残さずに突然姿を消してしまったら、どうしますか?これは根拠のない作り話ではなく、実際に起こるよくある状況であり、質問者自身もそれに遭遇したことがあります。

これは開発者にとってはよくあることですが、ディープラーニングに関してはまったく新しい状況です。この記事では、科学者がディープモデルの元の設計アイデアを復元するために使用できるいくつかの方法を紹介します。いくつかの回答は実際的でしたが、他の回答はばかげていましたが、それぞれが視点を追加しました。いつかあなたがこのような状況に陥ったとき、彼らがあなたを助けてくれるかもしれません。

TensorFlow 2.0 API に関する議論

https://www.reddit.com/r/MachineLearning/comments/9ysmtn/d_debate_on_tensorflow_20_api/

このトピックに関する多数のコメントに注目しました (この記事を書いている時点で 110 件のコメント)。これほど多くの論争を引き起こすトピックは、いったい何でしょうか?しかし、読み進めていくと、討論者の間で意見がまったく異なっていることに驚きます。 TensorFlow が「優れたフレームワークではない」と揶揄されていることに加えて、多くの人が PyTorch を賞賛しています (PyTorch を使用したことがある人なら、これは驚くべきことではないことがわかるでしょう)。

すべては、Francois Chollet 氏が GitHub にアイデアを投稿し、機械学習コミュニティに火をつけたことから始まりました。

予測報酬による強化学習

https://www.reddit.com/r/MachineLearning/comments/9tangi/r_reinforcement_learning_with_predictionbased/

この記事で紹介する別の OpenAI プロジェクトは、OpenAI にとってまた別の大きな進歩です。タイトルはそれほど特別なものではないように思えるかもしれませんが、OpenAI チームが何をしたかを理解する必要があります。あるRedditユーザーが指摘したように、OpenAIの研究は人間の行動を模倣できる機械の実現に一歩近づかせてくれる。

約 1 年間のトレーニングを経て、Montezuma's Revenge ゲームを人間のパフォーマンスを超えたレベルでクリアしました。これはかなり印象的です。

データサイエンティストの仕事を見つけた

https://www.reddit.com/r/datascience/comments/9xxm3w/landed_my_first_job_as_a_data_scientist/

これは、データ サイエンティストを目指す人向けの記事です。記事の著者は、どのようにしてこの憧れの仕事に就いたのか、経歴、データサイエンスをどこで学んだのかなどについて説明します。これらの標準的な質問に答えた後、彼は同様の状況にある人々が自分の野心を達成するために何ができるかについて非常に優れた記事を書きます。

記事の最後には役立つ提案もいくつか記載されています。もちろん、著者にあなた自身の質問をすることもできます。

結論

今月はかなりのコレクションがあります。個人的には、GAN 分析コードベースは非常に魅力的だと思います。現在、自分のデバイスでこれを再現しようとしていますが、うまくいくはずです。また、私は「大規模ニューラル ネットワーク リバース エンジニアリング」スレッドにも注目しています。このスレッドで提示されたアイデアは、私が同じ窮地に陥った場合に非常に役立つからです。

あなたのお気に入りの GitHub プロジェクトは何ですか?どの Reddit スレッドが群を抜いて目立つと思いますか?メッセージを残して私たちに知らせてください。

<<:  ピュー研究所の報告:2025年までにAIのせいで7500万人が解雇される

>>:  2018年末のAI分野におけるオープンソースフレームワークのまとめ

ブログ    
ブログ    

推薦する

中国でApp Storeのランキング操作を禁止しアルゴリズムを調整

国内アプリプロモーション機関APPYINGはこのほど、アップルのApp Store Chinaランキ...

LLM収益化プラットフォームが登場! LangChain+DemoGPT 協力: アイデアがあればお金が稼げる、「プログラマーが足りない」時代は終わった

大規模な言語モデルのサポートにより、開発者は多くの新しい機能を実装し、より幅広いアプリケーション シ...

ガートナーの調査結果: CEO は AI を業界に最も大きな影響を与える破壊的技術と見なしている

「ジェネレーティブ AI はビジネスや運用モデルに多大な影響を及ぼすでしょう」と、ガートナーの著名な...

JWT: どの署名アルゴリズムを使用すればよいですか?

[[421048]]この記事は、Scott Brady が執筆した WeChat パブリック アカ...

スタンフォード大学の研究者がAIを活用してCOVID-19の治療薬の発見を加速

COVID-19の流行が世界中の人々の生命と日常生活を脅かし続けている中、人々はこの病気の予防と治療...

2022 年のビジネス インテリジェンスの 7 つのトレンド

ビジネス インテリジェンスは AI に置き換えられることはありません。BI は今でも存在し、役立って...

グラフ畳み込みネットワークの作り方は?これは最小限のNumpy実装です

グラフは非常に複雑な構造を持ち、大量の情報を含んでいるため、グラフ上での機械学習は困難な作業です。こ...

単純なアルゴリズム問題からO(1)が何を意味するかを説明する

[[396914]]今日、クラスメートがファングループでアルゴリズムに関する質問をしました。対話のト...

北京大学のチームは、ChatGPTにとって頭痛の種であったアルゴリズムの最適化を解決し、普通のラップトップでも実行できるようにした。

ChatGPT ですら首をかしげたアルゴリズムの最適化は、北京大学のチームによって達成されました。...

テクノロジーのホットスポット: 言語的機械学習

[[186484]]昨年から半年以上機械学習を勉強してきましたが、そろそろ総括したいと思います。これ...

無料の Python 機械学習コース パート 2: 多重線形回帰

Python で任意の数の変数に対する多重線形回帰をゼロから開発する方法を学びます。線形回帰はおそら...

オプティマイザーを選択するにはどうすればいいですか?この記事では、さまざまなMLプロジェクトに適したオプティマイザーを選択する方法を説明します。

機械学習プロジェクトに適したオプティマイザーを選択するのは簡単な作業ではありません。オプティマイザー...

ディープラーニングの仕組み: 今日の AI を支えるニューラル ネットワークの内部を覗いてみよう

[[428985]] [51CTO.com クイック翻訳]今日の人工知能の繁栄は、人工ニューラルネッ...

シリコンバレーのAI界で注目の記事:ジャスパーとVCはAIGCブームの最大の敗者となり、潮が引いた後に初めて誰が裸で泳いでいるかがわかる

この夏、人工知能起業家サム・ホーガンが書いた記事がシリコンバレー中で話題になった。現在、AI と大規...

機械学習の7つの大罪

機械学習実験の信頼性を損なう7つのよくある間違い[[328516]]機械学習は私たちの世界を変える素...