AIスタートアップ向け優秀開発ツールガイドが人気に、Jupyterの「キラー」も発見される

AIスタートアップ向け優秀開発ツールガイドが人気に、Jupyterの「キラー」も発見される

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI スタートアップ向けの最高の「開発ツール」ガイドが話題になっています。

Redditでは、41のスタートアップからのアンケート回答が471回閲覧されました。

より人気のある開発環境 Jupyter に加えて、もう 1 つの存在としてDeepnoteがあります。

少人数のチームで作られ、「Jupyter Notebook」に対抗する存在ともいえるDeepnoteは、現在、数社で利用されています。

ネットユーザーたちはそれを試してみたいという希望を表明した。

これにより、Deepnote の開発者がさらに集まり、直接質問に答えるようになりました。

それで、これはどのようなガイドですか?他に興味深い開発ツールはありますか?

調査結果

この調査は、軽量ツール統合ウェブサイトであるneptune.aiが41社のAIスタートアップ企業にインタビューしたもの。

調査結果は以下の通りです。

ソフトウェア開発のセットアップ

  • IDE: Jupyter Lab + NB 拡張機能 (Deepnote を使用するユーザーも少数)、Colab および PyCharm、VSCode (R ユーザーは R studio を好む)
  • ギットハブ
  • Python(主に)、R(一部)

機械学習フレームワーク

  • データ処理と可視化: Pandas + Matplotlib + Plotly
  • クラシックアルゴリズム: Sklearn + XGBoost
  • ディープラーニング: Tensorflow + Keras または Pytorch

MLOPs について

  • オーケストレーション: Kubeflow、Airflow、Amazon Sagemaker、Azure
  • モデルのパッケージ化/提供: Kubeflow、MLflow、Amazon Sagemaker
  • トレーニングから推論までのモデルのプロファイリングと最適化: pytest-benchmark、MLperf
  • 実験管理: MLflow、Comet、Neptune

具体的な状況は以下のとおりです。

ソフトウェア開発のセットアップ

開発環境はすべてのチームのワークフローの基盤であり、IDE に関しては、多くのチームが Jupyter Notebooks や Jupyter Lab とその NB 拡張機能を好みます。

一部のチームでは標準的なソフトウェア開発 IDE を使用しており、最もよく言及されているのは Pycharm と VSCode です。

Pycharm を使用している企業である Hotelmize は、これが最高の Python IDE だと言っています。

VSCode を使用する企業は、その評判を正当化しようとしています。

VSCode は Azure との接続が簡単で、多くの ML ベースの拡張機能を提供します。

R 言語を使用するチームにとって、RStudio は最適な選択肢です。

もう一つのツール、 GitHubがあります。これはすべての AI チーム、特にスタートアップにとって朗報だと思います。

調査結果によると、GitHub は無料で強力なバージョン管理システムと共有機能を備えているため、チームにとって非常に便利であることがわかりました。

最も人気のあるプログラミング言語としては、Python、R、Clojure がリストに載っています。

いくつかのチームが環境/インフラストラクチャ設定に関して次のような提案をしていることは注目に値します。

  • デプロイメント プラットフォームとしてのAWS (シンプル レポート)。
  • Anaconda は、ソフトウェア コード、計算出力、説明テキスト、マルチメディア リソースを 1 つのドキュメントに組み合わせることができるLiving Code機能を備えているため、ML 実験を実行するための最適なツールです。 (スキャンタ)
  • Redis は、文字列、リスト、マップ、セット、ソート済みセット、HyperLogLog、ビットマップ、ストリーム、空間インデックスなど、さまざまな種類の抽象データ構造をサポートしているため、インメモリ データ構造ストレージとして主導的な地位を獲得しています。 (スキャンタ)
  • データストレージには Snowflake と Amazon S3 が使用されます。 (超巨星)
  • Spark-pyspark - ビッグデータ上でジョブを分散するための非常にシンプルな API。 (ホテルマイズ)

機械学習フレームワーク

機械学習フレームワークも不可欠です。この部分には、選択できるツールが多数あります。

表形式のデータの操作に関しては、 Pandas が最もよく言及されるライブラリです。

Sigma Polaris の CEO は、特にさまざまなプロジェクトで外部の開発者と協力する場合、Pandas は最も価値のあるツールの 1 つになる可能性があると述べました。すべてのデータはデータ フレームワークの形式で存在するため、コラボレーションがスムーズになり、不要なトラブルが軽減されます。

視覚化に関しては、 MatplotlibPlotly が最も人気のある選択肢です。

別の企業は、よりユーザーフレンドリーな Plotly チャートに基づいて構築されたインタラクティブなダッシュボード ツールである Dash を推奨しました。

標準的な機械学習の問題については、ほとんどのチームが Scikit-Learn と XGBoost を使用しますが、特にScikit-Learn が使用されています。

iSchoolConnect は次のように説明しています:

Scikit-Learn は、機械学習の研究者、エンジニア、開発者が最もよく使用するツールボックスの 1 つです。欲しいものがこんなに簡単に手に入るなんて驚きです!

ディープラーニング フレームワークとしては、PyTorch と Tensorflow+Keras がチーム内で非常に人気があります。

NLP などの特定の分野では、Huggingface、Spacy、Gensim がよく使用されるツールです。CV に関しては、OpenCV が間違いなく必要です。

MLOPs について

DevOps と同様に、MLOps は機械学習向けの DevOps であると考える人もいます。

MLOps は、モデルを本番システムに統合して展開するために必要なすべてのツールです。

これには、モデルがどこに展開されるか、どのようにそこに到達するか、より大きなソフトウェア/アプリケーションによってモデルがどのようにアクセスされるか、現実世界で ML モデルのパフォーマンスを追跡する方法、モデルがリアルタイムで管理およびテストされる方法が含まれます。

各チームはそれぞれのタスクに異なるツールを使用します。

調査結果は次のとおりです。

  • オーケストレーション: Kubeflow、Airflow、Amazon Sagemaker、Azure
  • モデルのパッケージ化/提供: Kubeflow、MLflow、Amazon Sagemaker
  • トレーニングから推論までのモデルのプロファイリングと最適化: pytest-benchmark、MLperf
  • 実験管理: MLflow、Comet、Neptune

一般的に、多くのチームは探索には Jupyter を使用し、開発には Pycharm/VSCode を使用します。

彼らは皆 GitHub が好きで、Python が最も使用されている言語です。

ディープラーニング フレームワークとしては、Tensorflow、Keras、Pytorch の使用が好まれます。

Lightning、Ignite、Catalyst、fastai、Skorch などの高度な PyTorch トレーニング フレームワークを使用する人が増えていることは注目に値します。

視覚的な探索には、matplotlib、plotly、altair、hiplot が使用されます。

実験の追跡には、チームは TensorBoard、MLflow、Sacred などのオープンソース パッケージを使用することが多いです。

詳細については、ここをクリックしてください:

https://neptune.ai/blog/tools-libraries-frameworks-methodologies-ml-startups-roundup?utm_source=reddit&utm_medium=post&utm_campaign=blog-tools-libraries-frameworks-methodologies-ml-startups-roundup

<<:  5分で初めてのPythonチャットボットを構築

>>:  AIサイバーセキュリティの今後の課題:最初で最後の防衛線となる方法

ブログ    

推薦する

...

人工知能音声ジェネレーター、この10個で十分です

翻訳者 | カン・シャオジン校正 | 梁哲、孫淑娟今日の人工知能の世界では、想像できるあらゆる音は簡...

...

中国は2022年に耐量子暗号アルゴリズムを開発し、2025年に実装予定

[[248782]]量子コンピュータが実用化されるまでにはしばらく時間がかかるだろうが、国際的な暗号...

業界観察:世界の人工知能開発はどのレベルに達しましたか?

[[334267]]今日の技術コミュニティにおける人工知能の開発レベルについては、学界、産業界、メ...

...

IoT、分析、AI – デジタル化の勝利のトリオ

デジタル化が進む世界では、すべてがスピードと個々の顧客ニーズの特定と対応を中心に展開されます。サービ...

人工知能と遠隔監視:宇宙でのマッチング

データ センターが地球外の人々の長期的なコンピューティング ニーズを満たすことは避けられないと思われ...

ジェネレーティブ AI における BYOK (Bring Your Own Key) は諸刃の剣

カスタマイズ性と制御性を約束するコンセプトであるBring Your Own Key (BYOK)が...

Snapdragon 8の4倍のAIコンピューティングパワーハードテクノロジー:超解像度アップと信号強化ダウン、複数のアルゴリズムを同時に実行

2022年の携帯電話はこうなります。すべてのメッセージを自動的に整理し、QRコードをスキャンするため...

AIが業界全体でビジネス成果をどのように変革しているか

昨年末以来、人工知能の発展の勢いは止められないようです。 GPT-4 のような並外れた認知能力を備え...

...

コンパニオン チップ: AI にとって賢い選択でしょうか?

半導体業界では長年にわたり、より多くのコンポーネントを単一のシステムオンチップ (SoC) に緊密に...

2021 年の人工知能、データ サイエンス、機械学習のトレンドの概要

人工知能とデータサイエンス、機械学習のトレンドとデータ分析AIはますますあらゆるビジネス戦略の一部に...

...