AIスタートアップ向け優秀開発ツールガイドが人気に、Jupyterの「キラー」も発見される

AIスタートアップ向け優秀開発ツールガイドが人気に、Jupyterの「キラー」も発見される

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI スタートアップ向けの最高の「開発ツール」ガイドが話題になっています。

Redditでは、41のスタートアップからのアンケート回答が471回閲覧されました。

より人気のある開発環境 Jupyter に加えて、もう 1 つの存在としてDeepnoteがあります。

少人数のチームで作られ、「Jupyter Notebook」に対抗する存在ともいえるDeepnoteは、現在、数社で利用されています。

ネットユーザーたちはそれを試してみたいという希望を表明した。

これにより、Deepnote の開発者がさらに集まり、直接質問に答えるようになりました。

それで、これはどのようなガイドですか?他に興味深い開発ツールはありますか?

調査結果

この調査は、軽量ツール統合ウェブサイトであるneptune.aiが41社のAIスタートアップ企業にインタビューしたもの。

調査結果は以下の通りです。

ソフトウェア開発のセットアップ

  • IDE: Jupyter Lab + NB 拡張機能 (Deepnote を使用するユーザーも少数)、Colab および PyCharm、VSCode (R ユーザーは R studio を好む)
  • ギットハブ
  • Python(主に)、R(一部)

機械学習フレームワーク

  • データ処理と可視化: Pandas + Matplotlib + Plotly
  • クラシックアルゴリズム: Sklearn + XGBoost
  • ディープラーニング: Tensorflow + Keras または Pytorch

MLOPs について

  • オーケストレーション: Kubeflow、Airflow、Amazon Sagemaker、Azure
  • モデルのパッケージ化/提供: Kubeflow、MLflow、Amazon Sagemaker
  • トレーニングから推論までのモデルのプロファイリングと最適化: pytest-benchmark、MLperf
  • 実験管理: MLflow、Comet、Neptune

具体的な状況は以下のとおりです。

ソフトウェア開発のセットアップ

開発環境はすべてのチームのワークフローの基盤であり、IDE に関しては、多くのチームが Jupyter Notebooks や Jupyter Lab とその NB 拡張機能を好みます。

一部のチームでは標準的なソフトウェア開発 IDE を使用しており、最もよく言及されているのは Pycharm と VSCode です。

Pycharm を使用している企業である Hotelmize は、これが最高の Python IDE だと言っています。

VSCode を使用する企業は、その評判を正当化しようとしています。

VSCode は Azure との接続が簡単で、多くの ML ベースの拡張機能を提供します。

R 言語を使用するチームにとって、RStudio は最適な選択肢です。

もう一つのツール、 GitHubがあります。これはすべての AI チーム、特にスタートアップにとって朗報だと思います。

調査結果によると、GitHub は無料で強力なバージョン管理システムと共有機能を備えているため、チームにとって非常に便利であることがわかりました。

最も人気のあるプログラミング言語としては、Python、R、Clojure がリストに載っています。

いくつかのチームが環境/インフラストラクチャ設定に関して次のような提案をしていることは注目に値します。

  • デプロイメント プラットフォームとしてのAWS (シンプル レポート)。
  • Anaconda は、ソフトウェア コード、計算出力、説明テキスト、マルチメディア リソースを 1 つのドキュメントに組み合わせることができるLiving Code機能を備えているため、ML 実験を実行するための最適なツールです。 (スキャンタ)
  • Redis は、文字列、リスト、マップ、セット、ソート済みセット、HyperLogLog、ビットマップ、ストリーム、空間インデックスなど、さまざまな種類の抽象データ構造をサポートしているため、インメモリ データ構造ストレージとして主導的な地位を獲得しています。 (スキャンタ)
  • データストレージには Snowflake と Amazon S3 が使用されます。 (超巨星)
  • Spark-pyspark - ビッグデータ上でジョブを分散するための非常にシンプルな API。 (ホテルマイズ)

機械学習フレームワーク

機械学習フレームワークも不可欠です。この部分には、選択できるツールが多数あります。

表形式のデータの操作に関しては、 Pandas が最もよく言及されるライブラリです。

Sigma Polaris の CEO は、特にさまざまなプロジェクトで外部の開発者と協力する場合、Pandas は最も価値のあるツールの 1 つになる可能性があると述べました。すべてのデータはデータ フレームワークの形式で存在するため、コラボレーションがスムーズになり、不要なトラブルが軽減されます。

視覚化に関しては、 MatplotlibPlotly が最も人気のある選択肢です。

別の企業は、よりユーザーフレンドリーな Plotly チャートに基づいて構築されたインタラクティブなダッシュボード ツールである Dash を推奨しました。

標準的な機械学習の問題については、ほとんどのチームが Scikit-Learn と XGBoost を使用しますが、特にScikit-Learn が使用されています。

iSchoolConnect は次のように説明しています:

Scikit-Learn は、機械学習の研究者、エンジニア、開発者が最もよく使用するツールボックスの 1 つです。欲しいものがこんなに簡単に手に入るなんて驚きです!

ディープラーニング フレームワークとしては、PyTorch と Tensorflow+Keras がチーム内で非常に人気があります。

NLP などの特定の分野では、Huggingface、Spacy、Gensim がよく使用されるツールです。CV に関しては、OpenCV が間違いなく必要です。

MLOPs について

DevOps と同様に、MLOps は機械学習向けの DevOps であると考える人もいます。

MLOps は、モデルを本番システムに統合して展開するために必要なすべてのツールです。

これには、モデルがどこに展開されるか、どのようにそこに到達するか、より大きなソフトウェア/アプリケーションによってモデルがどのようにアクセスされるか、現実世界で ML モデルのパフォーマンスを追跡する方法、モデルがリアルタイムで管理およびテストされる方法が含まれます。

各チームはそれぞれのタスクに異なるツールを使用します。

調査結果は次のとおりです。

  • オーケストレーション: Kubeflow、Airflow、Amazon Sagemaker、Azure
  • モデルのパッケージ化/提供: Kubeflow、MLflow、Amazon Sagemaker
  • トレーニングから推論までのモデルのプロファイリングと最適化: pytest-benchmark、MLperf
  • 実験管理: MLflow、Comet、Neptune

一般的に、多くのチームは探索には Jupyter を使用し、開発には Pycharm/VSCode を使用します。

彼らは皆 GitHub が好きで、Python が最も使用されている言語です。

ディープラーニング フレームワークとしては、Tensorflow、Keras、Pytorch の使用が好まれます。

Lightning、Ignite、Catalyst、fastai、Skorch などの高度な PyTorch トレーニング フレームワークを使用する人が増えていることは注目に値します。

視覚的な探索には、matplotlib、plotly、altair、hiplot が使用されます。

実験の追跡には、チームは TensorBoard、MLflow、Sacred などのオープンソース パッケージを使用することが多いです。

詳細については、ここをクリックしてください:

https://neptune.ai/blog/tools-libraries-frameworks-methodologies-ml-startups-roundup?utm_source=reddit&utm_medium=post&utm_campaign=blog-tools-libraries-frameworks-methodologies-ml-startups-roundup

<<:  5分で初めてのPythonチャットボットを構築

>>:  AIサイバーセキュリティの今後の課題:最初で最後の防衛線となる方法

ブログ    
ブログ    

推薦する

ディープラーニング/コンピュータービジョンでよくある8つの間違いとその回避方法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

組み込み物流ロボットの用途は何ですか?

ネットワーク技術やグリッドコンピューティングの発展により、組み込み型モバイル機器を中核とした「ユビキ...

SQL Server 2005 のデータ マイニング アルゴリズム拡張メソッド

SSAS は 9 つのデータ マイニング アルゴリズムを提供していますが、実際の問題に基づいて適切な...

...

データ構造とアルゴリズムについて知っておくべき 50 のコード実装

今日、私は GitHub で非常に優れたプロジェクトを見つけました。現在、4700 以上のスターが付...

...

5G無人配送車両が北京に登場、現在試験運用中

最近、北京市自転車・電動自動車産業協会が主催した「第一回ターミナル配送インテリジェント交通サミットフ...

欧州の新しいAI法は倫理監査を強化する

EU があらゆる業界での AI および機械学習技術の使用を効果的に規制する AI 法の施行に向けて...

ソラ爆発的人気の裏側|世界のモデルとは何かを語ろう!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

マイクロソフトとIDCの最新レポート:AIへの1ドル投資で3.5ドルの利益が生まれる

Microsoft と IDC は共同で、企業における AI の応用と商業的価値を詳細に調査した調査...

...

...

人工知能の時代に人権と民主主義をどう守るか

人工知能 (AI) システムは近年急速に普及しており、特に 2023 年には大規模言語モデル (LL...

知っておくべきディープラーニングの10の一般的な手法

[[244014]]過去 10 年間で、機械学習への関心は爆発的に高まりました。ほぼ毎日、さまざまな...