機械学習は興味深いものですが、作業範囲が広く複雑で困難です。開発者として学ぶべきツールはたくさんあります。幸いなことに、Pythonはビッグデータや機械学習のさまざまなツールで広く使用されている言語であり、その利用範囲は極めて広いです。機械学習には通常、多くの手作業による作業、ワークフローとパイプラインの組み立て、データ ソースの設定、オンプレミスとクラウドに展開されたリソース間の切り替えが伴います。これら 5 つの Python ライブラリは、たとえば AWS Lambda を使用して計算負荷の高いジョブをシャーディングしたり、TensorFlow モデルを使用して TensorFlow をオフロードしたりすることで、データ パイプラインの高速化に役立ちます。
ピュレン 強力な前提を備えたシンプルなパッケージである PyWren を使用すると、Python ベースの科学計算ワークロードを AWS Lambda 関数の複数のインスタンスとして実行できます。 The New Stack のプロジェクト プロファイルでは、PyWren は主にメモリやストレージをあまり消費しない小規模プロジェクト向けに、並列処理システムとして AWS Lambda を使用すると説明されています。 PyWren の欠点の 1 つは、ラムダ関数を最大 300 秒以上実行できないことです。ジョブが数分しかかからず、データセット上で数千回実行される場合、ハードウェアでは利用できない規模でクラウド内で作業を並列化できるため、PyWren が適切な選択肢となる可能性があります。 Tfdeploy Google の TensorFlow フレームワークは機械学習分野で傑出した存在として登場し、現在は完全な 1.0 リリースとなっています。ユーザーはよく、「TensorFlow 自体を使用せずに TensorFlow でモデルをトレーニングするにはどうすればよいか」という質問に直面します。 Tfdeploy はこの問題に対する部分的な答えです。トレーニング済みの TensorFlow モデルを「シンプルな NumPy ベースの呼び出し可能なモデル」としてエクスポートします。つまり、Tfdeploy と NumPy 数学および統計ライブラリのみを依存関係として使用して、Python でモデルを実行できます。 TensorFlow で実行できるほとんどの操作は Tfdeploy でも実行でき、ライブラリの動作は標準の Python メタファー (クラスのオーバーロードなど) を通じて拡張できます。 残念なことに、Tfdeploy は GPU アクセラレーションをサポートしていません。NumPy を使用してこれを克服できれば良いのですが。 Tfdeploy の作成者は、代替案として gNumPy プロジェクトを提案しています。 ルイージ バッチ処理は多くの場合、データ パイルの処理の一部にすぎず、すべてのタスクをワークフローに似たものにまとめる必要があります。 Luigi は Spotify によって作成され、「バッチ プロセスの実行に関連するすべてのパイプラインの問題を解決する」ために位置付けられています。 Luigi を使用すると、開発者は、Hive クエリ、Java の Hadoop ジョブ、Scala の Spark ジョブ、データベースからのテーブルのダンプなど、いくつかの異なる無関係なデータ処理タスクを取得し、それらをエンドツーエンドで実行するワークフローを作成できます。タスクとその依存関係の完全な説明は、XML 構成ファイルやその他のデータ形式ではなく、Python モジュールとして作成されるため、他の Python 中心のプロジェクトに統合できます。 クベリブ Kubernetes を機械学習タスクのオーケストレーション システムとして使用する場合は、多くの問題を生み出すのではなく、Kubernetes を使用してより多くの問題を解決する必要があります。 Kubelib は、当初 Jenkins スクリプトとして記述された、Kubernetes 用の Python インターフェースのセットを提供します。ただし、Jenkins がなくても使用でき、kubectl CLI または Kubernetes API によって公開されるすべての操作を実行できます。 パイトーチ Torch 機械学習フレームワークを実装するツールである、最近発表された Python の注目の新製品を忘れないでください。 PyTorch は Torch を Python に移植するだけでなく、GPU アクセラレーションや共有メモリを使用したマルチプロセス処理を可能にするライブラリ (複数のコア間でジョブを分割するため) など、他の多くの便利な機能も追加します。最も重要なのは、NumPy の一部の非高速関数に対して GPU 高速化による代替を提供できることです。 |
<<: 14,000元の費用でディープラーニングサーバーを自分で構築するにはどうすればいいでしょうか?
>>: ピュー研究所:アルゴリズム時代の7つの主要テーマとその主な影響
学生だった頃、私はよく自分の個人ウェブサイトをいじっていました。最も気になった問題の 1 つは、オリ...
[[201526]]人間の行動に関する研究が最近、Nature の子会社である Nature Hum...
ビットコインの場合、その出力は固定されています。つまり、マイニングする人が増えれば増えるほど、マイニ...
2020 年に企業のオーナーや管理者が直面した健康、安全、セキュリティの課題は、非常に明確になりまし...
外国メディアの報道によると、ロシアの検索エンジン会社ヤンデックスとロシア郵便は最近、モスクワのいくつ...
最近、デロイト人工知能研究所は、「企業向け人工知能アプリケーションの現状レポート」と「厳選された A...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
自然言語処理は、人工知能技術を実際の分野に応用した典型的な例です。コンピュータ システムが人間のよう...
「シンギュラリティ」は、人工知能(AI)の将来展望とその社会的影響を説明する重要な概念です。 AIの...
北京、2021 年 12 月 3 日 -エンタープライズ自動化ソフトウェア企業である UiPath ...
最近、自動車業界は混乱しています。 !ウーバーの自動運転車の致命的な事故に続いて、金曜の朝、米国のハ...
多くの人が人工知能に非常に興味を持っていますが、どこから始めればよいか分かりません。次に紹介する 1...
舒城県裁判所杭埠法廷は最近、建設工事契約紛争事件の審理に法廷音声認識システムを使用した。これは、杭埠...