民主化と自動化: 機械学習の参入障壁を下げる 6 つのツール

民主化と自動化: 機械学習の参入障壁を下げる 6 つのツール

かつて、機械学習という用語は科学的な光輪に包まれており、複雑なアルゴリズムにデータを「入力」して有用な分析結果を生成する方法を知っているのは、高給取りのデータ サイエンティストのほんの一握りだけでした。しかし現在では、自動化ツールの急速な発展により、データの収集、構造化、分析が容易になり、機械学習を利用するための敷居は大幅に下がりました。プログラミングを理解していないビジネス担当者でも、適切な質問をすることができれば、機械学習ツールを使用して目的の結果を得ることができます。

[[276055]]

機械学習の民主化が加速しています。その兆候の 1 つとして、最近 AutoML がホットワードになっていることが挙げられます。いわゆる AutoML は、機械学習アルゴリズムに自動化されたメタ レイヤーを追加します。これまで、機械学習アルゴリズムの複雑さは、多数のオプションとパラメータ設定を「微調整」する必要があることに起因しており、データ サイエンティストのエネルギーの 80 ~ 99% がこれに費やされていました。 AutoML は多数のパラメータを自動的にテストおよび調整できるため、アルゴリズムの使用のハードルが大幅に下がるだけでなく、アルゴリズムの調整プロセスも高速化されます。

AutoML は、クラウド内の十分なマシン コンピューティング パワーを利用して、並列で処理し、結果を返すことができるため、クラウド コンピューティングに最適です。同時に、AutoML は、機械学習の初心者が機械学習アプリケーションを段階的に独自に探索するのにも最適です。

機械学習を簡単にする6つのツール

次の 6 つの機械学習ツールは、プログラミングやデータ サイエンスの専門家にならなくても、数字、スプレッドシート、データを扱うすべての人に機械学習の世界への扉を開きます。

1. スプランク

Splunk は、Web アプリケーションによって作成された大量のログ ファイルを検索 (または「スヌーピング」) するための検索ツールとして始まりました。現在では、あらゆる形式のデータ、特に時系列やその他の順次生成されるデータを分析できるツールへと進化しています。 Splunk は、データ分析結果を複雑なビジュアルダッシュボードに表示できます。

最新の Splunk リリースには、TensorFlow などの機械学習ツールや優れた Python オープンソース ツールとデータ ソースを統合するためのアプリが含まれています。外れ値の検出、異常のラベル付け、将来の値の予測の生成のための高速なソリューションを提供します。これらは、非常に大規模なデータセットの干し草の山から針を見つけるために最適化されています。

2. データロボット

DataRobot 内のスタックは、R、Python、またはその他のプラットフォームで記述された優れたオープンソースの機械学習ライブラリのコレクションです。 DataRobot には、パイプラインを設定するためのフローチャートのようなツールを表示する Web インターフェースがあります。 DataRobot は、ローカル データベース、クラウド データ ストア、ダウンロードしたファイルやスプレッドシートなど、すべての主要なデータ ソースに接続します。構築するパイプラインは、データをクリーンアップし、欠損値を埋めてから、外れ値にフラグを立てて将来の値を予測するモデルを生成します。

DataRobot は、特定の予測が行われた理由について「人間にわかりやすい説明」を提供することも試みます。これは、AI の仕組みを理解するのに役立つ機能です。

クラウドとオンプレミスのソリューションのハイブリッド シナリオに展開できます。クラウド実装では共有リソースを通じて最大限の並列処理とスループットを実現できる一方、ローカルインストールではより高いプライバシーと制御が実現します。

3. 水

H2O は、さまざまな機械学習ソリューションを探索するために使用できる自動化スタックである「無人 AI」として自らを位置付けています。データ ソース (データベース、Hadoop、Spark など) を接続し、さまざまなパラメータを使用してさまざまなアルゴリズムに入力します。特定のタスクに割り当てられる時間とコンピューティング リソースの量を制御し、予算内でさまざまなパラメータの組み合わせをテストできます。ダッシュボードまたは Jupyter ノートブックを通じて結果を調査および監査することもできます。

H2O のコアとなる機械学習アルゴリズムと Spark などのツールとの統合はオープンソースですが、いわゆる「ドライバーレス」オプションは、技術サポートが提供されるエンタープライズ顧客に販売される独自のパッケージの 1 つです。

4. ラピッドマイナー

RapidMiner エコシステムの中核は、データ分析用の視覚的なアイコンに基づいたスタジオ ソフトウェアです。ユーザーはアイコンをドラッグ アンド ドロップするだけでパイプラインを生成し、データのクリーニングを行い、さまざまな統計アルゴリズムを実行することができます。従来のデータ サイエンスの代わりに機械学習を使用する場合、自動モデルはさまざまな分類アルゴリズムから選択し、最適なものが見つかるまでさまざまなパラメーターを検索します。このツールの目的は、何百ものモデルを生成し、その中から最適なモデルを決定することです。

モデルを作成した後、ツールはモデルを展開しながら成功率をテストし、モデルがどのように決定を下したかを説明します。ビジュアル ワークフロー エディターを使用して、さまざまなデータ フィールドに対する感度をテストおよび調整できます。

最近の機能強化には、テキスト分析の改善、ビジュアルダッシュボードを構築するためのさまざまなグラフ、時系列データを分析するためのより洗練されたアルゴリズムなどが含まれます。

5. ビッグML

BigML ダッシュボードは、より複雑な機械学習作業の基礎となるデータの相関関係を識別するためにデータ サイエンスで一般的に使用される基本ツールを提供します。たとえば、Deepnets は、より高度なニューラル ネットワークをテストおよび最適化するための高度なメカニズムを提供します。標準化された比較フレームワークを使用してモデルの品質を他のアルゴリズムと比較できるため、従来のデータ サイエンスとより洗練された機械学習のどちらかを選択できます。

BigML のダッシュボードはブラウザで実行され、その分析は BigML クラウドまたはサーバー ルームで実行できます。クラウド バージョンは早期テストを促進するために価格が低く設定されており、無料レベルもあります。コストは主にデータセットのサイズと、利用できるコンピューティング リソースの量によって決まります。無料利用枠では、最大 2 つのプロセスを並行して実行して、最大 16 MB のデータを分析します。小規模な有料アカウントは月額わずか 30 ドルと非常にリーズナブルですが、リソースのニーズが増加するとコストも増加します。

6. Rスタジオ

R は非プログラマーにとって使いやすいものではありませんが、ハードコアなデータ サイエンティストの間で非常に人気があるため、複雑な統計分析のための最も重要なツールの 1 つとなっています。 R Studio は、内部で実行されている R レイヤーとの対話を容易にするための一連のメニューとポイント アンド クリック オプションをユーザーに提供するツールです。

R Studio を使用すると、スプレッドシートを扱うことができる上級管理者は、最も単純なオプションを使用して基本的な分析や複雑な分析も実行できます。 R Studio の一部は一般ユーザーにとってまだわかりにくい部分もありますが、R Studio はオープンになり、時間を投資する意思のあるすべての人にとってアクセスしやすくなりつつあり、最先端のツールを試してみたい人にとっては試してみる価値があります。

<<:  今日のAIの優れた使用例

>>:  5G、人工知能、音声技術…2020年に注目すべき6つのテクノロジートレンド

ブログ    

推薦する

フィンテック2022年の技術トレンド:プライバシーコンピューティングが焦点、仮想人間が金融マネージャーを再構築

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

Verdict、2020年第1四半期のTwitterにおけるIoTトレンドトップ5を発表

私たちは、企業や専門家が IoT についてどう考えているかを知りたいと思っていますが、一般の人々はど...

機械学習を理解するための 3 つの図: 基本概念、5 つの主要な流派、9 つの一般的なアルゴリズム

機械学習は進歩しており、私たちが思い描いている人工知能にどんどん近づいているようです。音声認識、画像...

GPT-4 の補完精度はわずか 6% です。北京大学などが、初の「マルチラウンド、マルチモーダル」PPTタスク完了ベンチマークPPTCを提案

大規模言語モデル(ChatGPT や GPT-4 など)に関する最近の評価作業は、主に基本的な自然言...

主要なソートアルゴリズムのパフォーマンス比較とデモンストレーション例

ソートとは、もともと無秩序だったシーケンスを、順序のあるシーケンスに並べ替えることを意味します。ソー...

AIがFBIに加わったとき、KGBはそれを専門家と呼んだ

「市の東にある家で爆弾が爆発しようとしています!」 「爆弾はネズミ捕り、ACデルコ社の単三電池、亜鉛...

恒生電子と恒生巨源が共同で新たなデジタル金融商品を発売、金融ビジネスにおける大規模モデル技術の応用に重点

恒生銀行とその子会社である恒生聚源は6月28日、金融インテリジェントアシスタントPhotonや新しく...

完璧な意思決定ツリーを作成する方法

[51CTO.com クイック翻訳] ご存知のとおり、決定木は実生活で多くの実用的なシナリオで利用さ...

...

2021年第2四半期の人工知能へのベンチャーキャピタル投資は200億ドルを超え、新たな記録を樹立した。

CB Insightsが発表した2021年第2四半期のAI(人工知能)レポートによると、疫病の刺激...

GPT-4 は宇宙のすべてのデータを消費します! OpenAI、データ不足で相次いで訴訟に直面、カリフォルニア大学バークレー校教授が警告

「ネットワーク全体」を使い果たすと、生成 AI はすぐにデータを使い果たします。最近、カリフォルニア...

「三銃士」グループは、鉱業の諜報活動への発展を促進するためにデビューしました

我が国は鉱物資源が豊富な国であり、石炭、金属、その他の鉱物の生産地が非常に多く、我が国の鉱業開発は常...

ビデオ監視産業の発展動向とAI技術の応用

1. ビデオ監視産業の発展動向わが国では、安全都市やインテリジェント交通などのさまざまな建設プロジェ...

ビジネス上の問題を機械学習の問題に変換するにはどうすればよいでしょうか?

[[196752]]機械学習が価値を変革するための最も重要なステップは何ですか?ビジネス上の問題に...