機械学習の導入を容易にする 6 つのツール

機械学習の導入を容易にする 6 つのツール

「機械学習」という言葉には魔法のような雰囲気があります。機械学習は一般に一般の人々に受け入れられているわけではなく、データ サイエンティストは研究部門や研究室でデータを「金」に変える高度に専門化された錬金術師ですが、機械学習が科学であると単純に述べるだけでは、それ以上の説明にはなりません。

確かに、あまり知られていない事実かもしれませんが、機械学習ツールは長年にわたり進歩し、ほとんど誰でもボタンを押すだけで機械学習を利用して価値のあることを実行できるようになりました。これは簡単な作業ではありませんが、データを集約して実用的な洞察に変える作業は自動化されており、やる気があれば多くの組織で実行できます。

[[277527]]

このゆっくりとした復活は、ビジネス界の多くの非プログラマーがすでにかなりデータに精通しているという現実によって推進されています。数字が詰め込まれたスプレッドシートは、あらゆるレベルのビジネス意思決定者の共通言語であり、機械学習アルゴリズムはスプレッドシート内の明確に定義されたデータの行と列を好みます。機械学習の新しいツールは、本質的には、表形式のデータを有用な回答に変換するための戦略とオプションの単なる別のセットです。これらのツールの強みは、データの収集、構造の追加、一貫性の維持を処理し、その後、大量の計算作業を開始できることです。データ収集プロセスが簡素化され、情報を行と列に保持しやすくなります。

ツールは、ユーザーに代わってこれらすべての学習を実行できるほどスマートではありません。ユーザーは適切な質問をして、適切な場所を見つける必要があります。しかし、これらのツールにより答えの検索が高速化されるため、より広い範囲をカバーでき、より多くの検索が実行されるようになります。

AutoML: 機械学習の民主化

最近、「AutoML」という新しい流行語が登場し始めており、機械学習アルゴリズムには自動化のメタレイヤーが追加されていることを示しています。標準的なアルゴリズムは常に独自にパターンとルールを見つけるように設計されていますが、従来のアルゴリズムには多くのオプションとパラメーターが付属しています。データ サイエンティストは、多くの場合、最も予測力の高いルールを見つけることに時間の 80% ~ 99% を費やします。

AutoML は、さまざまなオプションを試し、テストし、さらにいくつかのオプションを試すことで、この段階を自動化します。機械学習アルゴリズムを 1 回実行するのではなく、N 回実行し、調整を加えて、再度 N 回実行し、これをユーザーの予算、時間、忍耐力が尽きるまで繰り返します。

AutoML ツールはクラウド コンピューティングに適しており、並列実行に十分な数のマシンを起動し、終了したらプールに戻すことができます。ユーザーは、コンピューティングのピーク時にのみ料金を支払います。

一般的に、AutoML アルゴリズムは、自分で機械学習を探索し始める人にとって良い選択肢です。自動化により、パラメータとオプションの設定という基本的な作業の一部が処理され、その結果がユーザーに代わってテストされるため、作業が簡素化されます。ユーザーがより洗練され、結果を理解し始めると、ユーザーはより多くのタスクを引き受け、自分で値を設定できるようになります。

最新のシステムにより、ユーザーは機械がどのように学習するかを理解しやすくなります。従来のプログラミングがルールとデータを答えに変換するのに対し、機械学習アルゴリズムは逆に、答えとデータをルールに変換します。これらのルールにより、ビジネスで何が起こっているかをユーザーに伝えることができます。これらの簡素化されたツールの開発者は、アルゴリズムによって発見されたルールと、さらに重要なことに、結果を再現する方法を説明するインターフェースも作成します。彼らは理解を容易にするためにブラックボックスを開きたいのです。

機械学習を簡単にする6つのツール

これらすべての機能により、数字、スプレッドシート、データを扱う人々に機械学習の世界が開かれ、プログラミングやデータ サイエンスの必要性が大幅に軽減されます。次の 6 つのオプションにより、ユーザーが機械学習アルゴリズムを使用して膨大なデータの中から答えを見つける方法が簡素化されます。

1. スプランク

Splunk のオリジナル バージョンは、最新の Web アプリケーションによって作成された大量のログ ファイルを検索または「スヌーピング」するためのツールとして始まりました。あらゆる形式のデータ、特に時系列データや順次生成されるその他のデータを分析できるように進化しました。このツールは、洗練された視覚化ルーチンを備えたダッシュボードに結果を表示します。

最新リリースには、TensorFlow などの機械学習ツールや、いくつかの優れた Python オープンソース ツールとデータ ソースを統合するアプリケーションが含まれています。外れ値を検出し、異常をフラグ付けし、将来の値の予測を生成するための高速なソリューションを提供します。非常に大きなデータセット内のファイルを検索するために最適化されています。

2. データロボット

DataRobot 内のスタックは、R、Python、またはその他のプラットフォームで記述されたオープンソースのマシン ライブラリのコレクションです。ユーザーは、パイプラインを設定するためのフローチャートのようなツールを表示する Web インターフェイスのみを扱います。 DataRobot は、ローカル データベース、クラウド データ ストア、ダウンロードしたファイルやスプレッドシートなどの主要なデータ ソースに接続します。ユーザーが構築したパイプラインは、データをクリーンアップし、欠損値を埋めてから、外れ値にフラグを立てて将来の値を予測するモデルを生成できます。

DataRobot は、特定の予測が行われた理由について「人間にわかりやすい説明」を提供することも試みることができ、これは人工知能の応用を理解するのに非常に役立ちます。

クラウドとオンプレミスのソリューションのハイブリッドで展開できます。クラウド コンピューティングは共有リソースを通じて最大限の並列処理とスループットを実現できる一方、ローカル インストールではより高いプライバシーと制御を実現できます。

3. 水

H2O は、さまざまな機械学習ソリューションを探索する自動化スタックを説明するために、「無人 AI」という用語を好んで使用します。データ ソース (データベース、Hadoop、Spark など) を結び付け、さまざまなパラメータを持つさまざまなアルゴリズムに入力します。ユーザーは、問題に費やされる時間と計算リソースを制御し、予算が満たされるまでさまざまなパラメータの組み合わせをテストできます。結果はダッシュボードまたは Jupyter ノートブックを介して参照および確認できます。

H2O のコアとなる機械学習アルゴリズムと Spark などのツールとの統合はオープンソースですが、いわゆる「ドライバーレス」オプションは、エンタープライズ顧客に販売される独自のパッケージの 1 つです。

4. ラピッドマイナー

RapidMiner エコシステムの中心となるのは、視覚的なアイコンからデータ分析を作成するためのスタジオです。データをクリーンアップし、さまざまな統計アルゴリズムを実行します。ユーザーが従来のデータサイエンスの代わりに機械学習を使用する場合、自動モデルはさまざまな分類アルゴリズムから選択し、最適な一致が見つかるまでさまざまなパラメータを検索します。このツールの目的は、何百ものモデルを生成し、その中から最適なモデルを決定することです。

モデルを作成した後、ツールはモデルを展開しながら成功率をテストし、モデルがどのように決定を下したかを説明します。ビジュアル ワークフロー エディターを使用して、さまざまなデータ フィールドに対する感度をテストおよび調整できます。

最近の改善点には、テキスト分析の改善、ビジュアルダッシュボードを構築するためのより多様なグラフ、時系列データを分析するためのより洗練されたアルゴリズムなどがあります。

5. ビッグML

BigML ダッシュボードは、機械学習におけるより複雑な作業の基礎となる相関関係を識別するためのデータ サイエンスの重要なツールを提供します。たとえば、ディープ ネットワークは、より高度なニューラル ネットワークをテストおよび最適化するための高度なメカニズムを提供します。モデルの品質を他のアルゴリズムと比較することができ、標準化された比較フレームワークにより、ユーザーは従来のデータ サイエンスとより洗練された機械学習のどちらかを選択できます。

BigML のダッシュボードはブラウザで実行され、その分析は BigML クラウド プラットフォームまたはサーバー ルームで実行できます。クラウド コンピューティング バージョンは早期導入を促進するために価格が低く設定されており、無料レベルも用意されています。コストは主に、データセットのサイズ制限と、呼び出せるコンピューティング リソースの量によって決まります。無料利用枠では、最大 2 つのプロセスを並行して実行して、最大 16 MB のデータを分析します。小規模な有料アカウントは月額料金がわずか 30 ドルからと手頃ですが、リソース要件が増加すると価格も上がります。

6. Rスタジオ

R はプログラマー以外の人にとっては使いやすい言語ではありませんが、熱心なデータ サイエンティストの間で人気があるため、複雑な統計分析を実行するための最も重要なツールの 1 つとなっています。 R Studio は、内部の奥深くで実行されている R レイヤーとの対話を容易にする一連のメニューとポイント アンド クリック オプションをユーザーに提供するツールです。

スプレッドシートを扱うことができる上級管理者は、最もシンプルなオプションを使用して、基本的な分析や複雑な分析を実行できます。一部の部分は一部のユーザーを混乱させる可能性がありますが、興味のあるすべての人に公開され、アクセスできるようになる寸前です。まだ多少の混乱はありますが、最先端のツールを試してみたい人にとっては価値があります。

<<:  機械学習の導入を容易にする 6 つのツール

>>:  近年、「人工知能」が私たちの生活に静かに登場している

ブログ    
ブログ    

推薦する

...

2021年のAIの発展:エッジAIは止められない

[[388887]]人工知能研究を専門とする外国の機関が、人工知能の実務家を対象に、2021年の人工...

ロボットは拡大し続ける分野で反復的な労働に取って代わり、人間と機械の協働の時代が到来した。

海外メディアの報道によると、テキサス州ダラスの大規模病院「メディカル・シティ・ヘルスケア」に最近、全...

A100よりもコストパフォーマンスに優れています! FlightLLM により、大規模モデル推論でパフォーマンスとコストを同時に心配する必要がなくなりました。

端末側での大規模言語モデルの適用により、コンピューティング性能とエネルギー効率の需要が「引き出され」...

シンガポールは路上での悪質な行為を検知するためにロボットを使っている

シンガポールは、都市国家内での違法行為を阻止するためにロボットを活用している。しかし、ロボット警官が...

機械学習の錬金術の理論的根拠はどれほど強固なのでしょうか?

機械学習の分野は近年急速に発展しています。しかし、機械学習理論に対する理解は依然として非常に限られて...

この段階で注力すべき人工知能の6つの分野

現段階では、人工知能の一般的に受け入れられている定義については多くの議論があります。人工知能を「認知...

「新しいインフラ」に求められるAI人材のギャップをどう埋めるか

「新インフラ」がホットワードとなり、その重要な構成要素として人工知能に大きな期待が寄せられている。 ...

機能テストケース自動生成アルゴリズム ペアワイズ

[[433685]]ペアワイズアルゴリズムとは何ですか?次のテストシナリオの場合:ブラウザ: M、O...

...

...

救世主か、それとも公敵か? 人工知能の現在と未来を説明する記事

囲碁チャンピオンのイ・セドルを破ったロボット「アルファ碁」から、卓球ができるKUKAロボット、遠隔手...

...

生成型AIとデータが未来の産業をどう形作るか

私たちは、生成型 AI の出現によって推進される技術革命の真っ只中にいます。 これは単なる技術の漸進...

AIがハイパフォーマンスコンピューティングから学べる7つの教訓

効果的な IT 組織は、ハイパフォーマンス コンピューティング (HPC) から教訓を得て、システム...