機械学習の導入を容易にする 6 つのツール

機械学習の導入を容易にする 6 つのツール

「機械学習」という言葉には魔法のような雰囲気があります。機械学習は一般に一般の人々に受け入れられているわけではなく、データ サイエンティストは研究部門や研究室でデータを「金」に変える高度に専門化された錬金術師ですが、機械学習が科学であると単純に述べるだけでは、それ以上の説明にはなりません。

確かに、あまり知られていない事実かもしれませんが、機械学習ツールは長年にわたり進歩し、ほとんど誰でもボタンを押すだけで機械学習を利用して価値のあることを実行できるようになりました。これは簡単な作業ではありませんが、データを集約して実用的な洞察に変える作業は自動化されており、やる気があれば多くの組織で実行できます。

[[277527]]

このゆっくりとした復活は、ビジネス界の多くの非プログラマーがすでにかなりデータに精通しているという現実によって推進されています。数字が詰め込まれたスプレッドシートは、あらゆるレベルのビジネス意思決定者の共通言語であり、機械学習アルゴリズムはスプレッドシート内の明確に定義されたデータの行と列を好みます。機械学習の新しいツールは、本質的には、表形式のデータを有用な回答に変換するための戦略とオプションの単なる別のセットです。これらのツールの強みは、データの収集、構造の追加、一貫性の維持を処理し、その後、大量の計算作業を開始できることです。データ収集プロセスが簡素化され、情報を行と列に保持しやすくなります。

ツールは、ユーザーに代わってこれらすべての学習を実行できるほどスマートではありません。ユーザーは適切な質問をして、適切な場所を見つける必要があります。しかし、これらのツールにより答えの検索が高速化されるため、より広い範囲をカバーでき、より多くの検索が実行されるようになります。

AutoML: 機械学習の民主化

最近、「AutoML」という新しい流行語が登場し始めており、機械学習アルゴリズムには自動化のメタレイヤーが追加されていることを示しています。標準的なアルゴリズムは常に独自にパターンとルールを見つけるように設計されていますが、従来のアルゴリズムには多くのオプションとパラメーターが付属しています。データ サイエンティストは、多くの場合、最も予測力の高いルールを見つけることに時間の 80% ~ 99% を費やします。

AutoML は、さまざまなオプションを試し、テストし、さらにいくつかのオプションを試すことで、この段階を自動化します。機械学習アルゴリズムを 1 回実行するのではなく、N 回実行し、調整を加えて、再度 N 回実行し、これをユーザーの予算、時間、忍耐力が尽きるまで繰り返します。

AutoML ツールはクラウド コンピューティングに適しており、並列実行に十分な数のマシンを起動し、終了したらプールに戻すことができます。ユーザーは、コンピューティングのピーク時にのみ料金を支払います。

一般的に、AutoML アルゴリズムは、自分で機械学習を探索し始める人にとって良い選択肢です。自動化により、パラメータとオプションの設定という基本的な作業の一部が処理され、その結果がユーザーに代わってテストされるため、作業が簡素化されます。ユーザーがより洗練され、結果を理解し始めると、ユーザーはより多くのタスクを引き受け、自分で値を設定できるようになります。

最新のシステムにより、ユーザーは機械がどのように学習するかを理解しやすくなります。従来のプログラミングがルールとデータを答えに変換するのに対し、機械学習アルゴリズムは逆に、答えとデータをルールに変換します。これらのルールにより、ビジネスで何が起こっているかをユーザーに伝えることができます。これらの簡素化されたツールの開発者は、アルゴリズムによって発見されたルールと、さらに重要なことに、結果を再現する方法を説明するインターフェースも作成します。彼らは理解を容易にするためにブラックボックスを開きたいのです。

機械学習を簡単にする6つのツール

これらすべての機能により、数字、スプレッドシート、データを扱う人々に機械学習の世界が開かれ、プログラミングやデータ サイエンスの必要性が大幅に軽減されます。次の 6 つのオプションにより、ユーザーが機械学習アルゴリズムを使用して膨大なデータの中から答えを見つける方法が簡素化されます。

1. スプランク

Splunk のオリジナル バージョンは、最新の Web アプリケーションによって作成された大量のログ ファイルを検索または「スヌーピング」するためのツールとして始まりました。あらゆる形式のデータ、特に時系列データや順次生成されるその他のデータを分析できるように進化しました。このツールは、洗練された視覚化ルーチンを備えたダッシュボードに結果を表示します。

最新リリースには、TensorFlow などの機械学習ツールや、いくつかの優れた Python オープンソース ツールとデータ ソースを統合するアプリケーションが含まれています。外れ値を検出し、異常をフラグ付けし、将来の値の予測を生成するための高速なソリューションを提供します。非常に大きなデータセット内のファイルを検索するために最適化されています。

2. データロボット

DataRobot 内のスタックは、R、Python、またはその他のプラットフォームで記述されたオープンソースのマシン ライブラリのコレクションです。ユーザーは、パイプラインを設定するためのフローチャートのようなツールを表示する Web インターフェイスのみを扱います。 DataRobot は、ローカル データベース、クラウド データ ストア、ダウンロードしたファイルやスプレッドシートなどの主要なデータ ソースに接続します。ユーザーが構築したパイプラインは、データをクリーンアップし、欠損値を埋めてから、外れ値にフラグを立てて将来の値を予測するモデルを生成できます。

DataRobot は、特定の予測が行われた理由について「人間にわかりやすい説明」を提供することも試みることができ、これは人工知能の応用を理解するのに非常に役立ちます。

クラウドとオンプレミスのソリューションのハイブリッドで展開できます。クラウド コンピューティングは共有リソースを通じて最大限の並列処理とスループットを実現できる一方、ローカル インストールではより高いプライバシーと制御を実現できます。

3. 水

H2O は、さまざまな機械学習ソリューションを探索する自動化スタックを説明するために、「無人 AI」という用語を好んで使用します。データ ソース (データベース、Hadoop、Spark など) を結び付け、さまざまなパラメータを持つさまざまなアルゴリズムに入力します。ユーザーは、問題に費やされる時間と計算リソースを制御し、予算が満たされるまでさまざまなパラメータの組み合わせをテストできます。結果はダッシュボードまたは Jupyter ノートブックを介して参照および確認できます。

H2O のコアとなる機械学習アルゴリズムと Spark などのツールとの統合はオープンソースですが、いわゆる「ドライバーレス」オプションは、エンタープライズ顧客に販売される独自のパッケージの 1 つです。

4. ラピッドマイナー

RapidMiner エコシステムの中心となるのは、視覚的なアイコンからデータ分析を作成するためのスタジオです。データをクリーンアップし、さまざまな統計アルゴリズムを実行します。ユーザーが従来のデータサイエンスの代わりに機械学習を使用する場合、自動モデルはさまざまな分類アルゴリズムから選択し、最適な一致が見つかるまでさまざまなパラメータを検索します。このツールの目的は、何百ものモデルを生成し、その中から最適なモデルを決定することです。

モデルを作成した後、ツールはモデルを展開しながら成功率をテストし、モデルがどのように決定を下したかを説明します。ビジュアル ワークフロー エディターを使用して、さまざまなデータ フィールドに対する感度をテストおよび調整できます。

最近の改善点には、テキスト分析の改善、ビジュアルダッシュボードを構築するためのより多様なグラフ、時系列データを分析するためのより洗練されたアルゴリズムなどがあります。

5. ビッグML

BigML ダッシュボードは、機械学習におけるより複雑な作業の基礎となる相関関係を識別するためのデータ サイエンスの重要なツールを提供します。たとえば、ディープ ネットワークは、より高度なニューラル ネットワークをテストおよび最適化するための高度なメカニズムを提供します。モデルの品質を他のアルゴリズムと比較することができ、標準化された比較フレームワークにより、ユーザーは従来のデータ サイエンスとより洗練された機械学習のどちらかを選択できます。

BigML のダッシュボードはブラウザで実行され、その分析は BigML クラウド プラットフォームまたはサーバー ルームで実行できます。クラウド コンピューティング バージョンは早期導入を促進するために価格が低く設定されており、無料レベルも用意されています。コストは主に、データセットのサイズ制限と、呼び出せるコンピューティング リソースの量によって決まります。無料利用枠では、最大 2 つのプロセスを並行して実行して、最大 16 MB のデータを分析します。小規模な有料アカウントは月額料金がわずか 30 ドルからと手頃ですが、リソース要件が増加すると価格も上がります。

6. Rスタジオ

R はプログラマー以外の人にとっては使いやすい言語ではありませんが、熱心なデータ サイエンティストの間で人気があるため、複雑な統計分析を実行するための最も重要なツールの 1 つとなっています。 R Studio は、内部の奥深くで実行されている R レイヤーとの対話を容易にする一連のメニューとポイント アンド クリック オプションをユーザーに提供するツールです。

スプレッドシートを扱うことができる上級管理者は、最もシンプルなオプションを使用して、基本的な分析や複雑な分析を実行できます。一部の部分は一部のユーザーを混乱させる可能性がありますが、興味のあるすべての人に公開され、アクセスできるようになる寸前です。まだ多少の混乱はありますが、最先端のツールを試してみたい人にとっては価値があります。

<<:  機械学習の導入を容易にする 6 つのツール

>>:  近年、「人工知能」が私たちの生活に静かに登場している

ブログ    

推薦する

人工知能を搭載したロボットは私たちの生活からどれくらい離れているのでしょうか?

産業用ロボットは幅広い用途でますます利用されるようになっているわが国は世界最大かつ最も活発な産業用ロ...

TensorFlow2 を使用してアラビア語の手書き文字データセットを認識する方法を説明します

[[405478]]このチュートリアルでは、TensorFlow (Keras API) を使用して...

...

レストランロボットの準備はできていますか?それが答えかもしれない

パンデミック中に本当に苦戦した業界の一つはレストランです。多くのレストランは社会的距離を保つ必要性か...

注目すべき中国の創造物:ユビキタス人工知能が夢を現実にする

人工知能はどこから来たのでしょうか? 人工知能は人類をどこへ連れて行くのでしょうか? 人工知能は「見...

...

...

ロボットは「痛みを恐れ」始めており、人間の介入なしに「自分自身を癒す」こともできる。

[[348121]]私の印象では、ロボットは火や剣を恐れていないようです。彼らには痛覚はなく、単な...

Pythonアルゴリズムの正しい実装の紹介

経験豊富な Python プログラマーにとって、Python アルゴリズムの実装は難しくありません。...

機械学習がデータセンター管理をどう変えるか

機械学習はデータセンターの経済性を劇的に変え、将来のパフォーマンス向上への道を開きます。機械学習と人...

IBMの新しいデータ分析アルゴリズムは、20分で9TBのデータを分析できる

IBMは最近、スイスのチューリッヒ研究所がデータ分析アルゴリズムにおいて画期的な進歩を遂げ、膨大なデ...

人間とAIの初の討論会:観客が「メロンを食べていた」ため、AI討論者が勝利

[[234490]] 「ニュース速報、ニュース速報、人間と AI の最初の討論会は敗北しました......

...

PHP 再帰アルゴリズムとアプリケーションの紹介

PHP は動的な Web ページを開発するための最適なテクノロジーです。プログラミングに役立つ基本的...

人工知能業界マップと主要なブレークスルー

Sage の予測によると、人工知能の出現により、2030 年までに世界の GDP がさらに 14% ...