機械学習の導入を容易にする 6 つのツール

機械学習の導入を容易にする 6 つのツール

「機械学習」という言葉には魔法のような雰囲気があります。機械学習は一般に一般の人々に受け入れられているわけではなく、データ サイエンティストは研究部門や研究室でデータを「金」に変える高度に専門化された錬金術師ですが、機械学習が科学であると単純に述べるだけでは、それ以上の説明にはなりません。

確かに、あまり知られていない事実かもしれませんが、機械学習ツールは長年にわたり進歩し、ほとんど誰でもボタンを押すだけで機械学習を利用して価値のあることを実行できるようになりました。これは簡単な作業ではありませんが、データを集約して実用的な洞察に変える作業は自動化されており、やる気があれば多くの組織で実行できます。

[[277527]]

このゆっくりとした復活は、ビジネス界の多くの非プログラマーがすでにかなりデータに精通しているという現実によって推進されています。数字が詰め込まれたスプレッドシートは、あらゆるレベルのビジネス意思決定者の共通言語であり、機械学習アルゴリズムはスプレッドシート内の明確に定義されたデータの行と列を好みます。機械学習の新しいツールは、本質的には、表形式のデータを有用な回答に変換するための戦略とオプションの単なる別のセットです。これらのツールの強みは、データの収集、構造の追加、一貫性の維持を処理し、その後、大量の計算作業を開始できることです。データ収集プロセスが簡素化され、情報を行と列に保持しやすくなります。

ツールは、ユーザーに代わってこれらすべての学習を実行できるほどスマートではありません。ユーザーは適切な質問をして、適切な場所を見つける必要があります。しかし、これらのツールにより答えの検索が高速化されるため、より広い範囲をカバーでき、より多くの検索が実行されるようになります。

AutoML: 機械学習の民主化

最近、「AutoML」という新しい流行語が登場し始めており、機械学習アルゴリズムには自動化のメタレイヤーが追加されていることを示しています。標準的なアルゴリズムは常に独自にパターンとルールを見つけるように設計されていますが、従来のアルゴリズムには多くのオプションとパラメーターが付属しています。データ サイエンティストは、多くの場合、最も予測力の高いルールを見つけることに時間の 80% ~ 99% を費やします。

AutoML は、さまざまなオプションを試し、テストし、さらにいくつかのオプションを試すことで、この段階を自動化します。機械学習アルゴリズムを 1 回実行するのではなく、N 回実行し、調整を加えて、再度 N 回実行し、これをユーザーの予算、時間、忍耐力が尽きるまで繰り返します。

AutoML ツールはクラウド コンピューティングに適しており、並列実行に十分な数のマシンを起動し、終了したらプールに戻すことができます。ユーザーは、コンピューティングのピーク時にのみ料金を支払います。

一般的に、AutoML アルゴリズムは、自分で機械学習を探索し始める人にとって良い選択肢です。自動化により、パラメータとオプションの設定という基本的な作業の一部が処理され、その結果がユーザーに代わってテストされるため、作業が簡素化されます。ユーザーがより洗練され、結果を理解し始めると、ユーザーはより多くのタスクを引き受け、自分で値を設定できるようになります。

最新のシステムにより、ユーザーは機械がどのように学習するかを理解しやすくなります。従来のプログラミングがルールとデータを答えに変換するのに対し、機械学習アルゴリズムは逆に、答えとデータをルールに変換します。これらのルールにより、ビジネスで何が起こっているかをユーザーに伝えることができます。これらの簡素化されたツールの開発者は、アルゴリズムによって発見されたルールと、さらに重要なことに、結果を再現する方法を説明するインターフェースも作成します。彼らは理解を容易にするためにブラックボックスを開きたいのです。

機械学習を簡単にする6つのツール

これらすべての機能により、数字、スプレッドシート、データを扱う人々に機械学習の世界が開かれ、プログラミングやデータ サイエンスの必要性が大幅に軽減されます。次の 6 つのオプションにより、ユーザーが機械学習アルゴリズムを使用して膨大なデータの中から答えを見つける方法が簡素化されます。

1. スプランク

Splunk のオリジナル バージョンは、最新の Web アプリケーションによって作成された大量のログ ファイルを検索または「スヌーピング」するためのツールとして始まりました。あらゆる形式のデータ、特に時系列データや順次生成されるその他のデータを分析できるように進化しました。このツールは、洗練された視覚化ルーチンを備えたダッシュボードに結果を表示します。

最新リリースには、TensorFlow などの機械学習ツールや、いくつかの優れた Python オープンソース ツールとデータ ソースを統合するアプリケーションが含まれています。外れ値を検出し、異常をフラグ付けし、将来の値の予測を生成するための高速なソリューションを提供します。非常に大きなデータセット内のファイルを検索するために最適化されています。

2. データロボット

DataRobot 内のスタックは、R、Python、またはその他のプラットフォームで記述されたオープンソースのマシン ライブラリのコレクションです。ユーザーは、パイプラインを設定するためのフローチャートのようなツールを表示する Web インターフェイスのみを扱います。 DataRobot は、ローカル データベース、クラウド データ ストア、ダウンロードしたファイルやスプレッドシートなどの主要なデータ ソースに接続します。ユーザーが構築したパイプラインは、データをクリーンアップし、欠損値を埋めてから、外れ値にフラグを立てて将来の値を予測するモデルを生成できます。

DataRobot は、特定の予測が行われた理由について「人間にわかりやすい説明」を提供することも試みることができ、これは人工知能の応用を理解するのに非常に役立ちます。

クラウドとオンプレミスのソリューションのハイブリッドで展開できます。クラウド コンピューティングは共有リソースを通じて最大限の並列処理とスループットを実現できる一方、ローカル インストールではより高いプライバシーと制御を実現できます。

3. 水

H2O は、さまざまな機械学習ソリューションを探索する自動化スタックを説明するために、「無人 AI」という用語を好んで使用します。データ ソース (データベース、Hadoop、Spark など) を結び付け、さまざまなパラメータを持つさまざまなアルゴリズムに入力します。ユーザーは、問題に費やされる時間と計算リソースを制御し、予算が満たされるまでさまざまなパラメータの組み合わせをテストできます。結果はダッシュボードまたは Jupyter ノートブックを介して参照および確認できます。

H2O のコアとなる機械学習アルゴリズムと Spark などのツールとの統合はオープンソースですが、いわゆる「ドライバーレス」オプションは、エンタープライズ顧客に販売される独自のパッケージの 1 つです。

4. ラピッドマイナー

RapidMiner エコシステムの中心となるのは、視覚的なアイコンからデータ分析を作成するためのスタジオです。データをクリーンアップし、さまざまな統計アルゴリズムを実行します。ユーザーが従来のデータサイエンスの代わりに機械学習を使用する場合、自動モデルはさまざまな分類アルゴリズムから選択し、最適な一致が見つかるまでさまざまなパラメータを検索します。このツールの目的は、何百ものモデルを生成し、その中から最適なモデルを決定することです。

モデルを作成した後、ツールはモデルを展開しながら成功率をテストし、モデルがどのように決定を下したかを説明します。ビジュアル ワークフロー エディターを使用して、さまざまなデータ フィールドに対する感度をテストおよび調整できます。

最近の改善点には、テキスト分析の改善、ビジュアルダッシュボードを構築するためのより多様なグラフ、時系列データを分析するためのより洗練されたアルゴリズムなどがあります。

5. ビッグML

BigML ダッシュボードは、機械学習におけるより複雑な作業の基礎となる相関関係を識別するためのデータ サイエンスの重要なツールを提供します。たとえば、ディープ ネットワークは、より高度なニューラル ネットワークをテストおよび最適化するための高度なメカニズムを提供します。モデルの品質を他のアルゴリズムと比較することができ、標準化された比較フレームワークにより、ユーザーは従来のデータ サイエンスとより洗練された機械学習のどちらかを選択できます。

BigML のダッシュボードはブラウザで実行され、その分析は BigML クラウド プラットフォームまたはサーバー ルームで実行できます。クラウド コンピューティング バージョンは早期導入を促進するために価格が低く設定されており、無料レベルも用意されています。コストは主に、データセットのサイズ制限と、呼び出せるコンピューティング リソースの量によって決まります。無料利用枠では、最大 2 つのプロセスを並行して実行して、最大 16 MB のデータを分析します。小規模な有料アカウントは月額料金がわずか 30 ドルからと手頃ですが、リソース要件が増加すると価格も上がります。

6. Rスタジオ

R はプログラマー以外の人にとっては使いやすい言語ではありませんが、熱心なデータ サイエンティストの間で人気があるため、複雑な統計分析を実行するための最も重要なツールの 1 つとなっています。 R Studio は、内部の奥深くで実行されている R レイヤーとの対話を容易にする一連のメニューとポイント アンド クリック オプションをユーザーに提供するツールです。

スプレッドシートを扱うことができる上級管理者は、最もシンプルなオプションを使用して、基本的な分析や複雑な分析を実行できます。一部の部分は一部のユーザーを混乱させる可能性がありますが、興味のあるすべての人に公開され、アクセスできるようになる寸前です。まだ多少の混乱はありますが、最先端のツールを試してみたい人にとっては価値があります。

<<:  機械学習の導入を容易にする 6 つのツール

>>:  近年、「人工知能」が私たちの生活に静かに登場している

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

機械学習アルゴリズム入門: 線形モデルからニューラルネットワークまで

最近、「機械学習」という言葉をよく耳にするようになりました(通常は予測分析や人工知能の文脈で)。過去...

...

宇宙探査における人工知能の驚くべき7つの応用

宇宙探査は人類の最も挑戦的で刺激的な取り組みの一つです。これには、科学的知識、技術革新、そして人間の...

オートメーション研究所の拡散モデル「Brain Reading」、MindDiffuserは人間の脳の視覚イメージを鮮明に再現します

脳信号から対応する視覚刺激を再構築することは、意義深く困難な作業です。これまでの研究では、一部の自然...

AI研究 | 陸宇:人工知能はオンライン教育を改善する大きな可能性を秘めている

工業情報化部科学技術庁は、感染予防・抑制に努め、感染拡大を阻止するために、「人工知能の力を十分に発揮...

MNISTとCIFAR 10を100%の精度で「解いた」と主張する人もいる

MNIST 認識の精度は 100% に達しましたか?最近、プレプリントプラットフォームarXivに掲...

スマートヘルスケアが業界のトレンドをリード、AI無人薬局の導入が加速

スマート医療産業の急速な発展は、多くの患者に恩恵をもたらしています。伝統的な医療業界をアップグレード...

技術革新は「プロトタイプ」で止まるわけにはいかない…

[[270666]] [51CTO.com クイック翻訳] 昨今、クラウドコンピューティング、ブロ...

...

...

Google の研究者が GPT-4 を使用してレビュー システムを破る AI-Guardian

海外メディアの報道によると、8月2日、Googleの研究者らは、OpenAIのGPT-4を研究アシス...

ロボットにあなたのことをもっと理解させるにはどうすればいいでしょうか?

[[361286]]自然言語処理技術は人工知能技術の重要な分野です。自然言語処理技術自体が成熟する...

...

AIは賢くなり、これらの新しい技術は流行の防止と生産の再開に役立つだろう

新型コロナウイルス肺炎の流行状況の変化に伴い、企業や機関の業務と生産の再開が現在の仕事の新たな焦点と...

2019年人工知能サバイバルガイド

「資本の冬は業界のマシュー効果と適者生存を加速させており、AI分野も例外ではありません。」Infer...