今日、多くのベンダーは、データインテリジェントなビジネスユーザーが AI テクノロジーを採用できるように、自動化されたデータ準備とアルゴリズム選択のレイヤーを提供することで、機械学習の謎を解き明かしています。
「機械学習」という言葉には魔法のような雰囲気があります。機械学習は一般に一般の人々に受け入れられているわけではなく、データ サイエンティストは研究部門や研究室でデータを「金」に変える高度に専門化された錬金術師ですが、機械学習が科学であると単純に述べるだけでは、それ以上の説明にはなりません。 確かに、あまり知られていない事実かもしれませんが、機械学習ツールは長年にわたり進歩し、ほとんど誰でもボタンを押すだけで機械学習を利用して価値のあることを実行できるようになりました。これは簡単な作業ではありませんが、データを集約して実用的な洞察に変える作業は自動化されており、やる気があれば多くの組織で実行できます。 このゆっくりとした復活は、ビジネス界の多くの非プログラマーがすでにかなりデータに精通しているという現実によって推進されています。数字が詰め込まれたスプレッドシートは、あらゆるレベルのビジネス意思決定者の共通言語であり、機械学習アルゴリズムはスプレッドシート内の明確に定義されたデータの行と列を好みます。機械学習の新しいツールは、本質的には、表形式のデータを有用な回答に変換するための戦略とオプションの単なる別のセットです。これらのツールの強みは、データの収集、構造の追加、一貫性の維持を処理し、その後、大量の計算作業を開始できることです。データ収集プロセスが簡素化され、情報を行と列に保持しやすくなります。 ツールは、ユーザーに代わってこれらすべての学習を実行できるほどスマートではありません。ユーザーは適切な質問をして、適切な場所を見つける必要があります。しかし、これらのツールにより答えの検索が高速化されるため、より広い範囲をカバーでき、より多くの検索が実行されるようになります。 AutoML: 機械学習の民主化 最近、「AutoML」という新しい流行語が登場し始めており、機械学習アルゴリズムには自動化のメタレイヤーが追加されていることを示しています。標準的なアルゴリズムは常に独自にパターンとルールを見つけるように設計されていますが、従来のアルゴリズムには多くのオプションとパラメーターが付属しています。データ サイエンティストは、予測性の高いルールを見つけるために、時間の 80% ~ 99% を費やすことがよくあります。 AutoML は、さまざまなオプションを試し、テストし、さらにいくつかのオプションを試すことで、この段階を自動化します。機械学習アルゴリズムを 1 回実行するのではなく、N 回実行し、調整を加えて、再度 N 回実行し、これをユーザーの予算、時間、忍耐力が尽きるまで繰り返します。 AutoML ツールはクラウド コンピューティングに適しており、並列実行に十分な数のマシンを起動し、終了したらプールに戻すことができます。ユーザーは、コンピューティングのピーク時にのみ料金を支払います。 一般的に、AutoML アルゴリズムは、自分で機械学習を探索し始める人にとって良い選択肢です。自動化により、パラメータとオプションの設定という基本的な作業の一部が処理され、その結果がユーザーに代わってテストされるため、作業が簡素化されます。ユーザーがより洗練され、結果を理解し始めると、ユーザーはより多くのタスクを引き受け、自分で値を設定できるようになります。 この新しいシステムにより、ユーザーは機械がどのように学習するかを理解しやすくなる可能性もあります。従来のプログラミングがルールとデータを答えに変換するのに対し、機械学習アルゴリズムは逆に、答えとデータをルールに変換します。これらのルールにより、ビジネスで何が起こっているかをユーザーに伝えることができます。これらの簡素化されたツールの開発者は、アルゴリズムによって発見されたルールと、さらに重要なことに、結果を再現する方法を説明するインターフェースも作成します。彼らは理解を容易にするためにブラックボックスを開きたいのです。 機械学習を簡単にする6つのツール これらすべての機能により、数字、スプレッドシート、データを扱う人々に機械学習の世界が開かれ、プログラミングやデータ サイエンスの必要性が大幅に軽減されます。次の 6 つのオプションにより、ユーザーが機械学習アルゴリズムを使用して膨大なデータの中から答えを見つける方法が簡素化されます。 1. スプランク Splunk のオリジナル バージョンは、最新の Web アプリケーションによって作成された大量のログ ファイルを検索または「スヌーピング」するためのツールとして始まりました。あらゆる形式のデータ、特に時系列データや順次生成されるその他のデータを分析できるように進化しました。このツールは、洗練された視覚化ルーチンを備えたダッシュボードに結果を表示します。 新しいリリースには、TensorFlow などの機械学習ツールや一部のプレミアムPython オープンソース ツールとデータ ソースを統合するアプリが含まれています。外れ値を検出し、異常をフラグ付けし、将来の値の予測を生成するための高速なソリューションを提供します。非常に大きなデータセット内のファイルを検索するために最適化されています。 2. データロボット DataRobot 内のスタックは、R、Python、またはその他のプラットフォームで記述されたオープンソースのマシン ライブラリのコレクションです。ユーザーは、パイプラインを設定するためのフローチャートのようなツールを表示する Web インターフェイスのみを扱います。 DataRobot は、ローカル データベース、クラウド データ ストア、ダウンロードしたファイルやスプレッドシートなどの主要なデータ ソースに接続します。ユーザーが構築したパイプラインは、データをクリーンアップし、欠損値を埋めてから、外れ値にフラグを立てて将来の値を予測するモデルを生成できます。 DataRobot は、特定の予測が行われた理由について「人間にわかりやすい説明」を提供することも試みることができ、これは人工知能の応用を理解するのに非常に役立ちます。 クラウドとオンプレミスのソリューションのハイブリッドで展開できます。クラウド コンピューティングは、共有リソースを通じて優れた並列処理とスループットを実現できる一方、ローカル インストールではプライバシーと制御をさらに高めることができます。 3. 水 H2O は、さまざまな機械学習ソリューションを探索する自動化スタックを説明するために、「無人 AI」という用語を好んで使用します。データ ソース (データベース、Hadoop、Spark など) を結び付け、さまざまなパラメータを持つさまざまなアルゴリズムに入力します。ユーザーは、問題に費やされる時間と計算リソースを制御し、予算が満たされるまでさまざまなパラメータの組み合わせをテストできます。結果はダッシュボードまたは Jupyter ノートブックを介して参照および確認できます。 H2O のコアとなる機械学習アルゴリズムと Spark などのツールとの統合はオープンソースですが、いわゆる「ドライバーレス」オプションは、エンタープライズ顧客に販売される独自のパッケージの 1 つです。 4. ラピッドマイナー RapidMiner エコシステムの中心となるのは、視覚的なアイコンからデータ分析を作成するためのスタジオです。データをクリーンアップし、さまざまな統計アルゴリズムを実行します。ユーザーが従来のデータサイエンスの代わりに機械学習を使用したい場合は、自動モデルがさまざまな分類アルゴリズムから選択し、適切な一致が見つかるまでさまざまなパラメータを検索します。このツールの目的は、何百ものモデルを生成し、その中から高品質のモデルを識別することです。 モデルを作成した後、ツールはモデルを展開しながら成功率をテストし、モデルがどのように決定を下したかを説明します。ビジュアル ワークフロー エディターを使用して、さまざまなデータ フィールドに対する感度をテストおよび調整できます。 最近の改善点には、テキスト分析の改善、ビジュアルダッシュボードを構築するためのより多様なグラフ、時系列データを分析するためのより洗練されたアルゴリズムなどがあります。 5. ビッグML BigML ダッシュボードは、機械学習におけるより複雑な作業の基礎となる相関関係を識別するためのデータ サイエンスの重要なツールを提供します。たとえば、ディープ ネットワークは、より高度なニューラル ネットワークをテストおよび最適化するための高度なメカニズムを提供します。モデルの品質を他のアルゴリズムと比較することができ、標準化された比較フレームワークにより、ユーザーは従来のデータ サイエンスとより洗練された機械学習のどちらかを選択できます。 BigML のダッシュボードはブラウザで実行され、その分析は BigML クラウド プラットフォームまたはサーバー ルームで実行できます。クラウド コンピューティング バージョンは早期導入を促進するために価格が低く設定されており、無料レベルも用意されています。コストは主に、データセットのサイズ制限と、呼び出せるコンピューティング リソースの量によって決まります。無料利用枠では、最大 2 つのプロセスを並行して実行して、最大 16 MB のデータを分析します。小規模な有料アカウントは月額料金がわずか 30 ドルからと手頃ですが、リソース要件が増加すると価格も上がります。 6. Rスタジオ R はプログラマー以外の人にとっては使いやすい言語ではありませんが、熱心なデータ サイエンティストの間で人気があるため、複雑な統計分析を実行するための最も重要なツールの 1 つとなっています。 R Studio は、内部の奥深くで実行されている R レイヤーとの対話を容易にする一連のメニューとポイント アンド クリック オプションをユーザーに提供するツールです。 スプレッドシートを扱うことができる上級管理者は、最もシンプルなオプションを使用して、基本的な分析や複雑な分析を実行できます。一部の部分は一部のユーザーを混乱させる可能性がありますが、興味のあるすべての人に公開され、アクセスできるようになる寸前です。まだ多少の混乱はありますが、最先端のツールを試してみたい人にとっては価値があります。 |
<<: 人工知能は私たちに何をもたらしてくれるのでしょうか?人工知能は非常に強力です
ドキュメント画像を Markdown 形式に変換したいですか?以前は、このタスクには、テキスト認識、...
AI システムへの世界的な支出は 2023 年から 2026 年の間に 2 倍になると予想されており...
人工知能が徐々に物理セキュリティの分野に参入するにつれて、より高度なアクセス制御ソリューションが登場...
最近、アリババは軽量ディープラーニングエッジ推論エンジン「MNN」を正式にオープンソース化しました。...
現代のティーンエイジャーにとってクールなものは何でしょうか?おそらくそれは AJ シューズを履くこと...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
Google は最近、TensorFlow Quantum (TensorFlow の拡張) のオー...
セキュリティ専門家は、自分の仕事が人工知能に置き換えられることを心配する必要があるのでしょうか?警備...
RPA 導入を成功させるために、この記事では、ビジネスに最適な RPA コンサルタントを選択するプロ...
[[441526]]近年、ディープラーニングは一連のタスク(画像認識、物体認識、セマンティックセグメ...
ほとんどの人にとって、あるオブジェクトを別のオブジェクトの上に重ねることは簡単な作業です。しかし、最...
サイバー防御能力は、より高度なサイバー攻撃能力の発展に追いつくのに苦労している。人工知能、特に最先端...