かつて、機械学習という用語は科学的な光輪に包まれており、複雑なアルゴリズムにデータを「入力」して有用な分析結果を生成する方法を知っているのは、高給取りのデータ サイエンティストのほんの一握りだけでした。しかし現在では、自動化ツールの急速な発展により、データの収集、構造化、分析が容易になり、機械学習を利用するための敷居は大幅に下がりました。プログラミングを理解していないビジネス担当者でも、適切な質問をすることができれば、機械学習ツールを使用して目的の結果を得ることができます。
機械学習の民主化が加速しています。その兆候の 1 つとして、最近 AutoML がホットワードになっていることが挙げられます。いわゆる AutoML は、機械学習アルゴリズムに自動化されたメタ レイヤーを追加します。これまで、機械学習アルゴリズムの複雑さは、多数のオプションとパラメータ設定を「微調整」する必要があることに起因しており、データ サイエンティストのエネルギーの 80 ~ 99% がこれに費やされていました。 AutoML は多数のパラメータを自動的にテストおよび調整できるため、アルゴリズムの使用のハードルが大幅に下がるだけでなく、アルゴリズムの調整プロセスも高速化されます。 AutoML は、クラウド内の十分なマシン コンピューティング パワーを利用して、並列で処理し、結果を返すことができるため、クラウド コンピューティングに最適です。同時に、AutoML は、機械学習の初心者が機械学習アプリケーションを段階的に独自に探索するのにも最適です。 機械学習を簡単にする6つのツール 次の 6 つの機械学習ツールは、プログラミングやデータ サイエンスの専門家にならなくても、数字、スプレッドシート、データを扱うすべての人に機械学習の世界への扉を開きます。 1. スプランク Splunk は、Web アプリケーションによって作成された大量のログ ファイルを検索 (または「スヌーピング」) するための検索ツールとして始まりました。現在では、あらゆる形式のデータ、特に時系列やその他の順次生成されるデータを分析できるツールへと進化しています。 Splunk は、データ分析結果を複雑なビジュアルダッシュボードに表示できます。 最新の Splunk リリースには、TensorFlow などの機械学習ツールや優れた Python オープンソース ツールとデータ ソースを統合するためのアプリが含まれています。外れ値の検出、異常のラベル付け、将来の値の予測の生成のための高速なソリューションを提供します。これらは、非常に大規模なデータセットの干し草の山から針を見つけるために最適化されています。 2. データロボット DataRobot 内のスタックは、R、Python、またはその他のプラットフォームで記述された優れたオープンソースの機械学習ライブラリのコレクションです。 DataRobot には、パイプラインを設定するためのフローチャートのようなツールを表示する Web インターフェースがあります。 DataRobot は、ローカル データベース、クラウド データ ストア、ダウンロードしたファイルやスプレッドシートなど、すべての主要なデータ ソースに接続します。構築するパイプラインは、データをクリーンアップし、欠損値を埋めてから、外れ値にフラグを立てて将来の値を予測するモデルを生成します。 DataRobot は、特定の予測が行われた理由について「人間にわかりやすい説明」を提供することも試みます。これは、AI の仕組みを理解するのに役立つ機能です。 クラウドとオンプレミスのソリューションのハイブリッド シナリオに展開できます。クラウド実装では共有リソースを通じて最大限の並列処理とスループットを実現できる一方、ローカルインストールではより高いプライバシーと制御が実現します。 3. 水 H2O は、さまざまな機械学習ソリューションを探索するために使用できる自動化スタックである「無人 AI」として自らを位置付けています。データ ソース (データベース、Hadoop、Spark など) を接続し、さまざまなパラメータを使用してさまざまなアルゴリズムに入力します。特定のタスクに割り当てられる時間とコンピューティング リソースの量を制御し、予算内でさまざまなパラメータの組み合わせをテストできます。ダッシュボードまたは Jupyter ノートブックを通じて結果を調査および監査することもできます。 H2O のコアとなる機械学習アルゴリズムと Spark などのツールとの統合はオープンソースですが、いわゆる「ドライバーレス」オプションは、技術サポートが提供されるエンタープライズ顧客に販売される独自のパッケージの 1 つです。 4. ラピッドマイナー RapidMiner エコシステムの中核は、データ分析用の視覚的なアイコンに基づいたスタジオ ソフトウェアです。ユーザーはアイコンをドラッグ アンド ドロップするだけでパイプラインを生成し、データのクリーニングを行い、さまざまな統計アルゴリズムを実行することができます。従来のデータ サイエンスの代わりに機械学習を使用する場合、自動モデルはさまざまな分類アルゴリズムから選択し、最適なものが見つかるまでさまざまなパラメーターを検索します。このツールの目的は、何百ものモデルを生成し、その中から最適なモデルを決定することです。 モデルを作成した後、ツールはモデルを展開しながら成功率をテストし、モデルがどのように決定を下したかを説明します。ビジュアル ワークフロー エディターを使用して、さまざまなデータ フィールドに対する感度をテストおよび調整できます。 最近の機能強化には、テキスト分析の改善、ビジュアルダッシュボードを構築するためのさまざまなグラフ、時系列データを分析するためのより洗練されたアルゴリズムなどが含まれます。 5. ビッグML BigML ダッシュボードは、より複雑な機械学習作業の基礎となるデータの相関関係を識別するためにデータ サイエンスで一般的に使用される基本ツールを提供します。たとえば、Deepnets は、より高度なニューラル ネットワークをテストおよび最適化するための高度なメカニズムを提供します。標準化された比較フレームワークを使用してモデルの品質を他のアルゴリズムと比較できるため、従来のデータ サイエンスとより洗練された機械学習のどちらかを選択できます。 BigML のダッシュボードはブラウザで実行され、その分析は BigML クラウドまたはサーバー ルームで実行できます。クラウド バージョンは早期テストを促進するために価格が低く設定されており、無料レベルもあります。コストは主にデータセットのサイズと、利用できるコンピューティング リソースの量によって決まります。無料利用枠では、最大 2 つのプロセスを並行して実行して、最大 16 MB のデータを分析します。小規模な有料アカウントは月額わずか 30 ドルと非常にリーズナブルですが、リソースのニーズが増加するとコストも増加します。 6. Rスタジオ R は非プログラマーにとって使いやすいものではありませんが、ハードコアなデータ サイエンティストの間で非常に人気があるため、複雑な統計分析のための最も重要なツールの 1 つとなっています。 R Studio は、内部で実行されている R レイヤーとの対話を容易にするための一連のメニューとポイント アンド クリック オプションをユーザーに提供するツールです。 R Studio を使用すると、スプレッドシートを扱うことができる上級管理者は、最も単純なオプションを使用して基本的な分析や複雑な分析も実行できます。 R Studio の一部は一般ユーザーにとってまだわかりにくい部分もありますが、R Studio はオープンになり、時間を投資する意思のあるすべての人にとってアクセスしやすくなりつつあり、最先端のツールを試してみたい人にとっては試してみる価値があります。 |
>>: 5G、人工知能、音声技術…2020年に注目すべき6つのテクノロジートレンド
11月10日、マイクロソフトは人工知能研究企業OpenAIに100億ドル以上を投資したにもかかわらず...
11月18日、マイクロソフトはWindows Terminal AIエクスペリエンスをオープンソース...
[[201603]] Siri は、音声合成技術を使用して人間とコミュニケーションをとるパーソナルア...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
GPT-4やLlamaなどの基本モデル(FM)が次々と誕生し、現在の生成AIのエンジンとなっています...
[[407824]]調査によると、ロボットがデータセンターに導入されつつありますが、データセンター...
将来的には、考えただけでロボットに家事を任せることができるようになるかもしれません。スタンフォード大...
[[440170]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
エンジニアリングの実践では、単に視覚オドメトリ (VO) を使用するのではなく、視覚と IMU を組...
情報産業革命以来、人々の生活は大きく変化しました。それぞれの新しいテクノロジーの出現は、さまざまなレ...
[[257228]] 【新知能紹介】中国内外の科学者71人が共同で、検査結果を検知し、医師と同じくら...