データ分析は、多くの組織がクラウド コンピューティング プラットフォーム上で実行する主要なコンピューティング タスクです。これは、IT 技術者がプログラミングに長けていること、科学者の研究室機器をコンピューターに直接接続してデータを記録する必要があること、またはデータ セットが非常に大きいため移行に非常に時間がかかることなどが理由であると考えられます。
理由が何であれ、科学者やデータアナリストはリモート コンピューティングをますます採用するようになっています。機械学習、人工知能、データ分析のためのクラウドベースのツールの数が急増しています。これらのアプリケーションの一部はクラウドベースのドキュメント編集や電子メールであり、技術者はさまざまなデバイスから中央リポジトリにログインして、移動中やビーチなど遠隔地から作業することができます。クラウド コンピューティングはファイルのバックアップと同期を処理し、ワークフローを合理化します。 実際、データ分析はクラウド コンピューティングに適しています。データ セットが大きい場合、クラウド コンピューティング ユーザーは、レンタルしたハードウェア設備で大規模なジョブを実行し、作業をより速く、より効率的に完了できます。ユーザーはコンピュータを起動して処理に多くの時間を費やす必要はありません。クラウド コンピューティングでは、大容量のメモリを搭載した数十のクラウド コンピューティング インスタンスを起動し、数分以内に処理結果を観察するだけで済むため、時間とコストを節約できます。 クラウド コンピューティングを導入する組織には一定のリスクもあり、最大のリスクはユーザーのプライバシーに関する懸念です。一部のデータ分析にはユーザーの個人情報が含まれます。人々は研究室でデータを扱う際のセキュリティ問題に慣れすぎていて、クラウドで何が起こっているのかを知ることが困難です。 クラウド コンピューティング プロバイダーが採用しているプライバシー保護の慣行に人々が安心できるようになるまでには、しばらく時間がかかるでしょう。クラウド コンピューティング プロバイダーがセキュリティ コンサルタントをさらに雇用する可能性が高いことが認識されています。パーソナルコンピュータがグローバルインターネットに接続されている場合、それはすでにクラウドコンピューティングの一部であると言えるでしょう。 幸いなことに、いくつかの回避策があります。最も簡単な方法は、個人情報をランダム ID に置き換えるなどの技術を使用してデータを匿名化することです。この方法は完璧ではありませんが、ハッカーがクラウド コンピューティングの防御を突破した後に発生する可能性のあるトラブルを大幅に軽減できます。 他にもいくつか利点があります。一部のプロバイダーはデータセットを一般に公開またはオープンソース化することがあり、これによりさらに多くの組み合わせが生成される場合があります。一部のクラウド コンピューティング プロバイダーは、ユーザーを引き付けるために独自のデータ セットを管理し、ストレージ コストを削減しています。ユーザーが希望する場合は、製品の売上と天気や太陽黒点などの公開データセット内の他の情報を相関させることができます。誰にも分からない。ここには奇妙な相関関係がたくさんある。 ここでは、データ セット内の相関関係とシグナルを理解するのに役立つ 7 つの異なるクラウドベースの機械学習サービスを紹介します。 1. Amazon SageMaker Amazon は、機械学習ツールをより使いやすくするために SageMaker を開発しました。 Amazon SageMaker は、さまざまな AWS ストレージオプション (S3、Dynamo、Redshift など) を組み合わせ、一般的な機械学習ライブラリ (TensorFlow、MXNet、Chainer など) の Docker コンテナにデータを転送します。最終モデルが独自の API としてデプロイされるまで、すべての作業は Jupyter Notebook を使用して追跡できます。 SageMaker はデータを Amazon のパブリッククラウド内のサーバーに移動するため、プロセスではなくアルゴリズムの検討に集中できます。アルゴリズムをローカルで実行したい場合は、いつでも Docker イメージをダウンロードして簡単に実行できます。 2. Microsoft Azure 機械学習 Microsoft は機械学習の将来を見据え、データ内のシグナルを見つけるための洗練されたグラフィカル ツールである Machine Learning Studio で機械学習に全力を注いでいます。 AI用のスプレッドシートのようなものです。数字を理解するためのフローチャートを作成するためのドラッグ アンド ドロップ インターフェイスがあります。ドキュメントには「コーディングは不要」と記載されていますが、これは技術的には正しいのですが、コードの作成に煩わされることなく効果的に使用するには、ユーザーはプログラマーのように考える必要があります。しかし、構文エラー、データ型、その他のプログラミングの楽しさが恋しい場合は、Python、R、またはその他のオプションで記述されたモジュールをインポートできます。 最も興味深い選択肢は、Microsoft が AI から学んだことを活用して予測モデルを Azure パブリック クラウドで実行される Web サービスに変換するためのインフラストラクチャを追加したことです。そのため、ユーザーはキーボードとマウスをクリックするだけで、トレーニング セットを構築し、モデルを作成し、Azure サービスから JSON パケットで回答を提供できるようになります。 3. ビッグML BigML は、BigML クラウド プラットフォームで使用したり、ローカルにインストールしたりできるデータ分析用のハイブリッド ダッシュボードです。メイン インターフェースは、数十の機械学習分類器、クラスタリング器、回帰器、異常検出器による分析を待機しているすべてのファイルを一覧表示するダッシュボードです。クリックすると結果が表示されます。 最近、同社は、スタックが有用な回答を提供する能力を強化する新しいアルゴリズムに重点を置いています。新しい Fusion コードは、複数のアルゴリズムの結果を統合して精度を向上させることができます。 BigML 独自のサーバー上の豊富な無料枠を活用することにより。ユーザーは、AWS、Azure、または Google Cloud Platform 上にプライベート デプロイメントを構築することもできます。これがまだ比較的公開されている場合、ユーザーのプライベート サーバーに展開されます。 4. データブリックス Databricks ツールセットは、Apache Spark の開発者によって構築されました。彼らは、オープンソースの分析プラットフォームを採用し、いくつかの重要な速度強化を追加し、巧妙な圧縮とインデックス作成によってスループットを向上させました。 Delta と呼ばれるハイブリッド データ ストアは、大量のデータを保存して迅速に分析できる場所です。新しいデータが到着すると、既存のメモリに圧縮され、迅速に再分析できます。 Apache Spark の標準的な分析ルーチンはすべてこのデータで実行できますが、コードを分析するための統合ノートブックなど、Spark インフラストラクチャに待望の改善がいくつかあります。 Databricks は AWS および Azure と統合されており、消費量とパフォーマンスに基づいて価格が設定されます。各コンピューティング エンジンは Databrick 単位で測定されます。企業はより高速なモデルに対してより多くの費用を支払う必要があります。 5. データロボット ここで紹介する方法の多くにより、ユーザーはキーボードをクリックするだけで機械学習モデルを構築できます。 DataRobot は、キーボードを 1 回クリックするだけで、数百のモデルを同時に構築できると主張しています。モデルが完成すると、ユーザーはそれらを調べて、より優れたモデルを見つけ、予測を続けることができます。その秘密は、超並列処理エンジンを使用すること、つまり、複数のマシンを使用して分析を実行することです。 DataRobot は、新しいアルゴリズムを実装し、現在のアルゴリズムを拡張することで拡大しています。同社は最近、Nutonian を買収しました。同社の Eureqa エンジンは、自動化された機械学習プラットフォームの時系列および分類モデルの作成機能を強化するはずです。このシステムは、より上級のユーザー向けに Python API も提供します。 DataRobot は、DataRobot Cloud を通じて、または組み込みエンジニアに付属するエンタープライズ ソフトウェア バージョンとして利用できます。 6. Google Cloud 機械学習エンジン Google は、データ内のシグナルを見つけるための標準的なオープンソース ライブラリの 1 つである TensorFlow に多額の投資を行っており、現在、ユーザーは Google Cloud Platform でそれを試すことができます。 Google Cloud Machine Learning Engine の一部のツールはオープンソースであり、誰でも無料でダウンロードできます。また、一部は Google Cloud Platform の商用オプションの一部です。これにより、コードの大部分がオープンソースであり、Mac、Windows、Linux マシンのいずれでも実行できるため、ユーザーは自由に探索でき、ロックインを回避できます。 さまざまなツールもいくつかあります。最も簡単に導入できるツールは Colaboratory かもしれません。これは、Jupyter ノートブックを Google の TensorFlow バックエンドに接続し、ユーザーがコードを記述して実行を確認できるようにします。 Google は、実験を実施したい科学者向けに TensorFlow Research Cloud も提供しています。適切な場合、ユーザーは GPU または TPU を使用して、Google の高速ハードウェア上で機械学習モデルを実行できます。 7. IBM ワトソンスタジオ Watsonは現在、IBMのリソースのほとんどを人工知能に投入している。 IBM Watson Studio は、クラウドまたはオンプレミスでデータを探索し、モデルをトレーニングするためのツールです。データが入ると、その結果が会社のダッシュボードに美しいグラフで表示されます。 最大の違いは、Watson Studio のデスクトップ バージョンかもしれません。ユーザーはクラウドベースのバージョンを使用してデータを探索し、弾力性のあるリソースと集中型リポジトリのすべての利点を享受できます。あるいは、ユーザーはファイアウォールのプライバシーとデスクトップの利便性を組み合わせて同じことを行うことができます。 各クラウドプラットフォームの機械学習モデル 多くの人は AI 研究のために 1 つのダッシュボードを選択したいと考えますが、選択肢を増やしても問題はありません。すべての前処理とデータクリーニングが完了すると、ユーザーは同じ CSV 形式のデータをこれらすべてのサービスに入力し、結果を比較して最適な選択肢を見つけることができます。これらのサービスの中には、すでにアルゴリズム間の自動比較機能を提供しているものもあります。複数使用しないのはなぜですか? ユーザーは、進化を続ける数多くのオープン スタンダードも活用できます。たとえば、Jupyter ノートブックは通常、大きな変更を加えなくても実行されます。ユーザーは 1 つのプラットフォームで開発を行い、その後、ほとんどのコードをデータとともに移動して、別のプラットフォームで新しいアルゴリズムや異なるアルゴリズムをテストできます。 標準化にはまだ程遠い状況で、多くのアルゴリズムには奇妙で説明のつかない違いがあります。したがって、ユーザーは 1 つのアルゴリズムや 1 つのトレーニング方法だけを考慮するのではなく、できるだけ多くの異なるモデリング ツールを使用するようにする必要があります。 |
<<: 自動運転車は未来の社会で老後の暮らしをどう変えるのか?
>>: ファーウェイの「社会的採用停止」の背景:特殊分野を除き、レベル19以上の専門家のみを採用
俊敏性、効率性、コスト管理性に優れたデジタル変革手法として、中国市場に参入後、高い注目と幅広い受け入...
人工知能 (AI) と機械学習 (ML) の分野では、基礎はデータにあります。データの品質、精度、深...
何をしたいのかを伝えるだけで、AI が自動的にコードを作成します。今、私たちはこの目標に一歩近づきま...
人工知能は、生産性の向上、売上の増加、ユーザーエクスペリエンスの向上など、さまざまな状況で使用されて...
薬を買うとき、自動販売機のように、セルフサービス機で直接注文して、必要なときにすぐに受け取ることはで...
オープンソースの奇跡が再び起こりました。Mistral AI が初のオープンソース MoE 大規模モ...
2022年2月10日にarXivにアップロードされた論文「移転可能で適応可能な運転行動予測」は、バー...
[[258526]]過去7年間、中国のプライベートエクイティ投資市場における人工知能分野への投資額は...
[[378419]]画像出典: Analytics India Magazine 1956年8月、...
大規模な言語モデルのサポートにより、開発者は多くの新しい機能を実装し、より幅広いアプリケーション シ...
最近、ガートナーはデータ サイエンスおよび機械学習 (DSML) プラットフォームに関するマジック ...
過去数十年にわたる量子物理学技術の探求において、最も注目を集めているのは量子コンピュータです。 [[...