インテリジェントデータベースに基づくセルフサービス機械学習

インテリジェントデータベースに基づくセルフサービス機械学習

翻訳者 | 張毅

校正 | 梁哲、孫淑娟

1. IDOになるにはどうすればいいですか?

IDO (インサイト駆動型組織) とは、インサイト駆動型 (情報指向型) 組織を指します。 IDO になるには、まずデータと、データを操作および分析するためのツールが必要です。次に、適切な経験を持つデータ アナリストまたはデータ サイエンティストが必要です。最後に、会社全体で洞察主導の意思決定プロセスを実装するためのテクノロジーまたは方法を見つける必要があります。

機械学習はデータの利点を最大限に引き出すことができる技術です。 ML プロセスでは、まずデータを使用して予測モデルをトレーニングし、トレーニングが成功した後にデータに関連する問題を解決します。これらのうち、人工ニューラル ネットワークは最も効果的な技術であり、その設計は人間の脳の働きに関する現在の理解に基づいています。今日私たちが持つ膨大なコンピューティング リソースを考慮すると、大量のデータでトレーニングされた驚くべきモデルを作成できます。

企業はさまざまなセルフサービス ソフトウェアとスクリプトを使用してさまざまなタスクを完了し、人為的エラーを回避できます。同様に、データに基づいて意思決定を行うことで、人為的エラーを回避することができます。

2. 企業が AI を導入するのが遅いのはなぜですか?

データの処理を行うために人工知能や機械学習を使用している企業はごくわずかです。米国国勢調査局によると、2020 年現在、米国企業 (主に大企業) の 10% 未満が機械学習を導入しています。

ML 導入の障壁には次のようなものがあります。

  • 人工知能が人間に取って代わるまでには、まだやるべきことがたくさんある。 1 つ目は、多くの企業では専門の人材が不足しており、また、専門の人材を雇う余裕がないことです。データ サイエンティストは業界で非常に尊敬されていますが、雇用コストも最も高くなります。
  • 利用可能なデータ、データ セキュリティ、および ML アルゴリズムの実装に時間がかかることが不足しています。
  • 企業にとって、データとそのメリットを活用できる環境を構築することは困難です。この環境には、関連するツール、プロセス、ポリシーが必要です。

3. 機械学習を促進するにはAutoMLツールだけでは不十分

自動 ML プラットフォームには明るい未来が待っていますが、現在その対象範囲は非常に限られており、自動 ML が近い将来にデータ サイエンティストに取って代わることができるかどうかについては議論があります。

企業内でセルフサービス機械学習をうまく導入したい場合、AutoML ツールは確かに重要ですが、プロセス、方法論、戦略も真剣に受け止めなければなりません。 AutoML プラットフォームは単なるツールであり、ほとんどの ML 専門家はそれだけでは不十分だと考えています。

4. 機械学習のプロセスを分解する

あらゆる ML プロセスはデータから始まります。一般的に、データ準備は ML プロセスの最も重要な部分であり、モデリング部分は AutoML ツールによって簡素化されるデータ パイプライン全体の一部にすぎないと考えられています。完全なワークフローでは、データを変換してモデルにフィードするために依然として多くの作業が必要です。データの準備とデータ変換は、仕事の中で最も時間がかかり、面倒な部分になる可能性があります。

さらに、ML モデルのトレーニングに使用されるビジネス データも定期的に更新されます。したがって、企業は複雑なツールとプロセスを習得できる複雑な ETL パイプラインを構築する必要があり、ML プロセスの継続性とリアルタイム性を確保することも困難な作業です。

5. MLをアプリケーションと統合する

ML モデルを構築したので、それをデプロイする必要があると仮定します。従来のデプロイメント方法では、次の図に示すように、これをアプリケーション層コンポーネントとして扱います。

入力はデータであり、出力は得られる予測です。これらのアプリケーションの API を統合して、ML モデルの出力を使用します。開発者の観点から見ると、これはすべて簡単なことのように思えますが、プロセスを考慮するとそうではありません。大規模な組織では、ビジネス アプリケーションとの統合やメンテナンスが非常に面倒になることがあります。たとえ企業が技術に精通していたとしても、コード変更リクエストは複数のレベルの部門にわたる特定のレビューとテストのプロセスを経る必要があります。これにより柔軟性に悪影響が及び、ワークフロー全体の複雑さが増します。

さまざまなコンセプトやアイデアをテストする柔軟性が十分にあれば、ML ベースの意思決定がはるかに容易になり、人々はセルフサービス機能を備えた製品を好むようになります。

6. セルフサービス機械学習/インテリジェントデータベース?

上で見てきたように、データは ML プロセスの中心です。既存の ML ツールはデータを取得して予測を返しますが、これもデータの形式です。

さて、ここで疑問が生じます。

  • なぜ ML をスタンドアロン アプリケーションとして用意し、ML モデル、アプリケーション、データベース間の複雑な統合を実装するのでしょうか?
  • ML をデータベースのコア機能にしてみませんか?
  • SQL などの標準データベース構文を通じて ML モデルを利用できるようにしてみませんか?

上記の問題とその課題を分析して、ML ソリューションを見つけましょう。

課題 1: 複雑なデータ統合と ETL パイプライン

ML モデルとデータベース間の複雑なデータ統合と ETL パイプラインを維持することは、ML プロセスが直面する最大の課題の 1 つです。

SQL は優れたデータ操作ツールなので、データ層に ML モデルを導入することでこの問題を解決できます。つまり、ML モデルはデータベースを学習し、予測を返します。

課題2: MLモデルとアプリケーションの統合

API を介して ML モデルをビジネス アプリケーションと統合することも、直面しているもう 1 つの課題です。

ビジネス アプリケーションと BI ツールはデータベースと密接に結合されています。したがって、AutoML ツールがデータベースの一部になると、標準の SQL 構文を使用して予測を行うことができます。次に、モデルはデータベース内に存在するため、ML モデルとビジネス アプリケーション間の API 統合は不要になります。

解決策: データベースにAutoMLを埋め込む

AutoML ツールをデータベースに埋め込むと、次のような多くの利点がもたらされます。

  • データを扱い、SQL を理解している人 (データ アナリストまたはデータ サイエンティスト) なら誰でも、機械学習の力を活用できます。
  • ソフトウェア開発者は、ビジネス ツールやアプリケーションに ML をより効果的に組み込むことができます。
  • データとモデル間、またはモデルとビジネス アプリケーション間の複雑な統合は必要ありません。

このようにして、上記の比較的複雑な統合図は次のように変化します。

見た目がシンプルになり、ML プロセスもよりスムーズかつ効率的になります。

7. モデルを仮想データベーステーブルとして使用してセルフサービス ML を実装する方法

解決策を見つけた後の次のステップは、それを実装することです。

これを実現するために、AI テーブルと呼ばれる構造を使用します。仮想テーブルの形で機械学習をデータ プラットフォームに導入します。他のデータベース テーブルと同様に作成し、アプリケーション、BI ツール、DB クライアントに公開できます。データをクエリするだけで予測が行えます。

AI Tables はもともと MindsDB によって開発され、オープンソースまたはマネージド クラウド サービスとして利用できます。これらは、Kafka や Redis などの従来の SQL および NoSQL データベースと統合されます。

8. AIテーブルを使用する

AI テーブルの概念により、データベース内で ML プロセスを実行できるようになり、ML プロセスのすべてのステップ (データの準備、モデルのトレーニング、予測など) をデータベースを通じて実行できるようになります。

  • トレーニング AI テーブル

まず、ユーザーはニーズに応じて AI テーブルを作成する必要があります。これは、ソース テーブルの列に相当する機能を含む機械学習モデルに似ています。その後、AutoML エンジンを使用して、残りのモデリング タスクを自動的に完了します。例は後ほど示します。

  • 予測する

AI テーブルが作成されると、それ以上の展開なしですぐに使用できるようになります。予測を行うには、AI テーブルで標準の SQL クエリを実行するだけです。

予測は 1 つずつ、または一括して行うことができます。 AI テーブルは、多変量時系列、異常の検出など、多くの複雑な機械学習タスクを処理できます。

9. AI テーブルの動作例

小売業者にとって、適切な商品が適切なタイミングで在庫にあることを確認するのは複雑な作業です。需要が増加すると、供給も増加します。このデータと機械学習に基づいて、特定の製品が特定の日にどれだけの在庫を持つべきかを予測し、小売業者の収益を増やすことができます。

まず、次の情報を追跡し、AI テーブルを作成する必要があります。

  • 商品が販売された日付 (date_of_sale)
  • 商品が販売された店舗(ショップ)
  • 販売された特定の製品 (product_code)
  • 販売した商品の数量(金額)

次の図に示すように:

(1)トレーニングAIテーブル

AI テーブルを作成してトレーニングするには、まず MindsDB がデータにアクセスできるようにする必要があります。詳細な手順については、MindsDB のドキュメントを参照してください。

AI テーブルは、トレーニングに履歴データを必要とする ML モデルのようなものです。

簡単な SQL コマンドを使用して AITable をトレーニングしてみましょう。

このクエリを分析してみましょう:

  • MindsDB で CREATE PREDICTOR ステートメントを使用します。
  • 履歴データに基づいてソース データベースを定義します。
  • AI テーブルは履歴データ テーブル (historical_table) に基づいてトレーニングされ、選択された列 (column_1 と column_2) が予測に使用される特徴となります。
  • AutoML は残りのモデリング タスクを自動的に完了します。
  • MindsDB は各列のデータ型を識別し、正規化してエンコードし、ML モデルを構築してトレーニングします。

同時に、各予測の全体的な精度と信頼性を確認し、結果にとってどの列 (機能) がより重要であるかを推定できます。

データベースでは、多くの場合、高カーディナリティの多変量時系列データを含むタスクを処理する必要があります。従来の方法を使用すると、このような ML モデルを作成するにはかなりの労力が必要になります。データをグループ化し、指定された時間、日付、またはタイムスタンプのデータ フィールドに基づいて並べ替える必要があります。

たとえば、金物店で売れるハンマーの数を予測してみましょう。次に、データは店舗と製品ごとにグループ化され、店舗と製品のさまざまな組み合わせごとに予測が行われます。ここで、各グループの時系列モデルを作成するという問題が発生します。

これは困難な作業のように聞こえるかもしれませんが、MindsDB では、GROUP BY ステートメントを使用して単一の ML モデルを作成し、多変量時系列データを一度にトレーニングする方法が提供されています。 1 つの SQL コマンドを使用してこれをどのように実行するかを見てみましょう。

作成された stock_forecaster 予測子は、特定の店舗が将来どれだけの売上を上げるかを予測できます。データは販売日順に並べられ、店舗ごとにグループ化されます。そうすれば、各店舗の売上額を予測することができます。

(2)バッチ予測

以下のクエリを使用して売上データ テーブルを予測子と結合すると、JOIN 操作によってレコードに予測の数が追加され、一度に多くのレコードのバッチ予測を取得できるようになります。

BI ツールで予測を分析および視覚化する方法の詳細については、この記事をご覧ください。

(3)実用化

従来のアプローチでは、ML モデルは、データベースへの ETL パイプラインとビジネス アプリケーションへの API 統合を維持する必要があるスタンドアロン アプリケーションとして扱われます。 AutoML ツールを使用するとモデリング部分が簡単かつわかりやすくなりますが、完全な ML ワークフローを管理するには、経験豊富な専門家が必要です。実際、データベースはすでにデータ準備のための優先ツールであるため、データを ML に導入するよりも、データベースに ML を導入する方が理にかなっています。 AutoML ツールはデータベース内に存在するため、MindsDB の AI テーブル構造はデータ実践者にセルフサービスの AutoML を提供し、機械学習ワークフローを簡素化できます。

オリジナルリンク: https://dzone.com/articles/self-service-machine-learning-with-intelligent-dat

翻訳者紹介

Zhang Yi、51CTO コミュニティ エディター、中級エンジニア。主な研究は、人工知能アルゴリズムの実装とそのシナリオアプリケーションです。機械学習アルゴリズムと自動制御アルゴリズムについてある程度理解し、習得しています。国内外の人工知能技術の発展動向、特にインテリジェントコネクテッドカー、スマートホームなどの分野における人工知能技術の具体的な実装と応用に引き続き注目していきます。

<<:  他社がまだ「大型モデル」衛星を打ち上げている一方で、マイクロソフトはすでに開発者にその使い方を教えている。

>>:  2022 年の 9 つの新しいテクノロジー トレンドと雇用機会

ブログ    

推薦する

人工知能への恐怖現象を探る

現在、人工知能は人類に大きな発展の機会をもたらす一方で、さまざまなリスクや課題も伴っています。科学技...

清華大学のFaceWall Intelligenceは、大規模なモデルを16,000以上の実際のAPIに接続し、オープンソースのToolLLMはChatGPTに近い

人工知能の分野では、大規模なモデルを使用してインテリジェントエージェントを制御することは避けられない...

英雄の呼びかけ | 2018 WOT グローバル人工知能技術サミット: 英雄を呼ぶ宣言文

[51CTO.com オリジナル記事] 朗報です!テクノロジー愛好家たちの熱い期待の中、1年間開催さ...

...

ヘルスケアにおける IoT と AI

IoT 対応デバイスの登場により、医療における遠隔モニタリングが可能になりました。ほぼすべての大手...

自然言語処理(NLP)の歴史と方向性

自然言語処理の歴史は紆余曲折に満ちた物語です。それは無駄な研究から始まり、何年にもわたる実りある研究...

...

2019 年に注目すべき 11 の JavaScript 機械学習ライブラリ

ほとんどの機械学習は Python などの言語で行われますが、フロントエンドとバックエンドの両方にお...

...

2021 年に最も人気のある協働ロボット アプリケーションは何でしょうか?

ロボットが人間の仕事を奪うかどうかという進行中の議論は、世界中のメディアの注目を集めている。勤勉な従...

ガートナー: データサイエンスと機械学習の未来に影響を与える 5 つのトレンド

Gartner, Inc. は、人工知能のデータ需要を満たすために急速に進化している分野であるデータ...

インテリジェントコンピューティングセンター構築の「サンゴ礁」と「灯台」

インテリジェント コンピューティング センターを「誰でもアクセス可能かつ無料」にする時が来ています。...

世界的EDA大手のシノプシスは米国から情報漏洩の疑いで捜査を受けており、ファーウェイとSMICもその渦中に巻き込まれている。

再度調査中! 世界最大の半導体設計ソフトウェア(EDA)サプライヤーであるシノプシスは、中国に重要な...

...

ベアリングポイント調査 - 2022 年の 5 つのテクノロジー トレンド

[[429514]]ベアリングポイントは、IT リーダーが今後 1 年間にどのテクノロジー分野に重点...