インテリジェントデータベースに基づくセルフサービス機械学習

翻訳者 | 張毅

校正 | 梁哲、孫淑娟

1. IDOになるにはどうすればいいですか?

IDO (インサイト駆動型組織) とは、インサイト駆動型 (情報指向型) 組織を指します。 IDO になるには、まずデータと、データを操作および分析するためのツールが必要です。次に、適切な経験を持つデータアナリストまたはデータサイエンティストが必要です。最後に、会社全体で洞察主導の意思決定プロセスを実装するためのテクノロジーまたは方法を見つける必要があります。

機械学習はデータの利点を最大限に引き出すことができる技術です。 ML プロセスでは、まずデータを使用して予測モデルをトレーニングし、トレーニングが成功した後にデータに関連する問題を解決します。これらのうち、人工ニューラルネットワークは最も効果的な技術であり、その設計は人間の脳の働きに関する現在の理解に基づいています。今日私たちが持つ膨大なコンピューティングリソースを考慮すると、大量のデータでトレーニングされた驚くべきモデルを作成できます。

企業はさまざまなセルフサービスソフトウェアとスクリプトを使用してさまざまなタスクを完了し、人為的エラーを回避できます。同様に、データに基づいて意思決定を行うことで、人為的エラーを回避することができます。

2. 企業が AI を導入するのが遅いのはなぜですか?

データの処理を行うために人工知能や機械学習を使用している企業はごくわずかです。米国国勢調査局によると、2020 年現在、米国企業 (主に大企業) の 10% 未満が機械学習を導入しています。

ML 導入の障壁には次のようなものがあります。

人工知能が人間に取って代わるまでには、まだやるべきことがたくさんある。 1 つ目は、多くの企業では専門の人材が不足しており、また、専門の人材を雇う余裕がないことです。データサイエンティストは業界で非常に尊敬されていますが、雇用コストも最も高くなります。
利用可能なデータ、データセキュリティ、および ML アルゴリズムの実装に時間がかかることが不足しています。
企業にとって、データとそのメリットを活用できる環境を構築することは困難です。この環境には、関連するツール、プロセス、ポリシーが必要です。

3. 機械学習を促進するにはAutoMLツールだけでは不十分

自動 ML プラットフォームには明るい未来が待っていますが、現在その対象範囲は非常に限られており、自動 ML が近い将来にデータサイエンティストに取って代わることができるかどうかについては議論があります。

企業内でセルフサービス機械学習をうまく導入したい場合、AutoML ツールは確かに重要ですが、プロセス、方法論、戦略も真剣に受け止めなければなりません。 AutoML プラットフォームは単なるツールであり、ほとんどの ML 専門家はそれだけでは不十分だと考えています。

4. 機械学習のプロセスを分解する

あらゆる ML プロセスはデータから始まります。一般的に、データ準備は ML プロセスの最も重要な部分であり、モデリング部分は AutoML ツールによって簡素化されるデータパイプライン全体の一部にすぎないと考えられています。完全なワークフローでは、データを変換してモデルにフィードするために依然として多くの作業が必要です。データの準備とデータ変換は、仕事の中で最も時間がかかり、面倒な部分になる可能性があります。

さらに、ML モデルのトレーニングに使用されるビジネスデータも定期的に更新されます。したがって、企業は複雑なツールとプロセスを習得できる複雑な ETL パイプラインを構築する必要があり、ML プロセスの継続性とリアルタイム性を確保することも困難な作業です。

5. MLをアプリケーションと統合する

ML モデルを構築したので、それをデプロイする必要があると仮定します。従来のデプロイメント方法では、次の図に示すように、これをアプリケーション層コンポーネントとして扱います。

入力はデータであり、出力は得られる予測です。これらのアプリケーションの API を統合して、ML モデルの出力を使用します。開発者の観点から見ると、これはすべて簡単なことのように思えますが、プロセスを考慮するとそうではありません。大規模な組織では、ビジネスアプリケーションとの統合やメンテナンスが非常に面倒になることがあります。たとえ企業が技術に精通していたとしても、コード変更リクエストは複数のレベルの部門にわたる特定のレビューとテストのプロセスを経る必要があります。これにより柔軟性に悪影響が及び、ワークフロー全体の複雑さが増します。

さまざまなコンセプトやアイデアをテストする柔軟性が十分にあれば、ML ベースの意思決定がはるかに容易になり、人々はセルフサービス機能を備えた製品を好むようになります。

6. セルフサービス機械学習/インテリジェントデータベース?

上で見てきたように、データは ML プロセスの中心です。既存の ML ツールはデータを取得して予測を返しますが、これもデータの形式です。

さて、ここで疑問が生じます。

なぜ ML をスタンドアロンアプリケーションとして用意し、ML モデル、アプリケーション、データベース間の複雑な統合を実装するのでしょうか?
ML をデータベースのコア機能にしてみませんか?
SQL などの標準データベース構文を通じて ML モデルを利用できるようにしてみませんか?

上記の問題とその課題を分析して、ML ソリューションを見つけましょう。

課題 1: 複雑なデータ統合と ETL パイプライン

ML モデルとデータベース間の複雑なデータ統合と ETL パイプラインを維持することは、ML プロセスが直面する最大の課題の 1 つです。

SQL は優れたデータ操作ツールなので、データ層に ML モデルを導入することでこの問題を解決できます。つまり、ML モデルはデータベースを学習し、予測を返します。

課題2: MLモデルとアプリケーションの統合

API を介して ML モデルをビジネスアプリケーションと統合することも、直面しているもう 1 つの課題です。

ビジネスアプリケーションと BI ツールはデータベースと密接に結合されています。したがって、AutoML ツールがデータベースの一部になると、標準の SQL 構文を使用して予測を行うことができます。次に、モデルはデータベース内に存在するため、ML モデルとビジネスアプリケーション間の API 統合は不要になります。

解決策: データベースにAutoMLを埋め込む

AutoML ツールをデータベースに埋め込むと、次のような多くの利点がもたらされます。

データを扱い、SQL を理解している人 (データアナリストまたはデータサイエンティスト) なら誰でも、機械学習の力を活用できます。
ソフトウェア開発者は、ビジネスツールやアプリケーションに ML をより効果的に組み込むことができます。
データとモデル間、またはモデルとビジネスアプリケーション間の複雑な統合は必要ありません。

このようにして、上記の比較的複雑な統合図は次のように変化します。

見た目がシンプルになり、ML プロセスもよりスムーズかつ効率的になります。

7. モデルを仮想データベーステーブルとして使用してセルフサービス ML を実装する方法

解決策を見つけた後の次のステップは、それを実装することです。

これを実現するために、AI テーブルと呼ばれる構造を使用します。仮想テーブルの形で機械学習をデータプラットフォームに導入します。他のデータベーステーブルと同様に作成し、アプリケーション、BI ツール、DB クライアントに公開できます。データをクエリするだけで予測が行えます。

AI Tables はもともと MindsDB によって開発され、オープンソースまたはマネージドクラウドサービスとして利用できます。これらは、Kafka や Redis などの従来の SQL および NoSQL データベースと統合されます。

8. AIテーブルを使用する

AI テーブルの概念により、データベース内で ML プロセスを実行できるようになり、ML プロセスのすべてのステップ (データの準備、モデルのトレーニング、予測など) をデータベースを通じて実行できるようになります。

トレーニング AI テーブル

まず、ユーザーはニーズに応じて AI テーブルを作成する必要があります。これは、ソーステーブルの列に相当する機能を含む機械学習モデルに似ています。その後、AutoML エンジンを使用して、残りのモデリングタスクを自動的に完了します。例は後ほど示します。

予測する

AI テーブルが作成されると、それ以上の展開なしですぐに使用できるようになります。予測を行うには、AI テーブルで標準の SQL クエリを実行するだけです。

予測は 1 つずつ、または一括して行うことができます。 AI テーブルは、多変量時系列、異常の検出など、多くの複雑な機械学習タスクを処理できます。

9. AI テーブルの動作例

小売業者にとって、適切な商品が適切なタイミングで在庫にあることを確認するのは複雑な作業です。需要が増加すると、供給も増加します。このデータと機械学習に基づいて、特定の製品が特定の日にどれだけの在庫を持つべきかを予測し、小売業者の収益を増やすことができます。

まず、次の情報を追跡し、AI テーブルを作成する必要があります。

商品が販売された日付 (date_of_sale)
商品が販売された店舗（ショップ）
販売された特定の製品 (product_code)
販売した商品の数量（金額）

次の図に示すように:

（１）トレーニングAIテーブル

AI テーブルを作成してトレーニングするには、まず MindsDB がデータにアクセスできるようにする必要があります。詳細な手順については、MindsDB のドキュメントを参照してください。

AI テーブルは、トレーニングに履歴データを必要とする ML モデルのようなものです。

簡単な SQL コマンドを使用して AITable をトレーニングしてみましょう。

このクエリを分析してみましょう:

MindsDB で CREATE PREDICTOR ステートメントを使用します。
履歴データに基づいてソースデータベースを定義します。
AI テーブルは履歴データテーブル (historical_table) に基づいてトレーニングされ、選択された列 (column_1 と column_2) が予測に使用される特徴となります。
AutoML は残りのモデリングタスクを自動的に完了します。
MindsDB は各列のデータ型を識別し、正規化してエンコードし、ML モデルを構築してトレーニングします。

同時に、各予測の全体的な精度と信頼性を確認し、結果にとってどの列 (機能) がより重要であるかを推定できます。

データベースでは、多くの場合、高カーディナリティの多変量時系列データを含むタスクを処理する必要があります。従来の方法を使用すると、このような ML モデルを作成するにはかなりの労力が必要になります。データをグループ化し、指定された時間、日付、またはタイムスタンプのデータフィールドに基づいて並べ替える必要があります。

たとえば、金物店で売れるハンマーの数を予測してみましょう。次に、データは店舗と製品ごとにグループ化され、店舗と製品のさまざまな組み合わせごとに予測が行われます。ここで、各グループの時系列モデルを作成するという問題が発生します。

これは困難な作業のように聞こえるかもしれませんが、MindsDB では、GROUP BY ステートメントを使用して単一の ML モデルを作成し、多変量時系列データを一度にトレーニングする方法が提供されています。 1 つの SQL コマンドを使用してこれをどのように実行するかを見てみましょう。

作成された stock_forecaster 予測子は、特定の店舗が将来どれだけの売上を上げるかを予測できます。データは販売日順に並べられ、店舗ごとにグループ化されます。そうすれば、各店舗の売上額を予測することができます。

（２）バッチ予測

以下のクエリを使用して売上データテーブルを予測子と結合すると、JOIN 操作によってレコードに予測の数が追加され、一度に多くのレコードのバッチ予測を取得できるようになります。

BI ツールで予測を分析および視覚化する方法の詳細については、この記事をご覧ください。

（３）実用化

従来のアプローチでは、ML モデルは、データベースへの ETL パイプラインとビジネスアプリケーションへの API 統合を維持する必要があるスタンドアロンアプリケーションとして扱われます。 AutoML ツールを使用するとモデリング部分が簡単かつわかりやすくなりますが、完全な ML ワークフローを管理するには、経験豊富な専門家が必要です。実際、データベースはすでにデータ準備のための優先ツールであるため、データを ML に導入するよりも、データベースに ML を導入する方が理にかなっています。 AutoML ツールはデータベース内に存在するため、MindsDB の AI テーブル構造はデータ実践者にセルフサービスの AutoML を提供し、機械学習ワークフローを簡素化できます。

オリジナルリンク: https://dzone.com/articles/self-service-machine-learning-with-intelligent-dat

翻訳者紹介

Zhang Yi、51CTO コミュニティエディター、中級エンジニア。主な研究は、人工知能アルゴリズムの実装とそのシナリオアプリケーションです。機械学習アルゴリズムと自動制御アルゴリズムについてある程度理解し、習得しています。国内外の人工知能技術の発展動向、特にインテリジェントコネクテッドカー、スマートホームなどの分野における人工知能技術の具体的な実装と応用に引き続き注目していきます。

<<: 他社がまだ「大型モデル」衛星を打ち上げている一方で、マイクロソフトはすでに開発者にその使い方を教えている。

>>: 2022 年の 9 つの新しいテクノロジートレンドと雇用機会