特徴エンジニアリングとは何ですか?なぜ自動化が必要なのでしょうか?

[51CTO.com クイック翻訳] 今日、人工知能（AI）はますます一般的になり、必要になってきています。不正行為の防止、リアルタイムの異常検出から顧客離れの予測まで、企業のお客様は機械学習 (ML) の新しい用途を日々発見しています。 ML の根底にあるメカニズムとは何でしょうか? このテクノロジーはどのようにして予測を行うのでしょうか? AI をこれほどうまく機能させる秘密は何でしょうか?

[[320887]]

データサイエンスコミュニティでは、アルゴリズムの選択とモデルのトレーニングに重点が置かれることが多く、これらは確かに重要ですが、AI/ML ワークフローの最も重要な部分は、アルゴリズムの選択や調整方法ではなく、AI/ML に何を入力するか、つまり特徴エンジニアリングです。

特徴エンジニアリングはデータサイエンスの聖杯であり、AI/ML 結果の品質を決定する最も重要なステップです。使用されるアルゴリズムに関係なく、特徴エンジニアリングはモデルのパフォーマンスを決定し、機械学習が有意義な洞察を生成し、最終的にビジネス上の問題を解決する能力に影響を与えます。

特徴エンジニアリング入門

特徴エンジニアリングとは、ドメイン知識を適用して生データから分析表現を抽出し、機械学習に対応させるプロセスです。これは予測のための機械学習モデルを開発するための最初のステップです。

特徴エンジニアリングでは、ビジネス知識、数学、統計を使用して、データを機械学習モデルで直接使用できる形式に変換する必要があります。まず、さまざまなデータベースに分散している多数のテーブルから開始し、統計変換やリレーショナル操作を使用して、それらを結合、集計し、単一のフラットテーブルに組み合わせます。

たとえば、どの四半期でも解約する可能性が高い顧客を予測するということは、その会社と取引を行わなくなる可能性が最も高い潜在顧客を特定することを意味します。このような予測はどうやって行うのでしょうか? 根本的な原因を調べることで解約を予測します。このプロセスは、顧客の行動を分析し、仮説を作成することに基づいています。たとえば、顧客 A が先月カスタマーサポートに 5 回連絡したとします。これは、顧客 A が不満を抱いており、解約する可能性が高いことを意味します。別のシナリオでは、顧客 A の製品使用率が過去 2 か月間で 30% 低下し、顧客 A が離脱する可能性が高いことを示しています。機能作業のタスクは、過去の動作を調べ、いくつかの仮説パターンを抽出し、これらの仮説をテストすることです。

特徴エンジニアリングの謎を解く

特徴エンジニアリングは、履歴データからビジネス仮説を抽出することを目的としています。顧客離れの予測を伴うビジネス上の問題は分類問題です。

従来のロジスティック回帰、決定木、サポートベクターマシン、ブースティング、ニューラルネットワークなど、さまざまな ML アルゴリズムを使用できます。これらのアルゴリズムはすべて、入力として単一のフラットマトリックスを必要としますが、生のビジネスデータは複雑な関係を持つさまざまなテーブル (トランザクション、時間、地理テーブルなど) に保存されます。

[[320888]]

まず 2 つのテーブルを結合し、結合されたテーブルに対して時間的な集計を実行して、一時的なユーザー行動パターンを抽出します。実際の特徴エンジニアリングは、カテゴリ値を ML アルゴリズムが利用できるバイナリインジケーターに変換するワンホットエンコーディングなどの単純な変換操作よりもはるかに複雑です。特徴エンジニアリングを実装するには、数百または数千の SQL のようなクエリを記述し、大量のデータ操作と大量の統計変換を実行します。

機械学習の文脈では、過去のパターンがわかれば仮説を立てることができます。この仮説に基づいて、特定の期間内にどの顧客が解約する可能性が高いかなど、起こり得る結果を予測できます。機能研究の鍵は、仮説の最適な組み合わせを見つけることです。

間違った仮定を入力として提供すると ML は正確な予測を行うことができないため、特徴エンジニアリングは非常に重要です。提供される仮説の品質は、ML モデルの成功にとって非常に重要です。特徴の品質は、正確性と解釈可能性の両方の観点から重要です。

特徴エンジニアリングを自動化する必要があるのはなぜですか?

機能エンジニアリングは、最も反復的で、時間がかかり、リソースを大量に消費するプロセスであり、学際的な専門知識を必要とします。技術的な知識も必要ですが、さらに重要なのはドメイン知識です。

データサイエンスチームは、ドメインエキスパートと連携し、仮説をテストし、ML モデルを構築および評価し、結果が会社に受け入れられるまでプロセスを繰り返すことで機能を構築します。高品質な機能を生成するには深いドメイン知識が必要であるため、機能エンジニアリングは専門家の「魔法」であると広く考えられています。多くの場合、チームは生のビジネスデータから高品質な機能テーブルを開発するために労力の 80% を費やしますが、自動化は不可能です。

特徴エンジニアリングを自動化すると、従来のデータサイエンスプロセスを変革する可能性があります。これにより、技術的な障壁が大幅に低下し、数百または数千の手動 SQL クエリが排除され、包括的なドメイン知識がなくてもデータサイエンスプロジェクトの速度を向上させることができます。また、数時間で何百万もの特徴仮説を探索する能力に基づいて、データに対する理解を深め、「未知の不確実性」を明らかにします。

自動特徴エンジニアリングのための AutoML 2.0

ML 自動化 (AutoML とも呼ばれます) は最近、大きな注目を集めています。 AutoML は、企業が直面している大きな課題の 1 つである、AI および ML プロジェクトの長期化 (完了までに数か月かかることも珍しくない) と、問題に対処できる専門的な人材の不足を克服します。

[[320889]]

現在の AutoML 製品は、AI と機械学習のプロセスの加速において間違いなく大きな進歩を遂げていますが、最も重要なステップである、生のビジネスデータから機械学習の入力を準備するプロセス、つまり特徴エンジニアリングに対処できていません。

現代の企業が AI と機械学習を活用する方法を真に変革するには、データサイエンス開発のサイクル全体を自動化する必要があります。データサイエンスの自動化における主な問題が、データサイエンティストの不足、ビジネスユーザーによる ML の理解不足、実稼働環境への移行の難しさにあるとすれば、AutoML はこれらの課題も克服する必要があります。

データと特徴エンジニアリングを自動化する AutoML 2.0 が登場し、特徴エンジニアリングの自動化と ML の自動化を単一のパイプラインとワンストップシステムとして簡素化しました。 AutoML 2.0 を使用すると、生データ、データ、機能エンジニアリングから ML モデル開発までのサイクル全体が数か月ではなく数日で完了し、チームは 10 倍のプロジェクトを実現できるようになります。

特徴エンジニアリングは、データ内の隠れたパターンを明らかにし、機械学習に基づく予測分析を容易にするのに役立ちます。アルゴリズムには、関連するビジネス上の仮定と履歴パターンを含む高品質の入力データが必要であり、特徴エンジニアリングによってこのデータが提供されます。ただし、これは AI/ML ワークフローの中で最も人間に依存し、時間のかかる部分です。

AutoML 2.0 は、特徴エンジニアリングの自動化と ML の自動化を簡素化し、企業の AI/ML を加速および簡素化する新しい技術革新です。これにより、BI エンジニアやデータエンジニアなど、より多くの人が AI/ML プロジェクトを実行できるようになり、エンタープライズ AI/ML のスケーラビリティと俊敏性が向上します。

原題: 特徴エンジニアリングとは何か、なぜ自動化が必要なのか?、著者: 藤巻良平

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに

>>: AIは人間社会のさまざまなビジネスモデルをどのように変えるのでしょうか？