特徴エンジニアリングとは何ですか?なぜ自動化が必要なのでしょうか?

特徴エンジニアリングとは何ですか?なぜ自動化が必要なのでしょうか?

[51CTO.com クイック翻訳] 今日、人工知能(AI)はますます一般的になり、必要になってきています。不正行為の防止、リアルタイムの異常検出から顧客離れの予測まで、企業のお客様は機械学習 (ML) の新しい用途を日々発見しています。 ML の根底にあるメカニズムとは何でしょうか? このテクノロジーはどのようにして予測を行うのでしょうか? AI をこれほどうまく機能させる秘密は何でしょうか?

[[320887]]

データ サイエンス コミュニティでは、アルゴリズムの選択とモデルのトレーニングに重点が置かれることが多く、これらは確かに重要ですが、AI/ML ワークフローの最も重要な部分は、アルゴリズムの選択や調整方法ではなく、AI/ML に何を入力するか、つまり特徴エンジニアリングです。

特徴エンジニアリングはデータ サイエンスの聖杯であり、AI/ML 結果の品質を決定する最も重要なステップです。使用されるアルゴリズムに関係なく、特徴エンジニアリングはモデルのパフォーマンスを決定し、機械学習が有意義な洞察を生成し、最終的にビジネス上の問題を解決する能力に影響を与えます。

特徴エンジニアリング入門

特徴エンジニアリングとは、ドメイン知識を適用して生データから分析表現を抽出し、機械学習に対応させるプロセスです。これは予測のための機械学習モデルを開発するための最初のステップです。

特徴エンジニアリングでは、ビジネス知識、数学、統計を使用して、データを機械学習モデルで直接使用できる形式に変換する必要があります。まず、さまざまなデータベースに分散している多数のテーブルから開始し、統計変換やリレーショナル操作を使用して、それらを結合、集計し、単一のフラット テーブルに組み合わせます。

たとえば、どの四半期でも解約する可能性が高い顧客を予測するということは、その会社と取引を行わなくなる可能性が最も高い潜在顧客を特定することを意味します。このような予測はどうやって行うのでしょうか? 根本的な原因を調べることで解約を予測します。このプロセスは、顧客の行動を分析し、仮説を作成することに基づいています。たとえば、顧客 A が先月カスタマー サポートに 5 回連絡したとします。これは、顧客 A が不満を抱いており、解約する可能性が高いことを意味します。別のシナリオでは、顧客 A の製品使用率が過去 2 か月間で 30% 低下し、顧客 A が離脱する可能性が高いことを示しています。機能作業のタスクは、過去の動作を調べ、いくつかの仮説パターンを抽出し、これらの仮説をテストすることです。

特徴エンジニアリングの謎を解く

特徴エンジニアリングは、履歴データからビジネス仮説を抽出することを目的としています。顧客離れの予測を伴うビジネス上の問題は分類問題です。

従来のロジスティック回帰、決定木、サポートベクターマシン、ブースティング、ニューラルネットワークなど、さまざまな ML アルゴリズムを使用できます。これらのアルゴリズムはすべて、入力として単一のフラット マトリックスを必要としますが、生のビジネス データは複雑な関係を持つさまざまなテーブル (トランザクション、時間、地理テーブルなど) に保存されます。

[[320888]]

まず 2 つのテーブルを結合し、結合されたテーブルに対して時間的な集計を実行して、一時的なユーザー行動パターンを抽出します。実際の特徴エンジニアリングは、カテゴリ値を ML アルゴリズムが利用できるバイナリ インジケーターに変換するワンホット エンコーディングなどの単純な変換操作よりもはるかに複雑です。特徴エンジニアリングを実装するには、数百または数千の SQL のようなクエリを記述し、大量のデータ操作と大量の統計変換を実行します。

機械学習の文脈では、過去のパターンがわかれば仮説を立てることができます。この仮説に基づいて、特定の期間内にどの顧客が解約する可能性が高いかなど、起こり得る結果を予測できます。機能研究の鍵は、仮説の最適な組み合わせを見つけることです。

間違った仮定を入力として提供すると ML は正確な予測を行うことができないため、特徴エンジニアリングは非常に重要です。提供される仮説の品質は、ML モデルの成功にとって非常に重要です。特徴の品質は、正確性と解釈可能性の両方の観点から重要です。

特徴エンジニアリングを自動化する必要があるのはなぜですか?

機能エンジニアリングは、最も反復的で、時間がかかり、リソースを大量に消費するプロセスであり、学際的な専門知識を必要とします。技術的な知識も必要ですが、さらに重要なのはドメイン知識です。

データ サイエンス チームは、ドメイン エキスパートと連携し、仮説をテストし、ML モデルを構築および評価し、結果が会社に受け入れられるまでプロセスを繰り返すことで機能を構築します。高品質な機能を生成するには深いドメイン知識が必要であるため、機能エンジニアリングは専門家の「魔法」であると広く考えられています。多くの場合、チームは生のビジネス データから高品質な機能テーブルを開発するために労力の 80% を費やしますが、自動化は不可能です。

特徴エンジニアリングを自動化すると、従来のデータ サイエンス プロセスを変革する可能性があります。これにより、技術的な障壁が大幅に低下し、数百または数千の手動 SQL クエリが排除され、包括的なドメイン知識がなくてもデータ サイエンス プロジェクトの速度を向上させることができます。また、数時間で何百万もの特徴仮説を探索する能力に基づいて、データに対する理解を深め、「未知の不確実性」を明らかにします。

自動特徴エンジニアリングのための AutoML 2.0

ML 自動化 (AutoML とも呼ばれます) は最近、大きな注目を集めています。 AutoML は、企業が直面している大きな課題の 1 つである、AI および ML プロジェクトの長期化 (完了までに数か月かかることも珍しくない) と、問題に対処できる専門的な人材の不足を克服します。

[[320889]]

現在の AutoML 製品は、AI と機械学習のプロセスの加速において間違いなく大きな進歩を遂げていますが、最も重要なステップである、生のビジネス データから機械学習の入力を準備するプロセス、つまり特徴エンジニアリングに対処できていません。

現代の企業が AI と機械学習を活用する方法を真に変革するには、データ サイエンス開発のサイクル全体を自動化する必要があります。データ サイエンスの自動化における主な問題が、データ サイエンティストの不足、ビジネス ユーザーによる ML の理解不足、実稼働環境への移行の難しさにあるとすれば、AutoML はこれらの課題も克服する必要があります。

データと特徴エンジニアリングを自動化する AutoML 2.0 が登場し、特徴エンジニアリングの自動化と ML の自動化を単一のパイプラインとワンストップ システムとして簡素化しました。 AutoML 2.0 を使用すると、生データ、データ、機能エンジニアリングから ML モデル開発までのサイクル全体が数か月ではなく数日で完了し、チームは 10 倍のプロジェクトを実現できるようになります。

特徴エンジニアリングは、データ内の隠れたパターンを明らかにし、機械学習に基づく予測分析を容易にするのに役立ちます。アルゴリズムには、関連するビジネス上の仮定と履歴パターンを含む高品質の入力データが必要であり、特徴エンジニアリングによってこのデータが提供されます。ただし、これは AI/ML ワークフローの中で最も人間に依存し、時間のかかる部分です。

AutoML 2.0 は、特徴エンジニアリングの自動化と ML の自動化を簡素化し、企業の AI/ML を加速および簡素化する新しい技術革新です。これにより、BI エンジニアやデータ エンジニアなど、より多くの人が AI/ML プロジェクトを実行できるようになり、エンタープライズ AI/ML のスケーラビリティと俊敏性が向上します。

原題: 特徴エンジニアリングとは何か、なぜ自動化が必要なのか?、著者: 藤巻 良平

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに

>>:  AIは人間社会のさまざまなビジネスモデルをどのように変えるのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Megvii 顔認識ビジネス講演シリーズ - 顔認識について知っておくべきこと

人工知能、機械学習、マシンビジョンとは具体的に何でしょうか?顔認識と人工知能の関係は何でしょうか?人...

...

...

市場規模は300億に迫る! 2021年の農業用ドローンの発展の見通し

植物保護ドローンは、現在の農業分野において間違いなく新たな人気機器です。高効率、利便性、精度、環境保...

AI戦争が近づく中、ChatGPTが軍事禁止を解除

先週末、大手人工知能企業OpenAIは、ChatGPTの使用ポリシーから軍事利用を禁止する条項をひっ...

交換されますか? GPT4コードインタープリター完全自動

こんにちは、みんな。今日は、GPT-4 コード インタープリターがデータ分析、科学研究の描画、機械学...

通信 AI 市場は 2031 年に 388 億ドルに達すると予想されます。5G/6G と AI の統合により、さまざまなメリットがもたらされます。

4G と 5G の世界的な展開は商用サービスの進歩よりも速く、6G は 2030 年までに登場する...

タッチから音声へ: 音声テクノロジーが IoT 環境をどう変えるか

猛威を振るう新型コロナウイルス感染症のパンデミックは、経済と社会に大きな打撃を与えている。この世界的...

ChatGPT Enterprise Editionがリリースされ、OpenAIはこれをこれまでで最も強力なバージョンと呼んでいる

執筆者:Qianshan過去 1 か月間、OpenAI に関する物議を醸す報道が多くありました。一方...

...

...

チャットボットのアーキテクチャモデルと応答生成メカニズムは何ですか?

チャットボットは、実生活で人工知能を活用するための最も人気があり、広く採用され、敷居の低い方法の 1...

ChatGPTが危険にさらされています! 「Attention Formula」の8年前の謎のバグが初めて暴露、Transformerモデルに大きな影響が出る可能性

「注目の式」に8年間存在していたバグが外国人によって発見された?一瞬にして、この話題はインターネット...

人工知能はどのようにして銀行をより「インテリジェント」にすることができるのでしょうか?

[[263447]]人工知能技術の継続的な導入は、新たな産業発展の中核的な原動力となり、さまざまな...