AutoML 2.0: データ サイエンティストは時代遅れか?

AutoML 2.0: データ サイエンティストは時代遅れか?

AutoML はここ数年で急速に成長しました。そして、景気後退が避けられない状況となった今、人工知能(AI)と機械学習で開発を自動化するというアイデアがさらに注目を集めることになりそうだ。現在業界で発売されているさまざまな新しいプラットフォーム (https://dotdata.com) には、より多くの自動化機能が備わっています。 AI はいわゆる特徴エンジニアリングを推進できるようになり、ユーザーはデータ サイエンス処理のための特徴を自動的に検出して作成できるようになりました。このアプローチは、データ サイエンスに対するまったく新しいアプローチを切り開き、データ サイエンティストの役割を脅かすものとなる可能性があります。

では、データ サイエンティストはこうした進展について懸念する必要があるのでしょうか? 自動化プロセスにおけるデータ サイエンティストの役割は何でしょうか? また、この新たな自動化を踏まえて、ビジネスはどのように進化するのでしょうか?


従来のデータサイエンスのプロセス(図;dotData)

AutoML 2.0はデータサイエンスをさらに自動化します

第 1 世代の AutoML プラットフォームは、主にデータ サイエンス プロセスの機械学習部分の自動化に重点を置いていました。しかし、従来のデータ サイエンスのワークフローで最も時間がかかり、最も難しい部分は、特徴エンジニアリングと呼ばれる部分です。特徴エンジニアリングは、主にデータ ソースを接続し、さまざまな「特徴」を含む大規模な「特徴テーブル」を構築する、非常に手作業の多いステップです。同時に、これらの要素は複数の機械学習アルゴリズムに対して評価する必要があります。

今日の特徴エンジニアリングの課題は、新しい特徴はより高度なドメイン専門知識がなければ「作り出せない」ということであり、特徴が評価、拒否、または選択されるたびにこのプロセスを反復的に実行する必要があります。しかし最近、この課題に対処するために設計された追加機能と自動化を提供する新しいプラットフォームが業界に登場しました。一部のプラットフォームには、リレーショナル データ ソースや非構造化ファイルから特徴テーブルを自動的に作成できる「自動特徴エンジニアリング」機能が搭載されています。データ サイエンス プロセス内の要素を「自動生成」するこの機能は、ゲームを変える機能です。

突然、「市民」データ サイエンティストが、ML および AI モデルを開発する組織にとって貴重な貢献者になり始めました。一般的に、「シチズン データ サイエンティスト」とは、ビジネス インテリジェンス (BI) アナリスト、データ エンジニア、および深いドメイン知識を持つ組織のその他の技術に精通したメンバーを指します。機械学習の助けを借りて、BI チームは自動化された要素エンジニアリングを使用して数日で複雑な予測分析アルゴリズムを開発できるため、データ サイエンティストを必要とせずに生産性が大幅に向上します。

自動化されたデータサイエンス:民主化

AutoML 2.0 プラットフォームの主な利点の 1 つは、データ サイエンスを真に民主化できることです。

データ サイエンスの自動化により、機能の発見と作成のプロセスを加速し、自動的に実行できるため、より広範なユーザー コミュニティがデータ サイエンス プロセスに貢献できるようになります。機能作成の自動化により、「市民」データ サイエンティストは極めて有用で、高度に最適化されたユース ケースを作成できるようになります。また、シチズン データ サイエンティストは通常​​、高度な「ドメイン専門知識」を持っているため、データ サイエンス チームからのサポートをほとんど受けずに、組織にとって価値の高いユース ケースに集中できます。

市民データ サイエンティストを育成するもう 1 つの利点は、企業がデータ サイエンティストを採用できないことを心配することなく、データ サイエンスの利用を拡大できることです。 2018 年の LinkedIn の調査によると、米国の組織ではデータ サイエンティストの採用に苦労していることがわかりました。これを踏まえると、新しいデータ サイエンスの貢献者を発見できることが特に重要です。

世界経済が大きな不確実性に直面している今、最小限の投資でいくつかの新しいカテゴリーの AI/ML 開発者を発見できることは、間違いなくゲームを変えるような価値提案となり、競争上の優位性を維持または向上させる上で大きな意義を持つでしょう。

自動化されたデータサイエンス: 生産性、代替ではない

しかし、データ サイエンティストの置き換えや代替に重点を置く AutoML 2.0 プラットフォームは、大きな間違いを犯すことになります。ほとんどのデータ サイエンティストは、特徴エンジニアリングを仕事における最大のハードルの 1 つと考えています。自動化は、自動化なしでは実現できない驚異的な生産性向上を実現し、機能エンジニアリングのプロセスをスピードアップするのに役立ちます。

データ サイエンティストにとって、AutoML 2.0 を活用すると作業が大幅にスピードアップし、作業時間を数日から数か月短縮できる場合が多くあります。さらに、AutoML 2.0 プラットフォームで AI ベースの特徴エンジニアリングを使用するデータ サイエンティストは、これまで考慮していなかった特徴を発見することもできます。 AI を活用した特徴エンジニアリングでは、特徴を自動的に構築、評価、アクティブ化し、複数の列 (多くの場合、異なるテーブルやソースにまたがる) のデータを組み合わせることができます。

さらに、AutoML 2.0 には自己発見の要素があり、データ サイエンティストは、時間やドメインの専門知識の不足によりデータ サイエンティストがこれまで考慮したことのない、いわゆる「未知の未知」を探索できます。

AutoML 2.0: より効率的で包括的な AI/ML プログラムの作成

したがって、AutoML 2.0 プラットフォームは、データ サイエンティストの生活を脅かすのではなく、データ サイエンスのプロセスを加速し、データ サイエンスを民主化するのに役立ちます。同時に、AutoML 2.0 は、データ サイエンティストの生産性を向上させるために必要な加速および自動化手段も提供し、データ サイエンティストが作業を拡大してビジネスにさらなる利益をもたらすことを可能にします。 AutoML 2.0 プラットフォームには、データ サイエンスの民主化を促進し、データ サイエンス プロセスを加速するという 2 つの利点があり、これが最も重要なセールス ポイントでもあります。この 2 つの利点は、現代の組織がデータ サイエンス プロセスを拡張するための鍵となります。

<<:  エネルギー分野における人工知能の機会と課題

>>:  飛んでくる花穂は人々を不安にさせますが、人と機械の組み合わせで不安を防ぐことができます!

ブログ    

推薦する

AIと新技術が商業用不動産投資に革命を起こす

商業用不動産業界は進化を遂げており、人工知能 (AI) などのテクノロジーが、このダイナミックな市場...

宇宙探査における人工知能の驚くべき7つの応用

宇宙探査は人類の最も挑戦的で刺激的な取り組みの一つです。これには、科学的知識、技術革新、そして人間の...

アルゴリズムモデルの自動ハイパーパラメータ最適化手法

ハイパーパラメータとは何ですか?学習モデルには、一般的に 2 種類のパラメータがあります。1 つはデ...

エッジコンピューティング時代の到来は AI にどのような影響を与えるのでしょうか?

[[270834]]近年、人工知能はテクノロジー界で注目されている分野です。中国では、Megvii...

...

...

...

テスラのデータラベリングシステムを理解する

Andrej Karpathy 博士は、モデルを動かすにはデータが必要だと言いました。モデルは上限を...

...

SQLにおける機械学習の詳細な説明

ML 以前の世界が存在していたことを信じられないこともあります。現代のデータ分析の多くは ML 技術...

...

...

RSAは過去2世紀で最も重要なアルゴリズムの1つです

Diffie-Hellman暗号化アルゴリズムの欠点[[225219]]前回の記事では、Diffie...

データ サイエンティストが知っておくべき 5 つのグラフ アルゴリズム

導入グラフ分析はデータサイエンティストの未来だからです。データ サイエンティストとして、私たちは p...

ディープラーニング: オートエンコーダの基礎と種類

ディープラーニングが私たちの社会に大きな影響を与えようとしていることは明らかです。 Mobibit ...