ドラッグアンドドロップ機械学習の愛と憎しみ

ドラッグアンドドロップ機械学習の愛と憎しみ

ドラッグアンドドロップ機械学習は、私が長い間考えてきたものです。

1. 過去世と現在世

ドラッグ アンド ドロップ 機械学習とは、インターフェイス上でドラッグすることで機械学習プロセスを構築することです。ドラッグ アンド ドロップ 機械学習システムには、通常、データのクリーニング、機能の選択、トレーニング、予測、効果の評価など、豊富なコンポーネントが備わっています。 「ビルディングブロック」に似た方法で、学習コンポーネントを組み合わせて完全な機械学習プロセスを構築します。

ドラッグアンドドロップ機械学習のプロトタイプはかなり前に登場しました。 Weka は、ニュージーランドのワイカト大学が開発したデータマイニング ソフトウェアです。 Weka は、Java API の提供に加えて、Weka Explorer グラフィカル インターフェイスも提供します。 Weka Explorer インターフェース上でマウスを使用することで、データを簡単に読み込み、データの特性を観察し、トレーニング、予測、結果を評価できます。無料の Weka ソフトウェアに加えて、商用ソフトウェアの Matlab と SASS もグラフィカル インターフェイスを提供します。個人的には、これらのソフトウェアはツールキットやシステムではなく、ソフトウェアとして位置付けられていると感じています。しかし、これらのソフトウェアは、実際にはグラフィカル インターフェースを備えた最初の機械学習システムでした。

近年、機械学習が人気のテーマとなってきたため、「誰もが機械学習を使えるようになる」というのが多くの人のビジョンとなっています。彼らの想像では、データの準備、さまざまなアルゴリズムのトレーニング、さまざまなアルゴリズムの予測、効果の評価はすべてコンポーネントにカプセル化されており、コンポーネントをクリックしてドラッグするだけで、機械学習をスムーズに使用できます。この概念に基づいて、ドラッグ アンド ドロップ型の機械学習システムが数多く開発されてきました。中でも有名なものとしては、Microsoft の Azure Machine Learning Studio や Alibaba のビッグデータ コンピューティング サービス MaxComput などがあります。

大企業に加え、ドラッグアンドドロップ機械学習システムを開発しているスタートアップ企業もあります。下の写真は、aetros が theano をベースに構築したディープラーニング プラットフォームです。ユーザーは、ドラッグ アンド ドロップするだけで、ConvNet と fcNet を含む基本アーキテクチャを完成させることができます。

2. 愛

ドラッグ アンド ドロップ 機械学習により、プログラミングからコンポーネントのドラッグ、構成ファイルの記述まで、機械学習を使用するハードルが下がります。機械学習の利用の難しさが質的に軽減されました。しかし、私はこの利点を常に疑っていました。金融会社、貿易会社、銀行、さらにはインターネット企業において、非技術者が機械学習を使用する必要性と知識を本当に持っているでしょうか? 私はそうは思いません。

ドラッグアンドドロップ機械学習は、「誰もが機械学習を利用できる」という本来の目的を達成することはできませんが、エンジニアが機械学習タスクを実行するのを大幅に容易にすることができます。インターフェイス上でファンドの機械学習タスクを整理するエンジニアは、自分の機械学習タスクを直感的に理解できます。つまり、自分の機械学習タスクがどのステップに到達したか、エラーがある場合はどのステップでエラーが発生したか、誤ったステップによってどのタスクが影響を受けるかを把握できます。

例えば、上の図から、正規化がうまくいかないと、分割タスクやそれ以降のタスクに影響が出ることが直感的にわかります。

3. 憎悪

ドラッグ アンド ドロップ 機械学習の利点について説明したので、ドラッグ アンド ドロップ 機械学習の欠点について説明しましょう。

ドラッグ アンド ドロップ 機械学習では、コンポーネントと構成がプログラミングに取って代わり、人々が機械学習を使用する方法になります。ただし、コンポーネントと構成だけでは、プログラミングのように機械学習の複雑さを完全に処理することはできません。機械学習アルゴリズムの理解に加えて、機械学習を使用する上で最も複雑な部分は、機能の調整とパラメータの調整という 2 つの部分です。特徴調整の内容には、どの特徴を使用するか、どの特徴を破棄するか、どの特徴前処理方法を採用するか (スケーリングなど) が含まれます。パラメータ調整は特定のアルゴリズムに関連しています。たとえば、ロジスティック回帰には主に学習率と正則化係数の 2 つのパラメータがあります。

コンポーネントプラス構成方法では、特徴エンジニアリング ソリューションのセットとパラメーターのセットを構成できますが、どの特徴エンジニアリング ソリューションとパラメーターのセットが最良の効果をもたらすかを迅速に検証することは困難です。プログラミングでは、ループを使用してさまざまな特徴エンジニアリング スキームとパラメーターを走査し、対応する効果インジケーターを取得できます。ただし、ドラッグ アンド ドロップ マシン ラーニングのコンポーネント プラス構成アプローチでは、さまざまな特徴エンジニアリング スキームとパラメーターをドキュメントに記録し、そのうちの 1 つを選択してドラッグ アンド ドロップ マシン ラーニング システムに設定し、数時間実行して評価指標を取得し、評価指標をドキュメントに記録し、次のグループを選択して、すべての特徴エンジニアリング スキームとパラメーターがトラバースされるまで上記の手順を繰り返すことしかできません。プログラマーとしての私たちの目標は、さまざまなタスクをコードでつなぎ合わせて自動化を実現することです。しかし、現在ではドラッグ アンド ドロップの機械学習によって、この自動化チェーンは完全に切断されてしまいました。

では、コンポーネントと構成を直接使用して自動化を実現するにはどうすればよいでしょうか。これを実現するには、ドラッグ アンド ドロップ 機械学習で条件判断コンポーネントとループ コンポーネントを提供する必要があり、さらに一連の特徴エンジニアリング ソリューションとパラメーター変更標準を定義する必要があります。それは新しいプログラミング言語を作成するようなものです。これで、最初に戻ります。

4. 結論

ドラッグ アンド ドロップ 機械学習の本来の意図である「誰でも機械学習を利用できる」ということについては、私は楽観的ではありません。エンジニアにとって、ドラッグ アンド ドロップによる機械学習も、好き嫌いが分かれる関係です。

<<:  科学者らが磁場を使ってバイオニックロボットの動きを制御する新たな解決策を発表

>>:  機械学習業界の発展はなぜ「オープンソース」から切り離せないのか

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

安全な生産を守り、ロボット、IoTなどの技術サポートを提供します。

近年、世界的な工業化の加速を背景に、製造業、建設業、化学業などの産業を中心に労働災害や死亡者数が増加...

Zhuiyi Technology AI Lab: ビジネスとテクノロジーの両方を推進し、新しいレベルのインテリジェントなインタラクティブアプリケーションを創造

[51CTO.comからのオリジナル記事] 人工知能の推進により、ビジネス運営モデルは変化しました。...

AIを活用した自動化が成果を上げる:自動化の破壊的イノベーションにより収益成長が1.5倍に増加

新型コロナウイルス感染症のパンデミックによって引き起こされた市場の混乱は、世界中の企業に引き続き重く...

Github を席巻: アルゴリズム ビジュアライザーはアルゴリズムを視覚化し、アルゴリズムの学習を容易にします

[[327717]] 今日はオープンソース プロジェクトを紹介します。このプロジェクトの素晴らしい...

フォーカス分析: 動画向けAIと画像向けAIの違い

[51CTO.com クイック翻訳] 画像処理と比較すると、ビデオから洞察を抽出したり、AI 技術を...

触覚がこんなにリアルになったのは初めてです!南カリフォルニア大学の2人の中国人博士が「触覚知覚」アルゴリズムを発明した

電子技術の発達により、私たちはいつでもどこでも「視聴覚の饗宴」を楽しめるようになり、人間の聴覚と視覚...

AIの時代において、従来の検索エンジンはどこへ向かうのでしょうか?

こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...

危険なAIアルゴリズムを識別し、倫理原則に従ったビッグデータモデルを作成する方法

人工知能がもたらす脅威について議論するとき、スカイネット、マトリックス、ロボットによる終末の世界とい...

AIは、群衆の中でディープフェイクされたのはあなただけだと認識します

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2022年のスマート製造のトレンド

製造業は過去 1 世紀にわたって大きく変化しました。 新しい高度なテクノロジーが業界を前進させるにつ...

開発者が武器をアップグレードするために推奨される 5 つの機械学習フレームワーク

業界ではよく知られているデータサイエンスのウェブサイトである KDnuggests は昨日、4 月の...

顔認識における克服すべき困難

顔認識は、生体認証の分野、さらには人工知能の分野においても最も難しい研究テーマの 1 つと考えられて...

ネイチャーが中国のAIの現状を分析。2030年に世界をリードできるか?

ネイチャー誌の最近の分析記事では、中国の人工知能研究は質の面で急速な進歩を遂げているが、影響力の大き...

機械学習プロジェクトが失敗する9つの理由

この記事では、データ サイエンス プロジェクトが失敗する最も一般的な理由をまとめ、落とし穴を回避する...

DIFFアルゴリズムがわからない場合は、私に連絡してください(画像付き)

序文インタビュアー: 「仮想 DOM と Diff アルゴリズムをご存知ですか? 説明してください。...