ドラッグアンドドロップ機械学習の愛と憎しみ

ドラッグアンドドロップ機械学習は、私が長い間考えてきたものです。

1. 過去世と現在世

ドラッグアンドドロップ機械学習とは、インターフェイス上でドラッグすることで機械学習プロセスを構築することです。ドラッグアンドドロップ機械学習システムには、通常、データのクリーニング、機能の選択、トレーニング、予測、効果の評価など、豊富なコンポーネントが備わっています。「ビルディングブロック」に似た方法で、学習コンポーネントを組み合わせて完全な機械学習プロセスを構築します。

ドラッグアンドドロップ機械学習のプロトタイプはかなり前に登場しました。 Weka は、ニュージーランドのワイカト大学が開発したデータマイニングソフトウェアです。 Weka は、Java API の提供に加えて、Weka Explorer グラフィカルインターフェイスも提供します。 Weka Explorer インターフェース上でマウスを使用することで、データを簡単に読み込み、データの特性を観察し、トレーニング、予測、結果を評価できます。無料の Weka ソフトウェアに加えて、商用ソフトウェアの Matlab と SASS もグラフィカルインターフェイスを提供します。個人的には、これらのソフトウェアはツールキットやシステムではなく、ソフトウェアとして位置付けられていると感じています。しかし、これらのソフトウェアは、実際にはグラフィカルインターフェースを備えた最初の機械学習システムでした。

近年、機械学習が人気のテーマとなってきたため、「誰もが機械学習を使えるようになる」というのが多くの人のビジョンとなっています。彼らの想像では、データの準備、さまざまなアルゴリズムのトレーニング、さまざまなアルゴリズムの予測、効果の評価はすべてコンポーネントにカプセル化されており、コンポーネントをクリックしてドラッグするだけで、機械学習をスムーズに使用できます。この概念に基づいて、ドラッグアンドドロップ型の機械学習システムが数多く開発されてきました。中でも有名なものとしては、Microsoft の Azure Machine Learning Studio や Alibaba のビッグデータコンピューティングサービス MaxComput などがあります。

大企業に加え、ドラッグアンドドロップ機械学習システムを開発しているスタートアップ企業もあります。下の写真は、aetros が theano をベースに構築したディープラーニングプラットフォームです。ユーザーは、ドラッグアンドドロップするだけで、ConvNet と fcNet を含む基本アーキテクチャを完成させることができます。

2. 愛

ドラッグアンドドロップ機械学習により、プログラミングからコンポーネントのドラッグ、構成ファイルの記述まで、機械学習を使用するハードルが下がります。機械学習の利用の難しさが質的に軽減されました。しかし、私はこの利点を常に疑っていました。金融会社、貿易会社、銀行、さらにはインターネット企業において、非技術者が機械学習を使用する必要性と知識を本当に持っているでしょうか? 私はそうは思いません。

ドラッグアンドドロップ機械学習は、「誰もが機械学習を利用できる」という本来の目的を達成することはできませんが、エンジニアが機械学習タスクを実行するのを大幅に容易にすることができます。インターフェイス上でファンドの機械学習タスクを整理するエンジニアは、自分の機械学習タスクを直感的に理解できます。つまり、自分の機械学習タスクがどのステップに到達したか、エラーがある場合はどのステップでエラーが発生したか、誤ったステップによってどのタスクが影響を受けるかを把握できます。

例えば、上の図から、正規化がうまくいかないと、分割タスクやそれ以降のタスクに影響が出ることが直感的にわかります。

3. 憎悪

ドラッグアンドドロップ機械学習の利点について説明したので、ドラッグアンドドロップ機械学習の欠点について説明しましょう。

ドラッグアンドドロップ機械学習では、コンポーネントと構成がプログラミングに取って代わり、人々が機械学習を使用する方法になります。ただし、コンポーネントと構成だけでは、プログラミングのように機械学習の複雑さを完全に処理することはできません。機械学習アルゴリズムの理解に加えて、機械学習を使用する上で最も複雑な部分は、機能の調整とパラメータの調整という 2 つの部分です。特徴調整の内容には、どの特徴を使用するか、どの特徴を破棄するか、どの特徴前処理方法を採用するか (スケーリングなど) が含まれます。パラメータ調整は特定のアルゴリズムに関連しています。たとえば、ロジスティック回帰には主に学習率と正則化係数の 2 つのパラメータがあります。

コンポーネントプラス構成方法では、特徴エンジニアリングソリューションのセットとパラメーターのセットを構成できますが、どの特徴エンジニアリングソリューションとパラメーターのセットが最良の効果をもたらすかを迅速に検証することは困難です。プログラミングでは、ループを使用してさまざまな特徴エンジニアリングスキームとパラメーターを走査し、対応する効果インジケーターを取得できます。ただし、ドラッグアンドドロップマシンラーニングのコンポーネントプラス構成アプローチでは、さまざまな特徴エンジニアリングスキームとパラメーターをドキュメントに記録し、そのうちの 1 つを選択してドラッグアンドドロップマシンラーニングシステムに設定し、数時間実行して評価指標を取得し、評価指標をドキュメントに記録し、次のグループを選択して、すべての特徴エンジニアリングスキームとパラメーターがトラバースされるまで上記の手順を繰り返すことしかできません。プログラマーとしての私たちの目標は、さまざまなタスクをコードでつなぎ合わせて自動化を実現することです。しかし、現在ではドラッグアンドドロップの機械学習によって、この自動化チェーンは完全に切断されてしまいました。

では、コンポーネントと構成を直接使用して自動化を実現するにはどうすればよいでしょうか。これを実現するには、ドラッグアンドドロップ機械学習で条件判断コンポーネントとループコンポーネントを提供する必要があり、さらに一連の特徴エンジニアリングソリューションとパラメーター変更標準を定義する必要があります。それは新しいプログラミング言語を作成するようなものです。これで、最初に戻ります。

4. 結論

ドラッグアンドドロップ機械学習の本来の意図である「誰でも機械学習を利用できる」ということについては、私は楽観的ではありません。エンジニアにとって、ドラッグアンドドロップによる機械学習も、好き嫌いが分かれる関係です。

<<: 科学者らが磁場を使ってバイオニックロボットの動きを制御する新たな解決策を発表

>>: 機械学習業界の発展はなぜ「オープンソース」から切り離せないのか