天才か愚か者か: 史上最も物議を醸したニューラルネットワーク

エクストリームラーニングマシン

Extreme Learning Machine は、これまでで最も賢いニューラルネットワークの発明の 1 つであると考える人もいます。そのため、ELM ニューラルネットワークアーキテクチャについて議論する会議も開催されました。 ELM の支持者は、ELM は標準的なタスクを、飛躍的に速いトレーニング時間と少ないトレーニング例で実行できると主張しています。一方、機械学習コミュニティではそれほど大きな存在ではないという事実に加え、ヤン・ルカン氏を含むディープラーニングの専門家からは、期待以上の誇大宣伝と評価を受けていると広く批判されています。

一般的に、人々はこれを興味深い概念だと考えているようです。

ELM アーキテクチャは 2 つのレイヤーで構成されています。最初のレイヤーはランダムに初期化され固定され、2 番目のレイヤーはトレーニング可能です。本質的には、ネットワークはデータをランダムに新しい空間に投影し、多変量回帰を実行します (そしてもちろん、それを出力活性化関数に渡します)。ランダム投影には、ランダム行列を入力に掛ける次元削減 (またはアップスケーリング) 方法が必要です。このアイデアは奇妙に聞こえるかもしれませんが、戦略分布からのランダムな抽出は実際には非常にうまく機能します (後で直感的な類推でわかるように)。これは、ある種のランダムな歪みを課すことで、良い意味でノイズを生成し（正しく実行された場合）、ネットワークの残りの部分が適応できるようにして、学習の機会への新しい扉を開きます。

実際、このランダム性のおかげで、エクストリームラーニングマシンは、隠れ層内の比較的小さなノードを持つべき乗の普遍近似定理を持つことが示されています。

実際、ランダム投影のアイデアは、ニューラルネットワークの開発分野で 1980 年代と 1990 年代に研究されており、これが ELM が新しいものではないという批判の 1 つです。それは単に古い研究を新しい名前でパッケージ化しただけです。 Echo State Machine や Liquid State Machine などの他の多くのアーキテクチャも、ランダムスキップ接続やその他のランダム性のソースを利用します。

ただし、ELM と他のニューラルネットワークアーキテクチャの最大の違いは、バックプロパゲーションを使用しないことです。代わりに、ネットワークのトレーニング可能な部分は単純な多変量回帰であるため、パラメータは回帰の係数を適合させるのとほぼ同じ方法でトレーニングされます。これは、ニューラルネットワークのトレーニングに関する人々の考え方に根本的な変化をもたらします。

基本的な人工ニューラルネットワークの登場以来開発されたほぼすべてのニューラルネットワークは、ネットワーク全体で情報信号をやり取りすることで、反復的な更新 (または「チューニング」) を使用して最適化されてきました。この方法は長い間使用されてきたため、試行錯誤を重ねて最良の方法であると想定する必要がありますが、研究者は標準的なバックプロパゲーションには、トレーニングに時間がかかる、小さな局所的最小値で行き詰まるなど、多くの問題があることを認めています。

一方、ELM は、重みを設定するために、より数学的に複雑な式を使用します。数学を深く理解しなくても、ランダムレイヤーを使用して、置き換えられる計算コストの高い詳細を補うことができます。技術的には、非常に成功したドロップアウトレイヤーは、役に立つかどうかは別として、一種のランダム投影です。

ELM はランダム性とバックプロパゲーションなしの両方を使用するため、標準的なニューラルネットワークよりもはるかに高速にトレーニングできます。

一方、パフォーマンスが優れているかどうかは別の問題です。

ELM は、数個の例だけで非常に迅速に単純なタスクを解決できるという点で、標準的なニューラルネットワークよりも人間の学習方法をより反映しているという主張もできます (ただし、どちらもそれにはほど遠いです)。一方、反復型ニューラルネットワークは、一般化して適切に機能するために、少なくとも数千のサンプルを実行する必要があります。人間は機械に比べて弱点があるかもしれませんが、例の比率（例とは、人間に与えられたトレーニング例の数）による学習における大きな利点が、私たちを本当に賢くしているのです。

極限学習マシンの概念は非常に単純です。あまりにも単純なので、愚かだと言う人もいるでしょう。偉大なコンピューター科学者であり、ディープラーニングの先駆者であるヤン・ルカンは、「最初のレイヤーをランダムに接続するのは、最も愚かな行為の 1 つである」と宣言し、この議論の後に、SVM で使用されるカーネル法など、ベクトルの次元を非線形に変換するより高度な方法を挙げました。カーネル法は、位置特定にバックプロパゲーションを使用することでさらに強化されました。

LeCun 氏は、本質的には、ELM は、より劣った変換カーネルを備えた SVM であると述べました。 ELM が解決できる問題の限られた範囲は、SVM を使用してより適切にモデル化できます。唯一の反論は、SVM が非常に高出力モデルであることで有名なため、特殊なカーネルではなく「ランダムカーネル」を使用する計算効率です。 ELM によるパフォーマンスの低下がそれだけの価値があるかどうかは、別の議論です。

> ELM と SVM を比較する 1 つの方法。

ただし、ELM に似ているかどうかにかかわらず、単純なニューラルネットワークやその他のモデルでランダム投影やフィルターを経験的に使用すると、MNIST などのさまざまな (現在では「単純」と見なされている) 標準トレーニングタスクで良好なパフォーマンスが得られることがわかっています。これらのパフォーマンスはクラス最高ではありませんが、非常に厳しく精査され、そのコンセプトがほとんどばかげていると考えられていたアーキテクチャが、最先端のニューラルネットワークでリーダーボードを独占し、さらに、より軽量なアーキテクチャとより小さな計算フットプリントを備えているという事実は、少なくとも興味深いものです。

固定ランダム接続を使用するとなぜ機能するのでしょうか?

ここで、100 万ドルの価値がある質問があります。明らかに、ELM が通常のバックプロパゲーションニューラルネットワークと同等 (またはそれ以上) のパフォーマンスを発揮する場合、ランダム接続を持つ ELM の何かが機能していることになります。その数学は直感的ではありませんが、Extreme Learning Machines のオリジナル論文の著者である Guangbin Huang 氏は、次の例でこの概念を説明しています (言語、簡潔さ、ディープラーニングとの類似性のために編集されています)。

湖を岩で満たし、水平面が水の代わりに岩で満たされると、空の湖の底、つまり曲線 (データを表す関数) が見えるようになります。エンジニアたちは、湖の大きさ、湖を満たす岩の大きさ、そして最適化作業に影響を与える他の多くの小さな要素を慎重に計算しました。 (この機能に適した多くのパラメータを最適化します。)

> 湖に石を埋め込むという、下手だが許容できる仕事。

一方、農村の農民たちは近くの山を爆破し、湖に落ちた岩を投げたり押し倒したりし始めた。田舎の農民が石（隠れ層ノード）を拾うとき、湖の大きさや石の大きさを知る必要はなく、ただランダムに石を投げて散らばらせるだけです。ある地域で地表より上に岩が積み上がり始めたら、農夫はハンマーで岩を砕いて（βパラメータ - さまざまな正規化）、地表を平らにします。

技術者たちが岩の高さや体積、湖の形をまだ計算している一方で、農民たちはすでに湖を埋め立てている。農夫にとっては、石をいくつ投げるかは問題ではありません。その方が仕事を早く終わらせることができるからです。

この類推をさまざまなシナリオに直接適用することにはいくつか問題がありますが、これは ELM の性質とモデル内でのランダム性の役割を直感的に説明しています。 ELM の本質は、素朴さが必ずしも悪いことではないということです。単純な解決策は、それほど複雑でない問題をよりうまく解決できる場合があります。

要点

エクストリーム学習マシンは、固定されたランダムな第 1 層とトレーニング可能な第 2 層を使用します。これは本質的にはランダム投影とそれに続く多重回帰です。
支持者によると、ELM は MNIST のような単純なシナリオで非常に少ない例で非常に速く学習でき、プログラミングが容易で、アーキテクチャ、オプティマイザー、損失などのパラメータの選択を必要としないという利点があるという。一方、反対派は、これらの場合には SVM の方が優れており、ELM はより複雑な問題を解決するのに適しておらず、非常に古いアイデアを単にリブランドしたものに過ぎないと主張しています。
ELM は通常、複雑なタスクではパフォーマンスが低下しますが、より単純なタスクではパフォーマンスが向上することが示されています。これは、より軽量なアーキテクチャ、非バックプロパゲーションモデルのフィッティング、およびランダム投影の世界を調査する良い理由です。少なくとも、エクストリームラーニングマシン (または任意の名前) は、すべてのディープラーニング愛好家が知っておくべき興味深いアイデアです。

ELM についての意見をお聞かせください。

<<: 米空軍がAI技術を活用して「戦闘効率」を向上させる方法を明らかにする

>>: マルチモーダル生体認証の利点を分析した記事、急いでコード化しましょう!