AIの冷却：ディープラーニングは万能薬ではない

[[202706]]

近年、ディープラーニングはある程度の流行状態に入り、人々はこの技術を使ってあらゆる問題を解決しようとしています。しかし、ディープラーニングは本当に最高なのでしょうか? この記事を読めば、ディープラーニングが想像されているほど「神話的」ではない理由を深く理解できるでしょう。

序文

最近、ディープラーニングの分野では白熱した議論が繰り広げられています。すべては、Jeff Leek が Simply Stats に「ディープラーニングは使用しないでください。データはそれほど大きくありません」というタイトルのブログ記事を公開したときに始まりました。このブログ記事で、著者の Jeff Leek 氏は、サンプルデータセットが小さい場合 (バイオインフォマティクスの分野では一般的)、パラメーターの少ない線形モデルは、レイヤーと隠れユニットが少ない場合でも、ディープネットワークよりも優れたパフォーマンスを発揮できることを指摘しています。自分の主張を証明するために、リーク氏は MNIST データベースに基づいて 0 と 1 を区別する画像認識の例を挙げました。また、彼は、わずか 80 個の例を使用して MNIST データセット内の 0 と 1 を分類する場合、単純な線形予測子 (ロジスティック回帰) の方がディープニューラルネットワークよりも正確であることも示しました。

このブログ投稿の公開は、この分野で論争を引き起こした。ハーバード大学薬学部の生物医学情報学の博士研究員であるアンドリュー・ビーム氏は、これに反論する記事を書いた。「データがそれほど大きくなくても、ディープラーニングはおそらく使用できるだろう。」 Andrew Beam 氏は、データセットが小さくても、適切にトレーニングされたディープネットワークが単純な線形モデルに勝ることを示しました。

今日、ますます多くのバイオインフォマティクス研究者がさまざまな問題を解決するためにディープラーニングを使用しているため、議論は激化しています。誇大宣伝は本当でしょうか? それとも線形モデルは私たちのすべてのニーズを満たすのに十分なのでしょうか? いつものように、それは状況によって異なります。この投稿では、ディープラーニングの使用が賢明ではない機械学習のユースケースをいくつか検討します。また、ディープラーニングに関する誤解についても説明します。著者は、これらの誤解がディープラーニングの非効率的な使用につながり、特に初心者に起こりやすいと考えています。

ディープラーニングのバイアスを打破する

まず、多くの素人が陥りがちな偏見について見てみましょう。それは実際には半分真実で半分誤った一方的な認識です。主なポイントは 2 つあり、そのうちの 1 つは少し技術的な内容なので詳しく説明します。

ディープラーニングは小さなサンプルセットでも良い結果を達成できる

ディープラーニングはビッグデータの文脈で人気を博し（最初の Google Brain プロジェクトでは、ディープニューラルネットワークを使用した YouTube 動画が多数提供されました）、それ以来、ディープラーニングコンテンツのほとんどは大量のデータに基づく複雑なアルゴリズムに基づいています。

しかし、ビッグデータ + ディープラーニングの組み合わせは、ディープラーニングを小さなサンプルには適用できないという意味だと誤解されてきました。例が少数しかない場合、パラメータ対サンプル比の高いニューラルネットワークに例を入力すると、確実に過剰適合につながると思われます。ただし、教師あり学習か教師なし学習かに関係なく、特定の問題のサンプルサイズと次元を単純に考慮することは、コンテキストなしで真空状態でデータをモデル化するのとほぼ同じです。

考えられるデータの状況としては、問題に関連するデータソースがある、またはその分野の専門家が提供できる強力な事前知識がある、またはデータが非常に特殊な方法で構造化されている (たとえば、グラフや画像にエンコードされている) などが挙げられます。これらすべてのケースにおいて、ディープラーニングは代替アプローチとなる可能性があります。たとえば、大規模で関連するデータセットの効率的な表現をエンコードし、その表現を問題に適用することができます。

この典型的な例は自然言語処理です。自然言語処理では、Wikipedia などの大規模なコーパスから単語の埋め込みを学習し、それらの埋め込みを教師ありタスク用のより小さく、より狭いコーパスとして使用します。極端なケースでは、ニューラルネットワークのセットを使用して特徴表現を共同で学習できます。これは、少数のサンプルセットで表現を再利用するための効率的な方法です。このアプローチはワンショット学習と呼ばれ、コンピュータービジョンや創薬など、高次元データを扱う分野に効果的に適用されてきました。

創薬のためのワンショット学習ネットワーク、Altae-Tran 他 ACS Cent. Sci. 2017

ディープラーニングはすべての答えではない

私が最もよく耳にする2番目の偏見は、過剰な宣伝です。この分野にまだ参入していない多くの人々は、他の分野での優れたパフォーマンスを理由に、ディープニューラルネットワークが驚異的なパフォーマンス向上をもたらすと期待しています。画像、音楽、言語（人間に密接に関連する 3 つのデータタイプ）の処理におけるディープラーニングの優れたパフォーマンスに触発されてこの分野に飛び込み、最新の GAN 構造のトレーニングを試すのを待ちきれない人もいます。

もちろん、その誇大宣伝は多くの点で真実です。機械学習におけるディープラーニングの地位は過小評価できず、データモデリング手法ライブラリにおいても重要なツールとなっています。その人気により、TensorFlow や PyTorch など、ディープラーニング以外でも非常に役立つ多くの重要なフレームワークが開発されました。弱小企業がスーパースターに上り詰める物語は、進化アルゴリズムや強化学習など、これまであまり知られていなかったアルゴリズムを再検討するきっかけとなった。

しかし、ディープラーニングはいかなる状況においても万能薬とは言えません。タダより高いものはないという事実に加え、ディープラーニングモデルは非常に微妙であり、慎重で時には非常に時間のかかるハイパーパラメータの検索、調整、テストが必要になります (これについては、この記事の後半で詳しく説明します)。それに加えて、多くの場合、実用的な観点からディープラーニングを使用するのは意味がなく、よりシンプルなモデルの方がより良い結果を達成できます。

ディープラーニングは単なる.fit() ではない

ディープラーニングモデルが機械学習の他の分野から派生したものである場合、見落とされがちな別の側面があると思います。ほとんどのディープラーニングのチュートリアルや入門資料では、モデルを階層的に接続されたノードの層として説明しています。最初の層は入力で、最後の層は出力であり、何らかの形式の確率的勾配降下法 (SGD) を使用してネットワークをトレーニングします。一部の資料では、確率的勾配降下法の仕組みとバックプロパゲーションについて簡単に紹介しますが、紹介の大部分は、ニューラルネットワークの豊富な種類 (畳み込みニューラルネットワーク、再帰型ニューラルネットワークなど) に焦点を当てています。

最適化手法自体はあまり注目されていませんが、これは残念なことです。なぜなら、ディープラーニングが大きな役割を果たすことができる理由の大部分は、これらの特別な最適化手法にあるからです (詳細な議論については、Ferenc Huszár のブログとブログで引用されている論文を参照してください)。パラメータを最適化する方法とデータを分割して、それらをより効率的に使用し、ネットワークが妥当な時間内に適切に収束するようにする方法を理解することが重要です。

確率的勾配降下法がなぜそれほど重要なのかはまだ不明ですが、手がかりは現れ始めています。私はこのアプローチをベイズ推論の一部と考える傾向があります。本質的には、何らかの形式の数値最適化を実行するときは常に、特定の仮定と事前確率を使用してベイズ推論を実行していることになります。実際、このアイデアから始まった確率数値と呼ばれる研究分野が存在します。同じことが確率的勾配降下法にも当てはまります。*** の研究結果によると、このプロセスは実際にはマルコフ連鎖であり、特定の仮定の下では後方変分近似の定常分布と見なすことができます。

したがって、確率的勾配降下法を停止して最終的なパラメータを取得すると、基本的にこの近似分布からサンプリングすることになります。このアイデアは、オプティマイザーのパラメータ (この場合は学習率) をより意味のあるものにするので、非常に刺激的だと思います。たとえば、確率的勾配降下法の学習パラメータを増やすと、マルコフ連鎖は不安定になり、広い領域をサンプリングする局所最小値を見つけるまで、プログラムの分散が増加します。

一方、学習パラメータが減少すると、マルコフ連鎖は収束するまで狭い最小値をゆっくりと近似できるため、特定の領域でのバイアスが増加します。もう一つのパラメータである確率的勾配降下法のバッチサイズも、アルゴリズムが収束する領域の種類を制御できます。小さなバッチはより大きな領域に収束し、大きなバッチはより小さな領域に収束します。

確率的勾配降下法は、学習率やバッチサイズに応じて、大きな最小値または狭い最小値を選択します。

この複雑さは、ディープネットワークのオプティマイザーが非常に重要であることを意味します。オプティマイザーは、レイヤーアーキテクチャと同じくらい重要なモデルの中核部分です。これは、機械学習の他の多くのモデルでは一般的ではありません。線形モデル (LASSO アルゴリズムのような正規化されたものも含む) とサポートベクターマシン (SVM) は、微妙な違いがほとんどなく、最適な解が 1 つしかない凸最適化問題です。このため、他の分野の研究者は、scikit-learn などのツールを使用する際に、単純に .fit() 関数を提供する API が存在しないことに気づき、混乱します (ただし、現在では、skflow のように単純なネットワークを .fit() に組み込もうとするツールもいくつかありますが、これは少し誤解を招くと思います。なぜなら、ディープラーニングの要点は柔軟性にあるからです)。

ディープラーニングが必要ない場合とはどのような場合でしょうか?

どのような状況でディープラーニングは理想的ではないのでしょうか? 私の意見では、次の状況は利点よりも障害になります。

低予算または低投資の問題

ディープネットワークは、さまざまな構造とノードモデル、最適化装置、正規化方法を備えた非常に柔軟なモデルです。アプリケーションに応じて、モデルには畳み込み層（その幅はどれくらいですか？プーリング操作はありますか？）、または再帰構造（ゲート付きユニットはありますか？）があるかもしれません。ネットワークは非常に深い（砂時計型、シャム型、またはその他の型？）か、または隠し層がいくつかあるだけです（ユニットの数は？）。正規化線形ユニットまたはその他の活性化関数を使用するかもしれません。ドロップアウトがある場合とない場合があり（どの層に？どのくらいの割合で？）、重みは正規化される必要があります（L1、L2、またはもっと特殊なもの？）。これはほんの一部です。他にもさまざまなタイプのノード、接続、損失関数を試すことができます。

多くのハイパーパラメータを調整し、フレームワークを探索するプロセスは、大規模なネットワークのインスタンスを 1 つだけトレーニングする場合でも、非常に時間がかかることがあります。 Google は最近、AutoML アプローチによって最適なアーキテクチャを自動的に見つけることができると主張しましたが、これは素晴らしいことですが、それでも 800 台以上の GPU を数週間にわたって 24 時間 365 日稼働させる必要があり、これは誰にとっても手の届かないものです。重要な点は、ディープネットワークのトレーニングは、計算とデバッグの両方の面で非常にコストがかかるという点です。このオーバーヘッドは、多くの日常的な予測問題にとって意味がなく、たとえ小規模なネットワークであっても、ディープネットワークの調整による投資収益率は低すぎます。十分な予算と投資があったとしても、少なくともベンチマークとして代替アプローチを試さない理由はありません。線形 SVM で十分であることがわかれば、きっと驚かれることでしょう。

モデルのパラメータや機能の重要性を一般の人々に説明し、伝える

ディープネットワークは、予測力は高いが解釈可能性が低い、よく知られたブラックボックスでもあります。一部のドメインでは非常に便利なサリエンシーマップやアクティベーション差異などの最近のツールは数多くありますが、すべてのアプリケーションに完全に適用できるわけではありません。主に、これらのツールは、ネットワークがデータセットを記憶したり、特定の誤った特徴に焦点を当てたりしてユーザーを騙していないことを確認したい場合に適していますが、各特徴の重要性からディープネットワークの全体的な決定を解釈することは依然として困難です。この分野では、学習した係数が応答と直接関係しているため、線形モデルに勝るものはありません。これは、これらの解釈が一般の人々に伝えられ、それに基づいて決定を下す必要がある場合に特に重要です。

たとえば、医師は診断を確定するためにさまざまなデータを組み合わせる必要があります。変数と結果の関係がより単純で直接的であればあるほど、医師は実際の価値を過小評価したり過大評価したりするのではなく、その関係を有効活用しやすくなります。さらに、モデル（特にディープネットワーク）の精度が解釈可能性ほど重要でない場合もあります。たとえば、政策立案者は、何らかの人口統計変数が死亡率に与える影響を知りたいと考え、予測の正確さよりもその関係を直接近似することに関心があるかもしれません。どちらの場合も、ディープラーニングは、より単純で、より浸透性の高い方法に比べて不利です。

因果メカニズムの確立

モデルの解釈可能性の極端な例は、機械論的モデル、つまりデータの背後にある現象を実際に捉えるモデルを構築しようとする場合です。良い例としては、2 つの分子 (薬物、タンパク質、核酸など) が特定の細胞環境で互いに影響を及ぼし合うかどうかを推測したり、特定のマーケティング戦略が実際に売上に影響を与えるかどうかを仮説したりすることが挙げられます。専門家の意見によれば、この分野では昔ながらのベイズ法に勝るものはなく、因果関係を表現し推測するのに最適な方法なのです。 Vicarious には、このより原理的なアプローチが、ビデオゲームのタスクにおいてディープラーニングよりも優れたパフォーマンスを発揮する理由を示す優れた研究があります。

「非構造化」特徴の学習

これは議論の余地があるかもしれない。ディープラーニングが優れていると思う分野の 1 つは、特定のタスクに役立つデータの表現を見つけることです。この良い例は、上で述べた単語の埋め込みです。自然言語は、「コンテキスト認識型」ネットワークによって近似される豊かで複雑な構造を持っています。各単語は、頻繁に出現するコンテキストをエンコードするベクトルによって表すことができます。大規模なコーパスで学習した単語埋め込みを NLP タスクで使用すると、別のコーパスの特定のタスクのパフォーマンスが向上することがあります。ただし、問題のコーパスが完全に構造化されていない場合は、役に立たない可能性があります。

たとえば、構造化されていないキーワードのリストを見てオブジェクトを分類しているとします。キーワードは特定の構造 (文など) では使用されていないため、このような場合には単語の埋め込みはあまり役に立ちません。この場合、データはまさに「単語の集まり」であり、この表現はタスクには十分であると考えられます。対照的に、単語埋め込みはそれほど時間がかからず、事前にトレーニングされたものを使用すればキーワードの類似性をより適切に捉えることができます。ただし、Bag of Words 表現から始めて、適切な予測が得られるか確認したいと思います。結局のところ、この「単語の袋」の各次元は、対応する単語埋め込みスロットよりも解釈が容易です。

ディープラーニングは未来だ

ディープラーニングは現在非常に注目されており、十分な資金が投入され、急速に発展しています。会議で発表された論文を読んでいるときに、それを上回る新しいバージョンが 2 つまたは 3 つある場合があります。これは、私が上で挙げた点に対して大きな課題を提起します。近い将来、ディープラーニングはこれらのシナリオで非常に役立つ可能性があります。画像や離散シーケンスのディープラーニングモデルを解釈するためのツールはますます向上しています。 Edward などの最近のソフトウェアは、ベイズモデリングとディープネットワークフレームワークを組み合わせて、確率的プログラミングと自動変分推論によるニューラルネットワークパラメータの不確実性の定量化と単純なベイズ推論を可能にします。長期的には、深層ネットワークに顕著な特性を与える簡略化されたモデリングのライブラリが存在する可能性があり、それによって試行する必要のあるパラメータ空間が削減されます。したがって、arXiv の閲覧を継続的に更新してください。このブログ投稿の内容は 1 ～ 2 か月で古くなる可能性があります。

Edward は、確率的プログラミングと TensorFlow を組み合わせて、ディープラーニングとベイズモデルを考慮に入れています。

<<: 数時間のビデオを視聴するだけで人間のチャットを真似できますか? Facebookのロボットは表情が豊か

>>: JD.comの鄭志同氏：機械学習を使って何億もの商品データを最適化する方法