ニューラルネットワークの不気味な評判

[[185985]]

ニューラルネットワークが無限のトリックを実行するのを見ると、最近ではディープラーニングに魅了されないことは不可能です。私の意見では、ニューラルネットワークが優れている理由は少なくとも 2 つあります。

（１）ニューラルネットワークは弱い事前分布から学習して、自然関数の多くの優れたモデルを構築することができる。

階層的な分散表現と高速な GPU 最適化勾配計算を組み合わせるというアイデアは非常に強力です。初期のニューラルネットワークは局所的な停滞の問題を抱えていましたが、より深いネットワークをトレーニングする機能によってこの問題が解決され、バックプロパゲーションが注目されるようになりました。シンプルなアーキテクチャ上の決定を通じて少量の専門知識を蓄積した後、ディープラーニングの実践者は、強力なパラメーター関数とそれらを最適化するための実用的な方法のセットを手に入れました。

最初のアーキテクチャ上の決定は、畳み込み構造または再帰構造を使用して、空間的および時間的に不変なモデル入力を供給することです。これだけでも、ニューラルネットワークは画像分類、音声認識、機械翻訳、Atari ゲーム、その他多くの分野で非常に優れています。最近では、入力データにトップダウンの注意を集中するメカニズムが画像や自然言語のタスクでその価値を示しており、テープやスタックなどの微分可能なメモリモデルでは、ネットワークが入力と出力のペアのみで単純なアルゴリズムからルールを学習することさえ可能になっています。

（２）ニューラルネットワークは驚くほど有用な表現を学習できる

コミュニティは依然として教師なし学習の出現を熱心に待ち望んでいますが、深層教師あり学習は、一般化可能で解釈可能な機能を構築する上で優れた能力を発揮しています。つまり、ニューラルネットワークが P(y|x) を予測するようにトレーニングされるときに学習される特徴は、多くの場合解釈可能であり、他の関連する関数 P(z|x) をモデル化するのに非常に役立ちます。

以下にいくつか例を挙げます。

1) シーンを分類するように設計された畳み込みニューラルネットワークのユニットは、明示的にトレーニングされていない場合でも、多くの場合、そのシーン内の特定のオブジェクト（灯台など）を学習できます（Zhou et al.、2015）。

2) 画像分類ネットワークの基礎となる相関係数は、画像の芸術的なスタイルを驚くほど正確に表すことができ、1 つの画像から他のスタイルを使用して新しい画像を合成するために使用できます (Gatys ら、2015)。

3) リカレントニューラルネットワーク（記事の最後で修正）は、文中の欠落した単語を予測するようにトレーニングされており、意味のある単語の組み合わせを学習でき、単純なベクトル演算を使用して意味の類似性を見つけることができます。例えば：

vking - vman + vwoman ≈ vqueen
vパリ - vフランス + vイタリア ≈ vローマ
vWindows - vMicrosoft + vGoogle ≈ vAndroid

今後数年間で、ニューラルネットワークはより多くのタスクに使用され、産業界にさらに深く統合され、新たな超能力で研究者を驚かせ続けることは間違いありません。これは確かに理にかなっていますし、ディープラーニングの現在および将来の影響を軽視するつもりはありません。しかし、これらのモデルの知能に関する楽観論は心配であり、1960 年代の AI の冬を彷彿とさせます。

過去数年間の進歩から推測すると、ディープストロング AI はもうすぐそこまで来ており、それを実現するには、さらにいくつかのアーキテクチャ上のトリック、より大きなデータセット、より強力なコンピューティングパワーが必要になるだけだと考えられます。懐疑的になるには2つの大きな理由があると思います。

まず、機械が幅広い知能を持つ、あるいは単一のタスクに基づいてそのような知能を獲得する能力を持つと期待するのは誤った考えです。チェッカーをプレイする機械は 1950 年代に研究者を驚かせ、多くの人がそれを人間レベルの推論への大きな一歩と見なしましたが、現在では、このゲームで人間または超人的なパフォーマンスを達成することは、人間レベルの強力な知能を達成するよりもはるかに簡単であることがわかっています。実際、最も優秀な人間でも、単純なヒューリスティック検索アルゴリズムによって簡単に打ち負かされる可能性があります。このアルゴリズムは、表面的には非常にスマートに見えても、機械知能の長期的な目標には貢献しない可能性があります。これは、1980 年代のエキスパートシステムなど、人工知能の他の分野でも同様です。ほとんどのタスクでは、人間レベルまたは超人的なパフォーマンスは、必ずしも人間に近い機能を実現するための必要な足がかりではありません。

同様に、解釈可能な単語の組み合わせを学習するニューラルネットワークの能力は、それが人間レベルで世界を理解するための適切なツールであることを意味するものではありません。これらの目的のある統計モデルが、より豊かな世界認識を必要とせずに、テキストのみから意味のある関係性を学習できることは印象的で驚くべきことですが、これはモデルの能力ではなく、タスクの予想外の単純さを物語っているのかもしれません。たとえば、チェッカーをプレイするマシンはツリー検索を実行することで勝つことができ、同様にテキストデータから多くの意味関係を学習できます。これらは両方とも素晴らしいインテリジェントな動作をしますが、どちらも真の機械知能を実現する方法ではありません。

私は特に、ニューラルネットワークの強みとそれが人間の知能とどのように関係しているかを強調したいと思います。ディープラーニングは、驚くべき識別モデル、生成モデル、特徴抽出を生み出してきましたが、それらすべてに共通するのは、非常に大規模なトレーニングデータセットが必要であることです。 n と d が非常に高い場合、強力な一般パターン認識ツールとして機能します。これはおそらくこのパラダイムにおける最良のツールです。

これは、脳が解決できる特定の種類の問題、つまり、感覚を通じて受け取る大量のデータを継続的に記述するための適切な表現を見つけるという問題に適しています。感覚が環境から情報を取り込む前に、視覚と聴覚のシステムが生のピクセルと音波からのデータを折り曲げたり、引き伸ばしたり、ねじったりして、信号内の複雑な統計パターンをよりよく捉えられる形にする必要があります。この能力がゼロから学習されたものであろうと、進化を通じて発達したものであろうと、脳はこの問題を解決するのが得意です。実際、脳によって発見された表現はニューラルネットワークによって発見されたものとそれほど変わらないという新たな証拠があります。ディープラーニングは、多くの認識問題に対する素晴らしい出発点を提供できると思います。

つまり、この高 n、高 d パラダイムは非常にアドホックであり、広範囲のインテリジェントな動作を記述するのにはあまり適していません。人間の心のさまざまな側面には、新しい目標を達成するための計画を立てること、他人の行動からその意図を推測すること、世界のルールを説明する構造化された理論を学ぶこと、それらの理論をテストするための実験を考案すること、そしてたった 1 つの例から新しい種類の物体を認識することを学ぶことなどが含まれます。多くの場合、少量の観測データから導き出された不確定性原理の推論がいくつかあります。ニューラルネットワークは多くの成果を上げていますが、その価値が証明されたのは、上記とは異なる基本的なタスクにおいてのみです。彼らがあらゆる面で成功しているように見えるのは、何百もの例から学んだからであり、人間はそうしません。

ディープラーニングは機械知能への道を示し、私たちは現在、さまざまなツールを利用できるようになっています。大量のデータを使用して弱い事前確率から高次元の優れた特徴を学習する能力は、新しくて魅力的な機能ですが、インテリジェントエージェントが直面するほとんどの問題がこの方法で解決できるとは想定しないでください。ニューラルネットワークの勾配降下法は、思考マシンの構成要素の構築には役立つかもしれませんが、それ自体で考えることはできません。

訂正: 単語の類推を生成するために使用されるモデルは、実際には対数線形スキップグラムモデルであり、負のサンプル内の隣接する単語のペアを区別するために使用されます (Mikolov ら、2013)。訂正していただき、誠にありがとうございます。

<<: 人工知能の時代では、科学技術分野の人材は職を失うのでしょうか？

>>: Google、ファイルサイズを35%削減できる新しいJPEGアルゴリズムをオープンソース化