ディープラーニングに関しては、こちらをお読みください

編集者注: この記事の著者は、USTC のジュニアクラスの卒業生で投資家の Wang Chuan です。現在はカリフォルニア州シリコンバレーに住んでいます。彼の個人 WeChat ID は 9935070 です。36Kr は、彼の個人 WeChat 公開アカウント investguru からこの記事を転載する権限を有します。

1つ

2016年1月末、人工知能研究の分野で2つの大きな出来事が起こりました。

まず、1月24日、MIT教授であり人工知能研究の先駆者であるマービン・ミンスキー氏が89歳で亡くなりました。

3日後、グーグルはネイチャー誌に論文を公式発表し、ディープラーニング技術をベースにした同社のコンピュータープログラム「アルファ碁」が2015年10月にヨーロッパチャンピオンでプロ二段のファン・フイ氏を5連勝で破ったと発表した。

機械がプロの囲碁プレイヤーに勝利したのはこれが初めてだった。 1997年にIBMのコンピューターがチェスの世界チャンピオンを破ってからほぼ20年が経ちました。

皮肉なことに、ミンスキー教授はディープラーニングの概念に対して常に悲観的でした。彼は 1969 年に「パーセプトロン」という本を出版し、ニューラルネットワーク技術 (ディープラーニングの前身) の限界を指摘しました。この本は、ニューラルネットワーク研究の 20 年近くにわたる長期低迷に直接つながりました。

ニューラルネットワーク研究の歴史は何ですか?

ディープラーニングはどれくらい深いのでしょうか?どれくらい学びましたか？

二

人工知能の研究方向の 1 つは、多数の「If-Then」ルールによって定義される、いわゆる「エキスパートシステム」に代表されるトップダウン思考です。

人工ニューラルネットワーク (ANN) は、もう 1 つのボトムアップアプローチです。

ニューラルネットワークには厳密な正式な定義はありません。その基本的な特徴は、脳内のニューロン間で情報が伝達され、処理される方法を模倣することです。

ニューラルネットワークとして分類されるには、計算モデルには通常、相互接続された多数のノード (「ニューロン」とも呼ばれる) と次の 2 つの特性が必要です。

各ニューロンは、特定の出力関数（活性化関数とも呼ばれる）を通じて、他の隣接するニューロンからの重み付けされた入力値を計算して処理します。

ニューロン間の情報伝達の強さはいわゆる加重値によって定義され、アルゴリズムはこの加重値を継続的に学習して調整します。

これを基に、ニューラルネットワークの計算モデルはトレーニングに大量のデータに依存し、次のものも必要とします。

コスト関数: 特定の入力値に基づいて計算された出力が正しい値からどれだけ離れているか、またその結果がどれだけ信頼できるかを定量的に評価するために使用されます。

学習アルゴリズム：これは、コスト関数、自己学習、エラー修正、ニューロン間の最適な重み値を見つけるための最速の方法の結果に基づいています。

隣にいるシャオミン、シャオホン、ラオワンが理解できる言葉で説明すると、ニューラルネットワークアルゴリズムの核心は、計算、接続、評価、エラー修正、そしてクレイジートレーニングです。

ニューラルネットワークの研究が変化し続けると、その計算特性は従来の生物学的ニューロン接続モデルから徐々に切り離されていきます。

しかし、それが保持する本質は、非線形、分散、並列コンピューティング、自己適応、自己組織化です。

三つ

計算モデルとしてのニューラルネットワークの理論は、1943 年に科学者のウォーレンマカロックとウォルターピッツによって初めて提案されました。

1957 年にコーネル大学のフランク・ローゼンブラット教授によって提唱された「パーセプトロン」は、アルゴリズムを使用してニューラルネットワークを正確に定義した最初の数学モデルであり、自己組織化と自己学習の機能を備えた最初のモデルであり、将来の多くの新しいニューラルネットワークモデルの祖先です。

ローゼンブラットは、パーセプトロンが最終的には「学習し、決定を下し、言語を翻訳」できるようになると楽観的に予測しました。パーセプトロン技術は 1960 年代に人気があり、米国海軍は「将来的には歩く、話す、見る、読む、自己複製する、さらには自己認識を持つ」ことができるようになることを期待して、この技術の研究に資金を提供しました。

ローゼンブラット氏とミンスキー氏は実は高校に1学年違いで通っていた。しかし 1960 年代に、二人の人物がパーセプトロンの問題について長く激しい議論を交わしました。ローゼンブラットはセンサーが万能であると信じていたが、ミンスキーはセンサーの用途は限られていると信じていた。

1969 年、マービン・ミンスキー氏とシーモア・パパート氏は新しい本「パーセプトロン: 計算幾何学入門」を出版しました。この本では、パーセプトロンモデルの 2 つの重要な問題について説明します。

まず、単層ニューラルネットワークでは、非線形分離性の問題を解決できません。典型的な例は、XOR ゲートです。(わかりやすく言うと、XOR ゲートとは、2 つの入力が異性愛の場合、出力は 1、2 つの入力が同性愛の場合、出力は 0 を意味します。)

第二に、より致命的な問題は、当時のコンピューターでは、ニューラルネットワークモデルに必要な膨大な量の計算をまったく実行できなかったことです。

その後の約10年間、ニューラルネットワークベースの人工知能研究は低迷し、関連プロジェクトは長い間政府からの資金援助を受けることができませんでした。この時期は、業界の「核の冬」と呼ばれました。

ローゼンブラット自身は、ニューラルネットワーク研究の復興を見ることなく亡くなりました。 1971年、43歳の誕生日に、彼は残念ながら海上での航海中に事故で亡くなりました。

1970 年、ニューラルネットワーク研究にとって最初の厳しい冬が到来しました。英国エディンバラ大学では、23歳の若者ジェフリー・ヒントンが心理学の学士号を取得したばかりだった。

ヒントン氏は1960年代に高校生だった頃から脳科学に興味を抱いていた。当時、クラスメイトが彼に脳の記憶の理論を紹介しました。

脳内の物事や概念の記憶は、単一の場所に保存されるのではなく、ホログラムのように分散され、巨大なニューロンのネットワーク内に存在します。

分散表現は、ニューラルネットワーク研究の中心的な考え方です。

これは、概念を表現するときに、定義を 1 対 1 で保存するために単一のニューロンを使用するのではなく、概念とニューロンの関係が多対多であることを意味します。つまり、概念は複数のニューロンによって定義および表現でき、ニューロンは複数の異なる概念の表現にも参加できます。

最も簡単な例を見てみましょう。「大きな白いトラック」を分散的に表現する場合、1 つのニューロンがサイズを表し、1 つのニューロンが色を表し、3 番目のニューロンが車のカテゴリを表します。 3 つのニューロンが同時に活性化されると、表現したい対象を正確に記述することができます。

従来のローカライズされた表現と比較すると、分散表現はストレージ効率がはるかに高くなります。ニューロンの数が直線的に増加すると、指数関数的に増加するさまざまな概念を表現できます。

分散表現のもう 1 つの利点は、ローカルハードウェア障害が発生しても、情報の表現が根本的に破壊されないことです。

この概念によりヒントン氏はひらめきを得て、40 年以上もの間、後退することなくニューラルネットワークの研究分野に留まることができました。

ヒントン氏は学部卒業後、エディンバラ大学で大学院の研究を続けることを選択し、博士課程の研究分野として人工知能を選択しました。

私の周りの友人の中には、これにかなり困惑している人もいます。「あなたは頭がおかしいのですか？なぜこんなものに時間を無駄にしているのですか？それはでたらめだと証明されています。」

ヒントンは1978年にエディンバラで博士号を取得した後、研究を続けるためにアメリカに渡りました。

二

ミンスキーがニューラルネットワークについて批判した問題の 1 つは、膨大な量の計算が必要になることです。

簡単に言えば、従来のパーセプトロンがいわゆる「勾配降下法」アルゴリズムを使用してエラーを修正する場合、消費される計算量はニューロン数の 2 乗に比例します。ニューロンの数が増加するにつれて、必要な計算量が膨大になり、当時のハードウェアの能力を超えてしまいました。

1986 年 7 月、ヒントンとデイビッド・ルメルハートはネイチャー誌に「誤差逆伝播による表現の学習」という論文を発表しました。この論文では、ニューラルネットワークモデルにおける誤差逆伝播アルゴリズムの応用が初めて体系的かつ簡潔に説明されました。

バックプロパゲーションアルゴリズムは、エラー訂正計算の量をニューロン自体の数に比例したレベルまで削減します。

バックプロパゲーションアルゴリズムは、ニューラルネットワークにいわゆる隠れ層を追加することで、パーセプトロンが XOR ゲートを解決できない問題も解決します。

バックプロパゲーションアルゴリズムを使用するニューラルネットワークは、形状認識などの単純なタスクを実行する場合、パーセプトロンよりもはるかに効率的です。

1980 年代後半には、コンピュータの速度は 20 年前よりも数桁速くなりました。

ニューラルネットワークの研究が復活し始めました。

三つ

ヤン・ルカン（中国名は「ヤン・レチュン」）は、1960年にパリで生まれました。 1987年にフランスで博士号を取得した後、ヒントン教授に続いてトロント大学で1年間ポスドク研究員として働き、その後ニュージャージー州のベル研究所に移って研究を続けました。

ベル研究所で、ヤン・レチュンは 1989 年に「手書き郵便番号へのバックプロパゲーションアルゴリズムの適用」という論文を発表しました。彼は、米国郵政公社から提供された手書き数字のサンプル約 10,000 件を使用して、ニューラルネットワークシステムをトレーニングしました。トレーニングされたシステムのエラー率は、独立したテストサンプルではわずか 5% でした。

ヤン・レチュン氏はさらに、「畳み込みニューラルネットワーク」と呼ばれる技術を使用して、銀行小切手に手書きされた数字を読み取る商用ソフトウェアを開発しました。この小切手認識システムは、1990 年代後半に米国の市場の約 20% を占めました。

当時、ベル研究所では、ヤン・レチュンの近くのオフィスの同僚の仕事により、ニューラルネットワークの研究は二度目の寒い冬を迎えていました。

4つ

ウラジミール・ヴァプニクは1936年に旧ソ連で生まれ、1990年に米国に移住し、ベル研究所で研究を行った。

1963 年に、Vapnik はサポートベクターマシン (SVM) アルゴリズムを提案しました。サポートベクターマシンは洗練された分類アルゴリズムです。

基本的な線形分類に加えて、データサンプルが線形に分離できない場合、SVM は「カーネルトリック」と呼ばれる非線形マッピングアルゴリズムを使用して、線形に分離できないサンプルを高次元の特徴空間に変換し、線形に分離できるようにします。

SVM は分類アルゴリズムとして、1990 年代初頭から画像認識や音声認識に幅広く応用されてきました。

ベル研究所の廊下では、ヤン・レチュン氏とヴァプニック氏が（ディープ）ニューラルネットワークとSVM技術の利点と欠点について白熱した議論を交わしていた。

Vapnik 氏の見解は、SVM は「容量制御」において適切なバランスポイントを非常に巧みに選択するが、これはニューラルネットワークが得意としない点であるというものです。

「容量規制」とは何ですか？簡単な例を挙げると、アルゴリズムの容量が大きすぎると、非常に正確な記憶力を持つ植物学者のようになります。植物学者は新しい木を見ると、その木の葉の数が以前見た木と異なるため、木ではないと判断します。アルゴリズムの容量が小さすぎると、緑色のものはすべて木と呼ぶ怠惰な植物学者のようになります。

ヤン・レチュン氏の見解は、限られた計算能力を使って非常に複雑な問題を解決することが「容量規制」よりも重要であるというものです。サポートベクターマシンは洗練されたアルゴリズムを備えていますが、本質的には 2 層のニューラルネットワークシステムです。その最大の制限は「核メカニズム」の選択にあります。画像認識技術でノイズ信号を無視する必要がある場合、畳み込みニューラルネットワーク技術は SVM よりもはるかに高い計算効率を発揮します。

手書き郵便番号認識の問題では、SVM 技術は継続的に改善され、1998 年にはエラー率が 0.8% 未満に低下し、2002 年には最低 0.56% に達し、同時期の従来のニューラルネットワークアルゴリズムのパフォーマンスをはるかに上回りました。

実際のニューラルネットワーク計算には、他に 2 つの大きな問題があります。

まず、アルゴリズムはグローバル最適値ではなくローカル最適値で停止することがよくあります。これは「木だけを見て森全体を見ていない」ようなものです。

第二に、アルゴリズムのトレーニング時間が長すぎると、過剰適合が発生し、ノイズが有効な信号と誤認されることになります。

<<: 資本が投資している人工知能は本当に人工知能なのでしょうか？ 3分で機械学習とは何かを理解する

>>: 人工知能の時代では、ロボットがあらゆる面で人間に取って代わっている