金属の巨人からディープラーニングまで、人工知能の（ごく）短い歴史

[[202011]]

クレタ島を海賊や侵略者から守るために、人々は巨大な青銅の戦士タロスを創造しました。彼は毎日島を3回周回し、その勇敢な姿は海賊たちを非常に怖がらせたので、彼らは別の場所を探さざるを得ませんでした。しかし、タロスは勇敢な外見の下に、いわゆる「戦士の心」を持っておらず、単なるロボットです。かかしと同じように、この勇敢な姿を外の世界に見せるためだけに生まれてきたのです。しかし、信者たちは、職人がタロスのような作品に本当の心、感情、考え、知恵を吹き込んだと信じています。もちろんこれは真実ではありません。タロスは、人類の歴史のほぼ全体に浸透してきた夢、つまり、私たちと同じくらい生き生きとした知的生命体を創造したいという私たちの願いが具現化したものに過ぎません。

科学者、数学者、哲学者、さらには作家でさえも、いわゆる「考える機械」をどうやって作るかについて長い間考え続けてきました。同時に、人間自身以上に「考える機械」に似たものは何でしょうか?

タロスのような動く機械が生まれて以来、周囲の職人たちは単なる「擬人化された」知恵には興味がなくなり、真の知恵を追求するようになった。これらの「脳のない」ロボットは、知恵の表面を垣間見せるだけで、知恵の本質を明らかにしてはくれません。これを実現するには、知恵の最も明確な現れである人間の心を活用する必要があります。

人々はすぐに、人間と他の知能の低い生き物との最大の違いは、脳の大きさや地球上での生存期間ではなく、単に優れた推論能力にあることに気づきました。したがって、最初のプログラム可能なコンピューターが考案されたとき、私たちは、そのようなコンピューターが、少なくとも人間が推論できるのと同じくらい、あらゆる形式の推論をシミュレートできると当然考えていました。実際、「コンピュータ」という言葉が初めて使われたのは 1640 年代のイギリスで、当時は「計算ができる人」という意味で使われていました。

当初、プロセスは非常にゆっくりと進行しました。 1940 年代、最も先進的なハーバードマーク I は、何千もの機械部品で駆動される 10,000 ポンドの巨大な機械でした。機械を動かすために、内部には合計 500 マイルのケーブルが使用されました。精巧な設計にもかかわらず、このマシンは 1 秒間に 3 回の加算しか実行できませんでした。しかし、ムーアの法則の影響により、コンピューターはすぐに、形式的推論のさまざまなタスクを実行する上で人間の能力を超えるパフォーマンスを達成しました。研究者たちは進歩に驚き、このまま開発が続けば、最初の本当に完璧な「考える機械」が現実のものとなるのは時間の問題だと主張している。 1960 年代には、20 世紀の有名な学者ハーバート・サイモンが「20 年後には、機械が人間が行える仕事をすべてこなせるようになる」とさえ宣言しました。悲しいことに、この予言は衝撃的ではあったものの、実現しませんでした。

コンピュータは、一連の論理的および数学的ルールを通じて定義できる問題を解決するのが実に得意ですが、より大きな課題は、写真内の顔の認識や人間の言語の翻訳など、この「宣言的」方法では要約および洗練できない問題をコンピュータが解決できるようにすることです。

世界は混沌としており、機械は人間よりもチェスが上手で、チェスのチャンピオンシップで優勝することさえできるかもしれませんが、現実の世界では、機械はゴム製のアヒルと同じくらい役に立ちません (ゴム製のアヒルをデバッグする場合は別ですが、その場合は別の話です)。

このことに気付いた後、AI 分野の多くの研究者は、シンボリック AI (AI 研究の分野で現在も主流となっている形式的推論方法を表す包括的な用語) が人工知能マシンを作成するための最良の方法であるという原則を否定し始めました。状況計算や一階述語論理などのシンボリック AI の基礎は、現実世界のすべての不確実性に対応するには形式的かつ厳格すぎることが判明しました。新しいアプローチが必要です。

一部の研究者は、より巧妙な「ファジー論理」を通じて答えを探すことにしました。ファジー論理では、真の値は単純に 0 と 1 ではなく、これら 2 つの数値の間の任意の値になります。さらに他の研究者は、「機械学習」などの他の新興分野に焦点を当てることに決めました。

機械学習は形式論理の欠点を補い、現実世界の不確実性の問題をうまく解決することができます。このアプローチでは、現実世界に関するすべての知識を一連の厳密な論理式に「ハードコーディング」する必要はなく、代わりにコンピューターに必要な知識を独自に導き出すことを教えます。つまり、コンピュータに「これは椅子です」または「これはテーブルです」と伝える代わりに、椅子とテーブルの概念を区別する方法をコンピュータに学習させることができます。機械学習分野の研究者は、世界全体を記述するために決定論的な概念を使用しないように注意しています。なぜなら、そのような厳密な記述特性は現実世界の性質に完全に反するからです。

そこで彼らは、統計と確率の言語を使って世界全体を記述することに決めました。

機械学習アルゴリズムは、真実と虚偽を理解する必要はなく、真実と虚偽の度合い、つまり確率だけを理解する必要があります。

確率を使用して現実世界に存在する不確実性を数値的に理解するというこの考え方により、ベイズ統計は機械学習の基礎となりました。「頻度主義者」はこれに関して異なる見解を持っていますが、この意見の相違については別の記事で紹介する価値があります。

近い将来、ロジスティック回帰や単純ベイズなどの単純な機械学習アルゴリズムによって、コンピューターが正当な電子メールとスパムを区別したり、家の面積に基づいてその価格を予測したりできるようになるでしょう。ロジスティック回帰は非常に単純なアルゴリズムです。入力ベクトル x が与えられると、モデルは x を複数のカテゴリ {1、2、…、k} の 1 つに直接分類します。

しかし、これは問題を引き起こします。

この単純なアルゴリズムの有効性は、使用されるデータ表現に大きく依存します (Goodfellow et al. 2017)。

この問題をよりよく理解するために、ロジスティック回帰を使用して帝王切開を推奨するかどうかを決定する機械学習システムを構築することを想像してみましょう。システムは母親を直接診察することはできないため、医師が提供する情報に基づいて判断する必要があります。この情報には、子宮瘢痕の有無、妊娠月数、母親の年齢などが含まれる場合があります。それぞれの情報は特徴としてカウントすることができ、異なる特徴を組み合わせることで、AI システムは母親の特性を完全に理解することができます。

トレーニングデータを提供することで、ロジスティック回帰アルゴリズムは、さまざまな母親の特性とさまざまな結果との関係を学習できます。たとえば、アルゴリズムはトレーニングデータから、母親の年齢が上がるにつれて出産中の「吐き気や嘔吐」のリスクが増すことを発見できるため、高齢の母親に自然分娩を推奨する確率が低くなります。

ロジスティック回帰は表現を結果にマッピングできますが、実際にどの特徴が母性表現を構成するかを判断することはできません。

ロジスティック回帰アルゴリズムに医師からの正式なレポートではなく患者の MRI スキャンを直接入力すると、アルゴリズムは有用な予測を提供できなくなります (Goodfellow ら、2017)。

MRI スキャン結果の各ピクセルを単に見るだけでは、出産時に発生する合併症の可能性を判断することはほとんどできません。

十分に良い表現と十分に良い結果の間のこの依存関係は、コンピューターサイエンスや私たちの日常生活のいたるところに見られます。たとえば、Spotify ではどんな曲でもほぼ瞬時に見つけることができます。Spotify の音楽ライブラリは、順序付けられていない配列などの一般的な単純な構造ではなく、3 値検索トライなどのスマートなデータ構造を使用して保存されている可能性が高いためです。別の例: 小学生はアラビア数字を使って簡単に数学の計算ができますが、ローマ数字を使うと状況はまったく異なります。機械学習でも同じことが言え、入力表現の選択は学習アルゴリズムの有効性に大きな影響を与えます。

図 1.1: さまざまな表現の例: 2 種類のデータを分離するために散布図に線を引く必要があるとします。左の図では、このデータを表すために直交座標を使用していますが、これは現時点ではほとんど不可能です。右の図では、同じデータに対して極座標を使用しており、垂直線で問題を解決できます。この画像は David Warde-Farley との共同制作です。

デビッド・ウォード・ファーリー、グッドフェロー他 2017

したがって、人工知能の分野における多くの問題は、入力データのより適切な表現を見つけることによって実際に簡素化することができます。たとえば、Instagram の写真に写っているハンバーガーを認識することを学習するアルゴリズムを設計するとします。まず、すべてのハンバーガーを記述する特徴セットを構築する必要があります。最初は、画像内の生のピクセル値を使用してハンバーガーを説明するかもしれませんが、それは最初は合理的に思えるかもしれませんが、すぐにそうではないことがわかります。

生のピクセル値だけに基づいてハンバーガーの見た目を説明するのは困難です。マクドナルドでハンバーガーを注文する自分を想像してみてください（まだマクドナルドで食事をしているなら）。チーズ、ミディアムレアのパティ、ゴマ入りバンズ、レタス、赤玉ねぎ、さまざまなソースなど、さまざまな「特徴」を使って、ハンバーガーの希望を伝えることができます。この状況を考慮すると、おそらく同様の方法で必要な機能セットを構築できるでしょう。ハンバーガーはさまざまな材料の集合体として説明することができ、それぞれの材料は独自の特徴のセットによって説明できます。ハンバーガーの材料のほとんどは、その色と形で説明できます。また、ハンバーガー全体も、さまざまな材料の色と形で説明できます。

しかし、ハンバーガーが写真の中央になく、周囲に似た色の物体があったり、ハンバーガーが「組み立てられていない」まったく別のレストランで提供されていたりしたらどうなるでしょうか。アルゴリズムはどのようにしてこれらの色や幾何学的形状を区別できるでしょうか。最も明白な解決策は、間違いなく、より多くの (識別用の) 機能を追加することですが、これは一時的な対策にすぎません。すぐに、より多くのエッジケースに遭遇し、類似した画像を区別するためにより多くの機能を追加する必要があります。入力の表現が複雑になるにつれて、計算コストが増加し、状況はより困難になります。したがって、実践者は現在、量だけでなく、入力表現におけるすべての機能の表現力にも焦点を当てる必要があります。どの機械学習アルゴリズムでも、完璧な特徴セットを見つけることは複雑なプロセスであり、多くの時間と労力を要し、経験豊富な研究者の何十年もの時間が必要になることもあります。

学習アルゴリズムへの入力としてデータを最適に提示する方法を決定することは、専門用語で言うところの「表現」問題です。

1990 年代後半から 2000 年代初頭にかけて、不完全な入力表現における機械学習アルゴリズムの限界が AI の開発に大きな障害となっていました。入力機能の表現を設計する際、エンジニアはこれらの制限を克服するために、人間の創意工夫と問題領域を取り巻く事前の知識に頼るしかありません。このような「特徴エンジニアリング」は長い間、受け入れられませんでした。学習アルゴリズムが、フィルタリングされていない生の入力データから洞察を抽出できない場合、より哲学的な言葉で言えば、私たちの世界を理解することはできません。

研究者たちはこれらの困難に直面して、すぐに対処法を発見しました。機械学習アルゴリズムの目標が表現を出力にマッピングすることを学習することであるならば、表現自体を学習することをアルゴリズムに教えたらどうでしょうか?このアプローチは表現学習とも呼ばれます。おそらく最もよく知られている例は、オートエンコーダ、ニューラルネットワーク、人間の脳と神経系をモデルにしたコンピュータシステムです。

オートエンコーダは、実際にはエンコーダ関数とデコーダ関数の組み合わせです。エンコーダ関数は入力データをさまざまな表現に変換する役割を担い、デコーダ関数は中間表現を元の形式に戻し、その過程で可能な限り多くの情報を保持する役割を担います。これにより、エンコーダーとデコーダーの間に分割が作成され、入力された「ノイズ」画像をより有用な表現にデコードできるようになります。たとえば、ノイズの多い画像としては、似たような色の物体に囲まれたハンバーガーの Instagram 写真などが考えられます。デコーダーはこの「ノイズ」を除去し、ハンバーガー自体を説明するために必要な画像の特徴だけを保持することができます。

Chervinskii による自作、CC BY-SA 4.0 ライセンス。

しかし、オートエンコーダを使用しても、問題は依然として存在します。ノイズを除去するには、オートエンコーダ (およびその他の表現学習アルゴリズム) が、入力データを記述する上で最も重要な要素を正確に判断できる必要があります。私たちは、アルゴリズムが適切な要素を選択して、本当に興味深い画像（ハンバーガーの画像など）をより適切に識別し、興味深くない画像を除外できるようにしたいと考えています。ハンバーガーの例では、生のピクセル値だけではなく、画像内のさまざまな要素の形状と色に重点を置くと、ハンバーガーを含む画像とハンバーガーを含まない画像をより適切に区別できることを示しました。しかし、言うのは簡単ですが、実行するのは難しいものです。重要なのは、アルゴリズムに重要な要因と重要でない要因を解釈する方法を教えることです。つまり、いわゆる変動要因を認識するようにアルゴリズムに教えることです。

一見すると、表現学習はこの問題の解決策には思えないかもしれませんが、詳しく見てみましょう。

エンコーダーは入力の表現を受け取り、それを隠し層 (中間層) に渡すことで、わずかに小さい形式に圧縮します。デコーダーはそれと全く逆のことを行います。つまり、入力を元の形式に解凍し、可能な限り多くの情報を保存します。どちらの場合も、隠れ層が入力内容を説明する上でどの要素が最も重要であるかを認識し、この層を通過する過程でこれらの要素が入力データから除去されないようにすれば、入力データに含まれる情報は最大限に保持されます。

上記の例では、エンコーダーとデコーダーにはそれぞれ 1 つの隠し層のみが含まれています。1 つは圧縮用、もう 1 つは解凍用です。この粗粒度のレイヤー数は、最大量の情報を保持するために入力データを最適に圧縮および解凍する方法を決定する際に、アルゴリズムに十分な柔軟性がないことを意味します。しかし、複数の隠し層を導入し、それらを順番に積み重ねることで設計を少し調整すると、アルゴリズムは重要なものを選択する際に、入力データを圧縮および解凍する最適な方法についてより多くの決定を下すことができます。

ニューラルネットワークで複数の隠し層を使用するこのアプローチは、ディープラーニングと呼ばれます。

しかし、物語はまだ終わっていません。ディープラーニングはさらに先に進むことができます。複数の隠しレイヤーを使用した後、より単純なレイヤーを構築するだけで複雑な表現を構築できます。隠し層を順番に積み重ねることで、各層の要因の新しいバリエーションを識別でき、アルゴリズムはより単純な層でより複雑な概念を表現できるようになります。

ザイラーとファーガス（2014）

ディープラーニングには長く奥深い歴史があります。この分野の中心的なアイデアは、1960 年代に多層パーセプトロンの形で最初に開発され、その後 1970 年代にはより実用的なバックプロパゲーションアルゴリズムが開発され、1980 年代には人工ニューラルネットワークが開発されました。長い歴史があるにもかかわらず、これらの技術が実用化されるまでには数十年かかりました。これらのアルゴリズムは、（多くの人が考えているにもかかわらず）本質的に悪いわけではありません。ただ、役に立つためにはどれだけのデータを提供する必要があるのかを私たちは認識していないだけです。

データサンプルが小さいと、統計ノイズの影響により極端な結果が得られる可能性が高くなります。ただし、データ量が増えればノイズの影響が軽減され、ディープラーニングモデルは入力データに最も適した記述要素をより正確に判断できるようになります。

21 世紀初頭にディープラーニングがようやく普及し、同時に多くの大手テクノロジー企業が未開発のデータの金鉱の上に座っていることに気づいたのは間違いありません。

<<: 人工知能の長所と短所について知っておくべき10の事実

>>: Raft アルゴリズムの原理と CMQ への応用 (パート 2)