ディープラーニングは限界に達したのか？

[[255738]]

ビッグデータダイジェスト制作

編集者: Xiao Jiang、lvy、Wang Jiayi

人工知能は多くの波を経て、今回新たな躍進を遂げることができるのでしょうか？それとも歴史は繰り返されるのでしょうか？年末から来年初めにかけて、この記事の著者であるトーマス・ニールドはイギリスの歴史から始めて、人工知能とは何か、そしてこの人工知能の波は何が違うのかを探りました。

多くの人は、アルゴリズムが人間の認知能力を超えるだろうと信じている。機械は人間の介入なしにタスクを識別し学習することができ、大規模に労働者に取って代わるだろう。機械はそもそも「考える」ことができる。ロボットを配偶者にできるかどうかという疑問さえ提起する人も多い。

しかし、これは新しい考えではありません。1960年代初頭には、人工知能の先駆者であるジェローム・ウィーズナー、オリバー・セルフリッジ、クロード・シャノンは、これが近い将来に起こると確信していました。

1973 年に早送りすると、英国では AI の誇大宣伝が裏目に出ました。

この AI ブームに、英国議会も無関心でいるわけにはいきませんでした。当時の人工知能の専門家、ジェームズ・ライトヒル卿に、英国における AI 研究の現状に関する報告書の作成を依頼したのです。

この研究報告の中で、ジェームズ・ライトヒルは当時大きな期待が寄せられていた人工知能研究を激しく批判した。ライトヒル氏はまた、専門のプログラム（または人間）が「AI」よりも優れたパフォーマンスを発揮できることにも言及した。

この報告書はライトヒル報告書として知られるようになり、この報告書が原因で当時の英国政府は AI 研究への資金提供をすべて中止しました (英国の研究は 1980 年代に再び活発化し、日本の第 5 世代コンピュータプロジェクトに対抗する形でアルヴィープロジェクトが開始されました)。

当時のライトヒル報告書に関する議論を見るにはクリックしてください: https://youtu.be/03p2CADwGF8

[[255739]]

1965年の画期的な「MAC Hack VI」

大西洋の向こう側では、米国防総省が AI 研究に多額の投資を行ったものの、AI の能力の誇張、利益のない高コスト、現実世界での価値の見通しの疑問など、同様の挫折により、そのほとんどを中止しました。

1980年代、日本は第5世代コンピュータプロジェクトで「AI」を積極的に推進しようとした。しかし、最終的には8億5000万ドルの失敗作となった。

最初のAI冬

最初の AI の冬は 1980 年代後半に到来しました。これはコンピューターサイエンスの暗黒時代であり、組織や政府は「AI」研究の失敗と埋没コストに直面し、AI研究は数十年にわたって停滞しました。

1990年代初頭までに、「AI」は汚い言葉となり、その状態は2000年代まで続きました。「AIは機能しない」という認識が広まっています。一見インテリジェントなプログラムを作成するソフトウェア企業は、「検索アルゴリズム」、「ビジネスルールエンジン」、「制約ソルバー」、「オペレーションズリサーチ」などの用語を使用します。これらの貴重なツールは確かに AI 研究から生まれたものですが、より大きな目的を達成できなかったため、現在は名前が変更されていることは言及する価値があります。

しかし、2010年頃から状況は変わり始めました。 AIへの関心が再び急速に高まり、画像分類のコンテストがメディアの注目を集めています。シリコンバレーは初めて、十分な量のデータを使用してニューラルネットワークを機能させることができました。

2015年までに、「AI」研究は多くのフォーチュン500企業で巨額の予算を獲得しました。多くの場合、これらの企業は実際のユースケースよりも FOMO (取り残される恐怖) に駆り立てられ、自動化された競合他社に遅れをとることを恐れています。結局のところ、ニューラルネットワークに画像内のオブジェクトを認識させるというのは、かなりすごいことです。専門家でない人にとっては、SkyNet の機能が間違いなく次に来るでしょう。しかし、これは本当に真の人工知能への一歩なのでしょうか、それとも歴史は繰り返されているのでしょうか?

では、AIとは何でしょうか?

長い間、私は「人工知能」という言葉が好きではありませんでした。

それはあまりにも漠然としていて難解であり、科学者よりもマーケティング担当者によって定義されています。もちろん、変化を促進し、新しい考え方を取り入れるためには、マーケティングや流行語が不可欠だと言えます。しかし、流行語が混在すると、必然的に混乱が生じます。私の新しい Asus スマートフォンには「AI 着信音」機能があると言われており、周囲の騒音の中でも十分な音量になるように着信音の音量を動的に調整できるようになっています。一連の「if」条件や単純な線形関数でプログラムできるものはすべて「AI」と呼ばれるのだと思います。

これを踏まえると、「AI」の定義が広く議論されているのも不思議ではありません。私は、AI ソリューションは非決定的な答えや避けられない誤差がある問題に適していると述べている Geoffrey De Smet の定義が好きです。これには、機械学習から確率や検索アルゴリズムに至るまでのツールが含まれます。

AI の定義は画期的な開発のみを含むように進化し続けており、過去の成功 (光学文字認識や言語翻訳など) はもはや「AI」とは見なされなくなっているとも言えます。したがって、「人工知能」は絶対的な用語ではなく、相対的な用語である可能性があります。

近年、「AI」は「ニューラルネットワーク」と関連付けられることが多く、この記事ではこれに焦点を当てます。他の機械学習モデル (Naive Bayes、サポートベクターマシン、XGBoost) から検索アルゴリズムまで、他の「AI」ソリューションも存在します。しかし、ニューラルネットワークは、おそらく現在最も注目されているテクノロジーです。

人工知能の「ルネサンス」？

2010 年以降、AI の台頭により、分類という新しい種類のタスクが簡単に習得できるようになりました。より具体的には、ニューラルネットワークのおかげで、科学者は画像や自然言語を含むほとんどの種類のデータを分類する効果的な方法を開発しました。自動運転車も分類タスクであり、周囲の道路の各画像を一連の個別のアクション（アクセル、ブレーキ、左折、右折など）に変換できます。この仕組みの簡単な紹介については、ビデオゲーム AI の作成方法に関するこのチュートリアルをご覧ください。

(https://v.qq.com/x/page/x0827h24k33.html)

私の意見では、自然言語処理は純粋な分類よりもはるかに優れています。これらのアルゴリズムが知覚を持っていると信じるのは簡単ですが、よく見ると、意識的に構築された思考ではなく、言語パターンに依存していることがわかります。

おそらく最も印象的な自然言語処理技術は Google Duplex です。これにより、Android スマートフォンから、特に予定の電話を自動でかけることができます。 Google は「AI」をトレーニングし、構造化し、おそらくはハードコードしました。確かに、偽の発信者は間を置いても自然な話し方をしていた。「あー」や「うーん」といった表現もありますが、これも実際の推論や思考ではなく、発話パターンの操作によって行われます。

これらはすべて非常に印象的で、間違いなく役立つ用途がいくつかあります。しかし、私たちは期待を調整し、「ディープラーニング」の能力を誇張するのをやめる必要があります。そうしないと、私たちは再び AI の冬を迎えることになるかもしれません。

歴史は繰り返す

NYU の Gary Marcus 氏は、ディープラーニングの限界についての記事を書き、いくつかの厳しい指摘をしました (この記事が話題になった後、同氏は同様に興味深い続編を書きました)。ロドニー・ブルックス氏はタイムラインを作成し、引用された研究に基づいて AI のハイプサイクル予測を追跡しました。

懐疑論者には共通点がいくつかあることが多い。ニューラルネットワークには大量のデータが必要ですが、今日でもデータは限られています。 YouTube で見られる「ゲーム」AI の例では、ニューラルネットワークが勝利パターンを見つけるまで何日もゲームに負け続けることが多いのはこのためです。

私たちは本当に期待を下げ、「ディープラーニング」の能力を誇張するのをやめる必要があります。そうしないと、私たちは再び AI の冬の真っ只中にいることになるかもしれません。

ニューラルネットワークが「深い」のは、問題を深く理解しているからではなく、ノードの層が多数あるからです。これらのレイヤーにより、開発者にとってもニューラルネットワークを理解するのが難しくなります。さらに、ニューラルネットワークは、巡回セールスマン問題などの他の問題領域に入ると、収穫逓減に陥ります。検索アルゴリズムの方が簡単で、効率的で、スケーラブルで、経済的なのに、なぜ巡回セールスマン問題を解決するのにニューラルネットワークを使用するのでしょうか?

もちろん、ニューラルネットワークを使用して他のより複雑な問題を解決したいという人もいますが、これは興味深いことですが、ニューラルネットワークが特殊なアルゴリズムを上回るパフォーマンスを発揮するのは難しいようです。

ルーク・ヒューイットは、自身の記事「ニューラルネットワークの不当な評判」の中で、これを最もよく説明しています。

直感に基づいて、機械が単一のタスクに対してどれだけ知的であるか、またはどれだけ有能であるかを判断するのは良い考えではありません。 1950 年代にチェッカーをプレイした機械は研究者を驚かせ、多くの人がこれを人間レベルの推論能力の大きな進歩だと考えましたが、現在では、このゲームで人間または超人的なパフォーマンスを達成することは、人間レベルの汎用知能を達成するよりもはるかに簡単であることがわかっています。実際、最も優秀な人間でも、単純なヒューリスティック検索アルゴリズムによって簡単に打ち負かされる可能性があります。あるタスクにおける人間または超人的なパフォーマンスは、必ずしもほとんどのタスクにおける人間に近いパフォーマンスへの足がかりとなるわけではありません。

ニューラルネットワークをトレーニングするには、大量のハードウェアとソフトウェアが必要であることに注意することが重要です。私にとって、これは持続不可能です。もちろん、ニューラルネットワークの予測精度は、トレーニング時よりもはるかに高くなります。しかし、ニューラルネットワークの精度を向上させるには、継続的にトレーニングする必要があり、トレーニング中に消費されるエネルギーとコストは指数関数的に増加します。確かに、コンピューターは高速化しているが、チップメーカーはムーアの法則を維持し続けることができるだろうか?

それは理にかなっています。検索アルゴリズムの方が簡単で、効率的で、スケーラブルで、経済的なのに、なぜ巡回セールスマン問題を解決するのにニューラルネットワークを使用するのでしょうか?

これらの理由から、私は新たな AI の冬が来ると信じています。こうした限界を指摘する専門家やブロガーが増えています。企業は依然として「ディープラーニング」や「人工知能」の優秀な人材の採用に多額の費用を費やしていますが、多くの企業がディープラーニングは自分たちに必要なものではないと気づくのは時間の問題だと思います。さらに悪いことに、あなたの会社に Google のような研究予算や博士号取得者、ユーザーから収集した膨大なデータがなければ、実際の「ディープラーニング」の見通しは非常に限られていることがすぐにわかるでしょう。

毎年 AI の冬が来る前に、科学者たちは自分たちの創造物の可能性を誇張して宣伝してきた。彼らのアルゴリズムが 1 つのタスクをうまくこなすと言うだけでは十分ではありません。彼らは、そのアルゴリズムがあらゆるタスクを解決できること、または少なくともそれが可能であるという印象を与えることを望んでいます。たとえば、AlphaZero はチェスが特に得意なので、メディアの反応は「おやまあ、汎用知能の時代が来るぞ！ロボットが来るぞ！」でした。しかし、科学者たちはそれを訂正する代わりに、これらの言葉を使うように奨励しています。結局のところ、期待を下げることは VC の資金調達に役立ちません。しかし、ロボットの能力が限られているにもかかわらず、AI研究者がアルゴリズムを擬人化するのはなぜか、それは科学的な問題というよりも哲学的な問題です。

[[255741]]

1997年、ガルリ・カスパロフ対ディープブルー：レックスの特徴

次に何が起こるでしょうか?

もちろん、「機械学習」や「人工知能」を使用している企業のすべてが実際に「ディープラーニング」を使用しているわけではありません。

優秀なデータサイエンティストがニューラルネットワークの構築のために雇われたとしても、実際に問題を検討してみると、単純ベイズ分類器を構築する方が適切かもしれないと判断することがあります。画像認識や言語処理の活用に成功している企業は、今後もその研究を継続していくでしょう。しかし、ニューラルネットワークは、この種の問題領域以外では進歩していないと思います。結局のところ、期待を和らげることはベンチャーキャピタルの資金調達には役立ちません。

過去の AI の冬は、コンピュータサイエンスの進歩という点では壊滅的なものでした。しかし、AI 研究は、チェスで勝ったり、輸送問題のコストを最小限に抑えたりできる検索アルゴリズムなど、いくつかの有用なものを生み出しています。簡単に言えば、革新的なアルゴリズムは多くの場合、特定の 1 つのタスクにしか適していません。

私が指摘したいのは、多くの問題にはそれに対応する効果的な解決策がたくさんあるということです。 AIの冬に凍り付かないようにするには、解決したい問題に焦点を当て、その性質を理解する必要があります。これに基づいて、この特定の問題に対する直感的な解決パスが提供されます。テキストメッセージを分類する場合は、Naive Bayes 分類器を使用することをお勧めします。輸送ネットワークを最適化しようとしている場合は、離散最適化を使用することをお勧めします。周囲の研究者が何を言おうと、畳み込みモデルに懐疑的になり、その理論が正しいかどうか疑問に思うことはあり得ます。

ピタゴラス哲学を信じていない場合、考えられる最善の策は、AI に何らかの行動を「シミュレート」させて、感情や思考があるかのような錯覚を作り出すことです。

この投稿によって、ディープラーニングはほとんどの問題に対して適切なアプローチではないということが理解できたと思います。すべての問題に対する汎用的な AI ソリューションを求めないでください。そのようなソリューションは見つからないからです。

哲学対科学

この投稿で最後に指摘したいのは、この質問は科学的というよりも哲学的であるということです。私たちが抱くあらゆる思考や感情は、線形代数的に掛け算や足し算された数字の集まりにすぎないのでしょうか？私たちの脳は、一日中ドット積を繰り返すニューラルネットワークにすぎないのでしょうか？ピタゴラス哲学が私たちの意識を数字の行列に還元しているように聞こえます。おそらく、人間とコンピューターの間に違いがないため、多くの科学者が汎用人工知能が可能であると信じているのはこのためでしょう (私はここでこの点を指摘しているだけで、この世界観が正しいか間違っているかについてはコメントしていません)。

周囲の研究者が何を言おうと、畳み込みモデルに懐疑的になり、その理論が正しいかどうか疑問に思うことはあり得ます。

ピタゴラス哲学に賛同しない場合は、AI に何らかの行動を「シミュレート」させて、感情や思考があるかのような錯覚を起こさせるのが最善のアプローチです。翻訳プログラムは中国語を理解しませんが、確率的なパターンを探すことで中国語を理解しているという錯覚を「シミュレート」することができます。スマートフォンが犬の写真を「認識」するとき、本当に犬を認識しているのでしょうか? それとも、以前に学習した数字のパターンを見ているだけなのでしょうか?