AIの冬が来ます！ディープラーニングはスケールしません...

著者について: Filip Piekniewski は、コンピュータービジョンと AI の専門家であり、Koh Young Technology のシニア AI 科学者です。

[[231351]]

私たちは数年前から、いわゆる AI 革命の最前線に立っています。かつては、ディープラーニングが技術的特異点 (汎用 AI) の素晴らしい世界へと導いてくれる魔法の「特効薬」であると多くの人が信じていました。 2014年、2015年、2016年、業界がAlpha Goなどの新たな領域を模索していた時期に、多くの企業が大きな賭けに出ました。テスラなどの企業は、それぞれの顔（CEO）を使って、完全自動運転車が間近に迫っていることを発表しており、テスラは（将来のソフトウェアアップデートに応じて）このビジョンを顧客に売り込み始めているほどだ。

2018 年も中盤に入り、状況は変化しました。これはまだ表面的には明らかではない。NIPS のチケットは依然として入手困難であり、多くの企業の広報担当者は依然として記者会見で AI を大々的に宣伝し、イーロン・マスクは依然として自動運転車を約束し、Google の CEO は依然としてアンドリュー・ン氏のスローガン (AI は電気よりも革命的である) を叫んでいる。しかし、この議論は揺らぎ始めている。前回の記事で予測したように、最も不安定な分野は自動運転、つまりこの技術を現実世界で実際に応用することです。

ディープラーニングの時代は終わった

ImageNet が事実上解決されたとき (注: これは視覚が解決されたことを意味するものではありません)、通常は控えめな Geoff Hinton 氏も含め、Yann Lecun 氏、Andrew Ng 氏、Fei-Fei Li 氏など、この分野の著名な研究者が積極的に記者会見に応じ、ソーシャルメディアで発言していました。要点は、我々は巨大な革命に直面しており、これから革命のペースは加速する一方だということです。長年にわたり、これらの人々のツイートは活発ではなくなってきています。以下は Andrew Ng のツイートの例です。

2013年: 1日あたり0.413ツイート
2014年: 1日あたり0.605ツイート
2015年: 1日あたり0.320ツイート
2016年: 1日あたり0.802ツイート
2017年: 1日あたり0.668ツイート
2018年: 1日あたり0.263ツイート（5月24日現在）

おそらくこれは、次のツイートが示すように、Andrew Ng 氏の大胆な発言が IT コミュニティによってより厳しく疑問視されるようになったためでしょう。

AIの勢いが著しく弱まっているのは明らかです。ディープラーニングを最高のアルゴリズムとして称賛するツイートは大幅に減少し、論文も「革命的」というより「進化的」なものが多くなっています。 Alpha Go zero をリリースして以来、Deepmind は目覚ましい成果を上げていません。 OpenAI はこれまでかなり静かでした。メディアで大きく取り上げられたのは、Dota 2 をプレイするエージェントのときでした。これは Alpha Go と同じくらい話題になるはずだったと思いますが、すぐに沈静化しました。実際、この頃から多くの記事が出始め、Google ですら Deepmind をどう扱えばいいのかわからなくなっていた、なぜなら彼らの成果は明らかに当初期待されていたほど実用的ではなかったからだ、と主張していました... 有名な研究者たちは、将来の助成金を確保するためにカナダやフランスの政府関係者と会うのが常でした。ヤン・ルカンは Facebook AI Lab の所長を辞任し、Facebook のトップ AI 科学者になりました。資金力のある企業から政府資金による研究機関への段階的な移行により、私はこれらの企業（Google と Facebook のこと）が実際にはこの種の研究への関心を徐々に失いつつあることに気づきました。これらも初期の兆候であり、声に出して言うものではなく、単なるボディランゲージです。

ディープラーニングはスケールしない

ディープラーニングに関する大きな定説の 1 つは、ほとんど苦労せずに拡張できることです。 2012 年には約 6,000 万のパラメータを持つ AlexNet がありましたが、現在ではおそらくその 1,000 倍以上のパラメータを持つモデルがあるのではないでしょうか。おそらくそのようなモデルはあるのでしょうが、問題はそれが 1,000 倍強力であるかどうかです。それとも100倍も強いのでしょうか? OpenAI による研究が役に立ちました。

したがって、ビジョンアプリケーションの観点から見ると、VGG と Resnet は、約 1 桁多い計算リソース (実際にはパラメーターの数で言えばそれより少ない) を使用した後に飽和することがわかります。 Xception は Google の Inception アーキテクチャのバリエーションであり、ImageNet の Inception よりもわずかに優れています。また、AlexNet が実際に ImageNet を解決したため、おそらく他のさまざまなアーキテクチャよりもわずかに優れています。つまり、AlexNet の 100 倍の計算リソースを使用して、ビジョン (正確には画像分類) のアーキテクチャをほぼ飽和状態にしました。ニューラル機械翻訳は、すべての主要なインターネット検索エンジンにとって大きな開発分野であるため、これらの検索エンジンが利用できるすべてのコンピューティングリソースを獲得しているのも不思議ではありません（Google翻訳はまだひどいですが、改善されています）。上のグラフの最も近い 3 つの点は、Deepmind と OpenAI がプレイするゲームに適用された強化学習に関連するプロジェクトを示しています。特に、Alpha Go Zero と、より一般的な Alpha Go は、多くのコンピューティングリソースにアクセスできますが、これらのコンピューティングリソースのほとんどは、データ集約型モデルに必要なデータをシミュレートして生成するために必要となるため、実際のアプリケーションには適していません。さて、今では AlexNet を数日ではなく数分でトレーニングできるようになりましたが、1000 倍の規模の AlexNet を数日でトレーニングし、質的に優れた結果を得ることができるでしょうか?明らかにそうではありません...

つまり、実際には、ディープラーニングがどれだけ拡張できるかを示すグラフそのものが、実際にはディープラーニングがどれだけ拡張できないかを示しているのです。より良い結果を得るためには、AlexNet を単純にスケールアップすることはできません。特定のアーキテクチャを微調整する必要があります。シミュレーションされたゲーム環境でのみ実際に利用可能なデータサンプルの数を桁違いに増やさない限り、追加のコンピューティングリソースは実際には大きなメリットを生みません。

自動運転事故が続く

ディープラーニングの評判に対する最大の打撃は、間違いなく自動運転車の分野にあります (私はずっと前にこれを予測していました。たとえば、2016 年のこの記事: https://blog.piekniewski.info/2016/11/15/ai-and-the-ludic-fallacy/)。当初は、エンドツーエンドのディープラーニングが何らかの形でこの問題を解決すると考えられており、Nvidia はこれを強く支持してきました。世界中でまだこれを信じている人はいないと思いますが、もしかしたら私が間違っているのかもしれません。昨年のカリフォルニア州 DMV の解除レポートを見ると、Nvidia の車は実際には解除なしで 10 マイルも走行していないことがわかります。

ここでは全体的な状況について説明し、別の投稿で人間のドライバーの安全性と比較します (大げさに言うと、良くありません)。 2016年以来、テスラのオートパイロットシステムはいくつかの事故に巻き込まれており、そのうちのいくつかは致命的だった。テスラのオートパイロットシステムは自動運転と混同されるべきではないが、少なくともその中核には同じ技術が使われている。現在に至るまで、時折起こる重大なエラーを除けば、交差点で停止したり、信号を認識したり、ロータリーを正しく迂回したりすることさえできない。 2018年5月、テスラが全米を自動運転で走ると約束してから数か月が経った（結局実現しなかったが、テスラは挑戦したが実現できなかったという噂がある）。イーロン・マスク氏は、数か月前（2018年2月）、全米規模の自動運転について質問された電話会議で、この点を繰り返した。

「東海岸から西海岸までドライブすることもできましたが、効果的に変更するには特殊なコードが多すぎますし、特定のルートでは機能しても、一般的な解決策ではありませんでした。だから、それを繰り返すだけでいいと考えましたが、他のルートでも機能しないのであれば、本当の解決策とは言えません。」

「ニューラルネットワークの進歩に興奮しています。大したことではないように思える小さな進歩ですが、突然、驚くべきものになりました。」

うーん、上の画像（OpenAI より）を見ると、それほど進歩は見られません。この分野のほぼすべての主要プレーヤーでは、解除までのマイル数は大幅に増加していません。事実上、上記の声明は次のように解釈できます。「現在、東海岸から西海岸まで人々を安全に輸送する技術はありませんが、本当に望めばそれを実現できます。ニューラルネットワーク機能の何らかの飛躍的進歩がすぐに起こり、恥辱と山積する訴訟から救われることを心から願っています。」

しかし、AIバブルに対する最大の衝撃は、アリゾナ州でウーバーの自動運転車が歩行者をはねて死亡させた事件だった。国家運輸安全委員会（NTSB）の予備報告書を見ると、衝撃的な記述がいくつか見られます。

報告書に見られる全体的なシステム設計の欠陥は別としても、衝突を起こさないために状況下で唯一の合理的な判断を下すのではなく、システムが前方に何が見えるか（歩行者、自転車、車、あるいはその他の何か）を判断するのに数秒もかかっていたことは衝撃的だった。これにはいくつかの理由があります。まず、人々は事後に自分の決定を言葉で表現することが多いのです。したがって、人は典型的には「自転車に乗った人を見たので、左に曲がって避けた」と言うでしょう。膨大な心理生理学の文献は、まったく異なる説明を示唆しています。つまり、人は何かを見て、神経系の高速知覚回路によってすぐに障害物として解釈され、それを避けるために迅速な行動を取り、数秒後に何が起こったのかに気づき、言葉で説明したのです。私たちは毎日、言葉に表されない数多くの決断を下しており、運転にはそうした決断の多くが関係しています。言葉で表すのはコストがかかり、時間がかかり、状況の緊急性によりそれができないことも少なくありません。このメカニズムは、私たちの安全を守るために 10 億年以上かけて進化してきましたが、運転環境 (現代的ではありますが) では、こうした反射神経の多くを活用しています。こうした反射神経は運転のために特別に進化したわけではないため、間違いにつながる可能性があります。車内でスズメバチがブンブンと鳴くと、運転手が反射的に反応し、多くの衝突事故や死亡事故につながる可能性があります。しかし、3 次元空間と速度に関する基本的な理解、および道路上のエージェントや実際の物体の行動を予測する能力は、1 億年前と同じように今日でも役立つ原始的なスキルであり、進化によって大幅に強化されています。

しかし、これらのほとんどは言葉で簡単に表現できないため、測定が難しく、そのためこれらの側面に対して機械学習システムを最適化することはできません...これは、画像からアクションへのマッピングを学習し、言語化をスキップするという Nvidia のエンドツーエンドのアプローチと一致しており、ある意味では正しいアプローチですが、問題は入力空間が高次元であり、アクション空間が低次元であることです。したがって、「タグ」（読み出し）の「量」は、入力される情報の量に比べて非常に小さくなります。この場合、ディープラーニングの敵対的サンプルで実証されているように、偽の関係を学習するのは非常に簡単です。私たちには異なるパラダイムが必要であり、システムが偽の関係を抽出するのではなく、現実世界の意味を抽出できるようにするための第一歩は、動作だけでなく感覚入力全体を予測することだと私は仮説を立てています。詳細については、私が最初に提案したアーキテクチャ「予測ビジョンモデル」(https://blog.piekniewski.info/2016/11/04/predictive-vision-in-a-nutshell/) を参照してください。

実際、ディープラーニングの爆発的な増加から私たちが学んだことがあるとすれば、それは（10k 次元以上の）画像空間に偽のパターンが十分に存在し、それらのパターンが実際には多くの画像に共通しており、分類器が実際に見ているものを理解しているという印象を与えるということです。長年この分野に携わってきた***研究者でさえ、これは真実から程遠いことを認めています。

ゲイリー・マーカスは誇大宣伝にノーと言う

もっと著名な人物たちがこの傲慢さを認識し、公にそれを非難する勇気を持っていたことも言及しておくべきだろう。この分野で最も活躍している人物の一人はゲイリー・マーカスです。私はゲイリーが AI について述べているすべての点に同意するわけではありませんが、AI がディープラーニングの誇大宣伝で言われているほど強力ではないという点には確かに同意します。実際はそうではありません。彼は素晴らしいブログ記事や論文を書いています:

ディープラーニング：批判的評価

ディープラーニングに対する懐疑論を擁護する

彼はディープラーニングの誇大宣伝を詳細に分析します。私はゲイリーをとても尊敬しています。彼は本物の科学者のように振る舞いますが、「ディープラーニングのスター」と呼ばれる人々のほとんどは三流のスターのように振る舞います。

結論

AI の冬を予測することは、株式市場の暴落を予測するようなものです。いつ起こるかを正確に予測することは不可能ですが、ある時点で起こることはほぼ確実です。株式市場の暴落前と同じように、暴落が近づいている兆候はあったが、描かれた未来の絵は非常に魅力的であったため、兆候がはっきりと見えていてもそれを無視するのは簡単でした。私の意見では、ディープラーニング（おそらく、企業のプロパガンダ機関によってこの用語が際限なく乱用されてきた AI 業界で）が急速に冷え込みつつあるという明確な兆候がありますが、ほとんどの人は、ますます魅力的になる描写に目がくらんでいます。その冬はどれくらい「深い」ものになるのでしょうか？わからない。次に何が起こるでしょうか?私も分かりません。しかし、AI の冬が来ることは間違いないと思います。おそらく、遅かれ早かれ来るでしょう。

<<: 金融ロボットの解読：毒ではなくアシスタント

>>: アルゴリズムのパフォーマンスを最適化するためにデータ品質を確保するための 6 つのヒント