アルゴリズムだけでは不十分：AIの次のブレークスルーにはハードウェアの再検討が必要

この記事は公開アカウント「Reading Core Technique」（ID: AI_Discovery）から転載したものです。

今日の人工知能には大きな問題があります。それは、コストが高すぎることです。最新のコンピュータービジョンモデル Resnet-152 のトレーニングには約 100 億の浮動小数点演算が必要ですが、これは最新の言語モデルと比べると大したことではありません。

[[350888]]

OpenAI の最新の自然言語モデル GPT-3 のトレーニングには 300 テラフロップスかかると推定されており、商用 GPU では少なくとも 500 万ドルのコストがかかります。対照的に、人間の脳は一杯のコーヒーだけで顔を認識し、質問に答え、車を運転することができます。

どうやってやるんですか？

大きな進歩を遂げました。

最初のコンピューターは特定の目的のために作成されました。 1822 年、イギリスの数学者チャールズ・バベッジは多項式関数を計算するための「差分エンジン」を開発しました。 1958 年、コーネル大学のフランク・ローゼンブラット教授は、機械視覚タスクで使用するための単層パーセプトロンの物理的形態である「マーク I」を作成しました。初期の頃は、ハードウェアとアルゴリズムは同じものでした。

ハードウェアとアルゴリズムの統合は、計算処理ユニットと、データとプログラム命令を格納するメモリユニットで構成されるチップ設計を特徴とするフォンノイマンアーキテクチャの登場によって変化しました。このパラダイムシフトにより、あらゆるタスク向けにプログラムできる汎用マシンの構築が可能になります。フォン・ノイマン・アーキテクチャは現代のデジタルコンピュータの青写真となっています。

しかし、ここには矛盾があります。データ集約型プログラムでは、メモリユニットとコンピューティングユニット間の通信が大量に必要となり、計算速度が低下します。この「フォン・ノイマン・ボトルネック」が、人工知能の初期の試みが失敗した理由です。標準的な CPU は、ディープニューラルネットワークのコア計算操作である大規模な行列乗算にはあまり効率的ではありません。既存のハードウェアのボトルネックにより、初期のニューラルネットワークは技術的に行き詰まり、パフォーマンスが低下しました。

興味深いことに、この問題の解決策は学界からではなく、ゲーム業界から生まれました。 1970 年代にビデオゲーム開発を加速するために開発された GPU は、数千のコンピューティングコアにわたってデータ集約型の操作を並列化します。この並列化は、フォン・ノイマン・ボトルネックを解決する効果的な方法です。 GPU は、より深いニューラルネットワークのトレーニングを可能にし、現代の人工知能技術で使用されるハードウェアとなっています。

ハードウェア抽選

人工知能の分野での研究の成功は運に大きく左右される。 Google の研究者であるサラ・フッカー氏はこれを「ハードウェアくじ」と呼んでいます。初期の AI 研究者は、CPU の速度が遅いというハンディキャップを負っていたため不運でした。 GPU が登場したときにたまたま AI 分野で研究していた研究者は、ハードウェアの宝くじに「当選」したのです。 GPU の効率的な加速機能を活用してニューラルネットワークをトレーニングすることで、急速な進歩を遂げることができます。

ハードウェアの宝くじの問題は、その分野の全員が勝者になると、新しいことを探求することが難しくなることです。ハードウェアの開発は遅く、チップメーカーは収益が不確実な大規模な先行投資を行う必要がある。安全なアプローチは、現状となっている行列乗算を最適化することです。しかし、長期的には、特定のハードウェアとアルゴリズムの組み合わせに重点を置くことで、選択肢が制限されることになります。

元の質問に戻りましょう。 AI が今日なぜこんなに高価なのでしょうか? その答えは、適切なハードウェアがまだ存在しないからかもしれません。ハードウェア宝くじの存在と商業的インセンティブが相まって、私たちが現在の状況から抜け出すのは経済的に困難になっています。

素晴らしい例としては、コンピュータービジョンへの斬新なアプローチである、Geoffrey Hinton の Capsule Neural Networks が挙げられます。 Google の研究者である Paul Barham 氏と Michael Isard 氏は、このアプローチは CPU ではうまく機能するが、GPU や TPU ではそれほどうまく機能しないことを発見しました。

その理由は何でしょうか? アクセラレータは、標準的な行列乗算などの最も頻繁に実行される演算に対して最適化されていますが、カプセル畳み込みに対しては最適化が不十分です。彼らの結論（論文のタイトルでもある）は、機械学習システムが行き詰まっているというものです。

AI 研究者は既存のハードウェアを「過剰適合」させる可能性があり、長期的にはこの分野のイノベーションが阻害されることになる。

今後の道

「次のブレークスルーには、根本的に異なるアプローチ、つまりハードウェア、ソフトウェア、アルゴリズムを組み合わせて世界をモデル化することが必要になるかもしれません。」

人間の脳では、記憶と計算は別々の部分ではなく、同じ場所、つまりニューロンで行われます。記憶はニューロンがシナプスを介して接続される方法から生じ、計算はニューロンが発火し、感覚入力に関する情報を伝播する方法から生じます。初期のコンピュータと同様に、ハードウェアとアルゴリズムは同一です。これは、今日の AI の構築方法とは異なります。

GPU と TPU を搭載したディープニューラルネットワークは、現在多くのタスクで優れたパフォーマンスを発揮しますが、長期的なソリューションにはなりません。おそらく、これらは、より広い視点で見ると、ハードウェアとアルゴリズムを組み合わせたアーキテクチャに対する単なるローカル最適ソリューションなのでしょう。

アルゴリズムだけでは不十分であることを認識する事が、前進への第一歩です。次世代の人工知能には、ハードウェアとアルゴリズムの両方における革新が必要です。 GPU が登場する前は、AI 研究は停滞していました。ハードウェアのブレークスルーがなければ、再び停滞に陥ってしまう可能性があります。

<<: セキュリティ | 機械学習の「データ汚染」を 1 つの記事で理解する

>>: 将来、人工知能は人間の意思決定に取って代わることができるでしょうか?

ブログ

大規模モデルの推論速度が 3.6 倍に向上しました。「Medusa」の論文はこちらです。Jia Yangqing: 最もエレガントな加速推論ソリューションの 1 つ

ブログ

アルゴリズムだけでは不十分：AIの次のブレークスルーにはハードウェアの再検討が必要

大規模モデルの推論速度が 3.6 倍に向上しました。「Medusa」の論文はこちらです。Jia Yangqing: 最もエレガントな加速推論ソリューションの 1 つ

マイクロソフト、人間の編集者をAIに置き換え、ジャーナリスト数名を解雇

人工知能がオンライン上の虚偽情報や誤情報に与える影響について

OpenAI が GPT をロボットの脳に組み込み、具現化された AGI のシンギュラリティが近づいています。エヌビディアとマイクロソフトがユニコーン企業フィギュアキャピタルに26億ドルを投資

旅行業界における機械学習と AI: 5 つの重要な業界ユースケース

舌先にAI：人工知能技術が食卓に並ぶ

AI インフラストラクチャスタックをわかりやすく解説し、AI プロジェクトをより迅速に展開

推薦する

高度な機械学習ノート 1 | TensorFlow のインストールと開始方法

生成型AIの誇大宣伝の中、CIOは慎重に進めることを選択しているが、まだ完全にコミットしていない

7億7千万パラメータ、5400億PaLMを超えます！ UW Google はトレーニングデータの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

2018 年に注目すべき 10 個の機械学習ツール

ガートナーは、中国企業が平均5つ以上のAIユースケースを展開しているというレポートを発表した。

顔認識アルゴリズムはどのように機能するのでしょうか?

指紋、顔、音声認識技術は、本当に簡単に解読できます。

ゲイツは間違っていた！これはロボットが仕事を奪うことに対処するための最善の解決策です

ディープラーニングの本質を探りますか?

もう一つの「無人工場」が誕生。残された労働者たちは何をするのでしょうか？

インテリジェントオートメーションの台頭：デジタル時代のAI、ロボット工学、製造業