ディープラーニングの発展により、人工知能は「ムーアのジレンマ」をどう打破するのか?

ディープラーニングの発展により、人工知能は「ムーアのジレンマ」をどう打破するのか?

[[433514]]

つい最近、Microsoft と NVIDIA は 5,300 億のパラメータを持つ MT-NLG 言語モデルを発表しました。この Transformer ベースのモデルは、「世界最大かつ最も強力な生成言語モデル」として称賛されています。

これは間違いなく機械学習エンジニアリングの素晴らしい成果です。

しかし、この大型モデルのトレンドに興奮すべきなのでしょうか?

01. 脳のディープラーニング

研究者たちは、平均的な人間の脳には 860 億個のニューロンと 100 兆個のシナプスが含まれていると推定しています。確かに、これらすべてが言語で使用されているわけではありません。興味深いことに、GPT-4 には約 100 兆個のパラメータがあると推定されています…

この比較は大雑把ではありますが、人間の脳とほぼ同じサイズの言語モデルを構築することが長期的に見て実行可能なアプローチであるかどうか疑問に思うべきではないでしょうか。

もちろん、私たちの脳は何百万年もかけて進化してきた素晴らしい装置ですが、ディープラーニング モデルはほんの数十年前に誕生したばかりです。それでも、直感的に、計算できないこともあると分かるはずです。

02. ディープラーニングかディープウォレットか?

巨大なテキスト データセットで 5,300 億のパラメータ モデルをトレーニングするには、間違いなく巨大なインフラストラクチャが必要です。

実際、Microsoft と Nvidia は数百台の DGX-A100 GPU サーバーを使用しています。各ユニットの価格は 199,000 ドルで、ネットワーク機器やホスト コンピューターなどのコストも含めると、この実験を再現しようとすると 1 億ドル近くを費やす必要があります。

ディープラーニング インフラストラクチャに 1 億ドルを費やすことを正当化するビジネス例を持つ企業はどれですか?それとも1000万ドルでしょうか?レア。

では、これらのモデルは一体誰のためのものなのでしょうか?

03. GPU クラスター

エンジニアリングの素晴らしさにもかかわらず、GPU 上でディープラーニング モデルをトレーニングするのは骨の折れる作業です。

サーバーの仕様書によると、各 DGX サーバーは最大 6.5 キロワットの電力を消費する可能性があります。もちろん、データセンター (またはサーバー) には少なくとも同じくらいの冷却能力が必要です。

あなたがスターク家でウィンターフェルを救う必要があるのでなければ、熱放散は対処しなければならないもう一つの問題です。

さらに、気候や社会的責任の問題に対する一般の意識が高まるにつれて、企業も二酸化炭素排出量を考慮する必要があります。マサチューセッツ大学の 2019 年の研究では、「GPU で BERT をトレーニングすることは、米国を横断する飛行とほぼ同等である」ことが判明しました。

BERT-Large には 3 億 4000 万のパラメータがあります。これをトレーニングする際の二酸化炭素排出量はどれくらいですか?考えると怖いですね。

こうした大規模なモデルを構築し、推進することは、企業や個人が機械学習を理解し、活用する上で役立つのでしょうか?

代わりに、高品質の機械学習ソリューションを構築するために使用できる、より実用的な手法に焦点を当ててください。

04. 事前学習済みモデルを使用する

ほとんどの場合、カスタム モデル アーキテクチャは必要ありません。

良い出発点は、解決したいタスク(英語のテキストの要約など)用に事前トレーニングされたモデルを探すことです。

次に、いくつかのモデルを試して、独自のデータを予測します。特定のパラメータが良好であることを示している場合は、完了です。より高い精度が必要な場合は、モデルの微調整を検討する必要があります。

05. より小さなモデルを使用する

モデルを評価するときは、必要な精度を提供する最小のモデルを選択する必要があります。予測が高速化され、トレーニングと推論に必要なハードウェア リソースが少なくなります。

これは何も新しいことではありません。コンピューター ビジョンに詳しい人なら、2017 年に SqueezeNet が登場したとき、AlexNet と比較してモデル サイズが 50 分の 1 に縮小され、精度は同等かそれ以上になったことを覚えているでしょう。

自然言語処理コミュニティも、知識蒸留などの転移学習技術を使用して、サイズを縮小する取り組みを行っています。 DistilBERT はおそらく最もよく知られている成果です。

オリジナルの BERT モデルと比較すると、言語理解能力は 97% 維持され、サイズは 40% 小さくなり、速度は 60% 高速化されます。同じアプローチは、Facebook の BART などの他のモデルにも適用されています。

ビッグサイエンスプロジェクトの最新モデルも印象的です。下の図に示すように、T0 モデルはサイズが 16 倍小さいにもかかわらず、多くのタスクで GPT-3 よりも優れています。

06. モデルを微調整する

モデルを特化する必要がある場合、モデルを最初からトレーニングする必要はありません。代わりに、微調整、つまり独自のデータで数エポックだけトレーニングする必要があります。

転移学習を使用する利点:

  • 収集、保存、整理、注釈付けするデータが少なくなる
  • より高速な実験とデータの反復
  • 成果を達成するために必要なリソースが少なくなる

言い換えれば、時間を節約し、お金を節約し、ハードウェア リソースを節約し、世界を救うのです。

07. クラウドベースのインフラストラクチャを使用する

好むと好まざるとにかかわらず、クラウド コンピューティング企業は効率的なインフラストラクチャを構築する方法を知っています。調査によると、クラウドベースのインフラストラクチャは他のインフラストラクチャよりもエネルギー効率と炭素効率に優れています。 Earth.org は、クラウド インフラストラクチャは完璧ではないものの、他のインフラストラクチャよりもエネルギー効率が高く、環境に有益なサービスと経済成長を促進すると述べています。 ”

クラウドには、使いやすさ、柔軟性、従量課金制の点で確かに多くの利点があります。

08. モデルを最適化する

コンパイラから仮想マシンまで、ソフトウェア エンジニアは長い間、ハードウェア向けにコードを自動的に最適化するツールを使用してきました。

しかし、機械学習コミュニティはこの問題に引き続き取り組んでおり、それには十分な理由があります。モデルのサイズと速度を最適化することは、次の技術を必要とする非常に複雑な作業です。

  • ハードウェア: トレーニング タスク (Graphcore、Habana) と推論タスク (Google TPU、AWS Inferentia) を高速化するための多数の専用ハードウェア。
  • プルーニング: 予測結果にほとんど影響を与えない、またはまったく影響を与えないモデル パラメータを削除します。
  • Fusion: モデル レイヤー (畳み込みやアクティベーションなど) をマージします。
  • 量子化: モデルパラメータをより小さな値で保存する(例: 32 ビットストレージの代わりに 8 ビットストレージを使用する)

幸いなことに、Optimum オープンソース ライブラリや、1 ミリ秒の遅延で Transformer の精度を実現するコンテナ化されたソリューションである Infinity などの自動化ツールが登場し始めています。

09. 結論

過去数年間、大規模言語モデルのサイズは年間 10 倍に増加しました。これはまた別のムーアの法則のようです。

機械学習がモデル拡大の道を進み続けると、収益の減少、コストの増加、複雑さの増大などにつながります。

これが人工知能の未来なのでしょうか?

兆パラメータモデルを追い求めるのではなく、現実世界の問題に対する実用的かつ効率的なソリューションの構築にもっと経験を積んだほうが良いのではないでしょうか。

<<:  自動運転テストシステムを1つの記事で理解する

>>:  メタ:メタバース製品は引き続き顔認識技術を使用する

ブログ    

推薦する

国内の多くの大学が共同でオープンソースコミュニティLAMMを構築しています。マルチモーダル言語モデルファミリーに参加する時が来ました

ChatGPTの登場以来、大規模言語モデル(LLM)は飛躍的な発展を遂げ、自然言語に基づく人間とコン...

.NET が提供する暗号化アルゴリズムの概要

データは、対称暗号化アルゴリズムまたは非対称暗号化アルゴリズムを使用して暗号化できます。対称暗号化は...

自動機械学習ガイド: 4 つの成熟モデル

[51CTO.com クイック翻訳] 人工知能と機械学習の概念は、データサイエンスコミュニティで人気...

LEACHプロトコルのアルゴリズムと特徴

LEACH プロトコルについてはあまり知られていないかもしれません。このプロトコルの説明は、低電力適...

AI企業は米国政府に安全性テストを報告することが義務付けられる

バイデン政権は、すべての主要なAIシステムの開発者にセキュリティテストの結果を政府に開示することを義...

複数の都市が共同で人工知能コンピューティングネットワークを点灯し、人工知能産業の発展を促進する

Huawei Connect 2021では、中国科学技術情報研究所(CITI)、AITISA(新世代...

AIGCのビジネス:アクセンチュアが30億ドルを投資した理由

国際的なテクノロジーコンサルティンググループであるアクセンチュアは、間違いなくAIGCによって深刻な...

顔認識はより便利で安全になるべきだ

[[348313]]ノースウェスタン工科大学の学生は顔をスキャンして図書館に出入りします。新華社通信...

...

顔認識は政治的立場を決定できるか?研究者:本当ですよ!正解率は72%にも達する

アメリカのテクノロジーウェブサイト「ベンチャービート」が1月12日に報じたところによると、米スタンフ...

新しいターミナルゲームプレイ: 「ゼロコード」スクリプトベースのガイダンス

著者 | 宋涛、尚賢、小斌 他アプリガイダンスは端末上でのマインドセット構築の重要な手段です。私たち...

NetEase はデータ指標の異常をどのように検出し、診断するのでしょうか?

1. 背景指標はビジネスと密接に関係しており、その価値は、問題点やハイライトを発見し、タイムリーに...

...

人工知能がオンライン上の虚偽情報や誤情報に与える影響について

アメリカは、いまだに人工知能技術の最先端にいます。アメリカが警戒すればするほど、私たちはアメリカのや...