現在、AI分野で画期的な進歩を遂げているディープラーニングモデルの規模が大きくなるほど、エネルギー消費量とコストが増大しています。自然言語処理モデル GPT-3 は典型的な例です。精度と速度の面で人間と競合できるようにするため、このモデルには 1,750 億のパラメータが含まれており、350 GB のメモリを占有し、モデルのトレーニング コストは最大 1,200 万ドルかかります。そしてコストの観点から見ても、それが消費する膨大なエネルギー量を誰もが理解できるはずです。
マサチューセッツ大学アマースト校の研究者らは、大規模な AI モデルのトレーニングに必要な計算能力は、多くの場合、60 万ポンドを超える二酸化炭素排出量に相当することを発見しました。これは、5 台の乗用車のライフサイクル全体にわたる総排出量に相当します。 さらに悪いことに、これらのモデルは、分析結果を継続的に生成するために、実際の運用環境(つまり、推論段階)でより多くのエネルギーを消費する必要があります。 Nvidia の推定によると、ニューラル ネットワーク モデルの実行コストの 80% ~ 90% は、トレーニング フェーズではなく推論フェーズから発生します。 そのため、AI技術の急速な進歩を維持するためには、環境の持続可能性を実現する方法を見つけなければならないと考える人もいます。しかし、精度や速度をほとんど損なうことなく、大規模なモデルを日常的なワークステーションやサーバーで実行できるサイズに縮小することが可能であることが判明しました。 次に、機械学習モデルが常に大きく肥大化してしまう理由について説明します。 現在、コンピューティング能力は3~4か月ごとに2倍になっている。 10 年以上前、スタンフォード大学の研究者たちは、ビデオ ゲームの複雑なグラフィックスを動かすために使用される GPU と呼ばれる同じプロセッサが、ディープラーニング モデルで極めて高い計算効率を実現できることを発見しました。この発見により、メーカー各社がディープラーニングアプリケーション向けに、より強力な専用ハードウェアの開発を急ぐようになり、軍拡競争が始まった。それに応じて、データ サイエンティストが作成するモデルは、より正確な処理結果をもたらすことを期待して、ますます大規模になっています。二つの力が絡み合って現在の状況を形成しています。 OpenAI の調査では、業界全体が現在そのようなアップグレード サイクルにあることが証明されています。 2012年から2018年の間に、ディープラーニングモデルの計算能力は3〜4か月ごとに2倍になりました。これは、6年間でAIの計算能力が驚異的な30万倍に増加したことを意味します。前述したように、このコンピューティング能力はアルゴリズムのトレーニングに使用できるだけでなく、実稼働環境で分析結果をより速く得るためにも使用できます。しかし、MIT の最終研究は、私たちが考えているよりもずっと早くコンピューティング能力の限界に達する可能性があることを示している。 さらに重要なのは、リソースの制限により、ディープラーニング アルゴリズムがごく少数の組織に限定されるようになったことです。私たちは、ディープラーニングを使用して、医療画像における癌の変化を検出したり、ソーシャルメディア上のヘイトスピーチを自動的に削除したりしたいと考えていますが、より大規模で電力を消費するディープラーニングモデルを導入する余裕はありません。 未来:少ないほど良い 幸いなことに、研究者たちは、よりスマートなアルゴリズムを使用してディープラーニング モデルを縮小し、トレーニング データセットの使用方法を再構築する新しい方法を発見しました。これにより、大規模なモデルを小規模で低性能な運用環境で実行し、ユースケースに応じて必要な結果を継続的に提供できるようになります。 これらのテクノロジーは機械学習を民主化する可能性を秘めており、アルゴリズムをトレーニングして実稼働に導入するための資金やリソースがない組織を支援します。これは、カメラ、車のダッシュボード、スマートフォンなどの小型デバイスを含む、専用の AI ハードウェアに対応できない「エッジ」ユースケースにとって特に重要です。 研究者たちは、ニューラルネットワーク内の不要な接続を削除したり、特定の数学演算の複雑さを軽減したりすることで、モデルのサイズを縮小しようとしてきました。これらの小型で高速なモデルは、大型モデルと同様の精度とパフォーマンスでどこでも実行できます。こうすることで、私たちはもはや極端なコンピューティング能力を必死に追い求める必要がなくなり、環境への深刻なダメージを軽減できると期待できます。実際、モデルサイズの縮小とモデル効率の向上は、ディープラーニングの将来の発展方向となっています。 さまざまなユースケースの新しいデータセットで大規模なモデルを繰り返しトレーニングする場合、もう 1 つの重要な問題が発生します。転移学習は、この問題を解決することを約束する技術です。転移学習では、事前にトレーニングされたモデルを開始点として使用し、限られたデータセットを使用してモデルの知識を新しいタスクに「転送」できるため、最初のモデルを最初から再トレーニングする必要がありません。これは、モデルのトレーニングに必要な計算能力を削減するための重要な手段であるだけでなく、AI の発展によって自然環境にもたらされるエネルギー圧力を大幅に軽減することにもなります。 結局のところ何ですか? 可能な限り、モデルは「スリム化」して計算能力の要件を削減するよう努めるべきであり、またそうしなければなりません。 さらに、モデルによって得られた知識は、毎回ディープラーニングのトレーニング プロセスを最初から開始することなく、リサイクルして再利用できる必要があります。最終的には、パフォーマンスや精度を犠牲にすることなくモデルのサイズと計算オーバーヘッドを削減できるアプローチは、ディープラーニングの力を解き放つ重要な新たな機会となるでしょう。 これにより、誰でも低コストでこれらのアプリケーションを本番環境で実行できるようになり、自然環境への負担が大幅に軽減されます。 「ビッグ AI」が小さくなり始めると、必然的に無数の新たな可能性が生まれるでしょう。私たちはそのような展望に期待を抱いています。 |
<<: Java プログラミング スキル - データ構造とアルゴリズム「スレッド バイナリ ツリー」
>>: APP はユーザーのプライバシーと顔認識生体認証情報を深く掘り下げ、「データ疫病」の到来に注意
「決して単純な切り抜きではありません。」 ControlNet の著者による最近の研究は大きな注目を...
Orange3 は、豊富なデータ処理、分析、モデリング機能を提供する強力なオープンソースのデータ視...
単一の画像に基づく 3 次元再構成は、重要な応用価値を持つタスクですが、実装が非常に難しく、モデルに...
中国は、インダストリー4.0の提案と国家インテリジェント製造2025開発計画の公布により、製造大国か...
近年、人工知能は急速に発展し、熱い議論を巻き起こしています。人工知能が人間に取って代わるかどうかが注...
テスラのロボットが服を畳むという現象が、今、大流行している。数日後、マスク氏はオプティマスプライムが...
人工知能にはさまざまなものがあります。コンピューターを使って知的なことを行うこともあれば、コンピュー...
周知のとおり、OpenAI は GPT-4 以降、技術的な詳細を完全に秘密にしてきました。当初は、ベ...
[51CTO.comより引用] モバイルインターネットの発展に伴い、あらゆるものの相互接続が可能に...
OpenAI の GPT-4V と Google の最新の Gemini マルチモーダル大規模言語モ...
春節の直前に、同義千文モデル(Qwen)バージョン1.5がリリースされました。今朝、新バージョンのニ...
生成トランスフォーマーは、高忠実度かつ高解像度の画像を合成するために急速に人気を集めています。しかし...
現在、技術の継続的な進歩と産業発展の継続的な加速により、エンターテインメント、輸送、物流、救助などの...