2022年、ビッグモデルはどこまで行けるでしょうか？

[[442868]]

著者: ユン・チャオ

この記事は、2021年の業界レビュー、2021年のビッグモデルレビューの第1弾です。

2021年はビッグモデルの年です。昨年のOpenAI GPT-3のリリース以来、今年はHuawei、Google、AI、Kuaishou、Alibaba、NVIDIAなどのメーカーが相次いで独自の大型モデルをリリースし、人工知能業界は新たな激しい競争の幕開けを迎え、ますます熾烈になっています。汎用人工知能を探求する道の一つとして、AIビッグモデルは独創的なイノベーションと長期的な影響を生み出す可能性がある分野であるだけでなく、より世界クラスの成果を生み出すプラットフォームにもなります。

概要

2018年にBERTビッグモデルが登場して以来、Huawei、Alibaba、Tencent、Google、Microsoft、NVIDIAなどの国内外の大手企業は、これをAI分野の次の戦場と見なし、独自のビッグモデルの構築に多額の投資を行ってきました。

これほど多くの学派の論争の背後には、深く避けられない理由があるに違いない。

周知のとおり、「実装の難しさ」は、人工知能の「技術レベル」、「応用規模」、「産業の発展」を制限する最大のボトルネックとなっています。さらに深く掘り下げてみると、開発コストの高さと技術的なハードルの高さが目に見えない障壁となり、技術チェーンと産業チェーンの間に深刻な断絶を引き起こしていることがわかります。この生態学的断絶は必然的に「小規模なワークショップ型」の AI 開発モデルにつながるでしょう。これは、時間がかかり、労働集約的で、複雑で面倒なデータ収集、ラベル付け、トレーニング作業を最初からやり直す必要があることを意味し、開発者の負担が間違いなく増加し、企業のアプリケーションコストが増加します。

大型モデルの出現は、「工業化された」開発モデルの到来を意味します。

大規模モデルの高い一般化能力と汎用性により、AI 開発を再統合して、普遍的な「事前トレーニング済みの大規模モデル + 下流タスクの微調整」パイプラインを確立できます。このパイプラインは、さまざまなアプリケーションシナリオで効果的に再利用できます。開発者は、少量の業界データのみで、より高い精度と強力な一般化機能を備えた AI モデルを迅速に開発できます。

大型モデル開発の現状

ある意味、大規模モデルのスケーリングはムーアの法則を上回っているように思われます。統計によると、そのパラメータスケールは毎年少なくとも10倍に増加しています。 2021年には、主要な学術機関やテクノロジー企業が独自の大規模モデルの構築に多額の投資を行い、能力の限界と技術的な道筋を大幅に拡大していることがわかります。

1月にGoogleは人類史上初の兆レベルモデル「Switch Transformer」をリリースした。

北京功績学院は3月にWuDao 1.0をリリースし、6月にはパラメータ規模が100億を超えるWuDao 2.0をリリースした。

4月には、Huawei Cloud Pangu Big Modelがリリースされました。これは、数千億のパラメータを備えた業界初の中国語事前トレーニングモデルです。自然言語処理（NLP）などの人工知能の単一分野に限定されず、AIの多くの人気のある方向性を包含するオールラウンドな人工知能です。

7月には、中国科学院自動化研究所も世界初の三モード大型モデル「紫東台宙」を発表した。クロスモーダル理解および生成機能を備えており、テキスト、視覚、音声の問題を同時に処理できます。

8月、同研究室は自社開発のディープラーニングフレームワーク「Hetu」をAngelエコシステムに統合すると発表しました。北京大学とテンセントのチームは共同で、大量のトレーニングデータと超大規模なモデルパラメータを備えたディープラーニングトレーニングシナリオを目的とした新世代の分散型ディープラーニングプラットフォームであるAngel 4.0を構築し、業界に新たな大規模ディープラーニングのブレークスルーをもたらします。

Inspurは9月に、2,457億のパラメータを持ち、5,000GBの中国のデータセットをトレーニングに使用した大規模モデル「Source 1.0」をリリースしました。米国のGPT-3モデルと比較すると、Source 1.0のパラメータサイズは40％大きく、トレーニングデータセットはほぼ10倍の大きさです。

11月にはNVIDIAとMicrosoftが共同で5300億個のパラメータを持つ「MT-NLG」をリリースした。

最近、アリババDAMOアカデミーは、同社のマルチモーダル大型モデルM6の最新パラメータが数兆から10兆に跳ね上がり、グーグルやマイクロソフトがこれまで発表した数兆レベルのモデルを超え、世界最大のAI事前トレーニングモデルになったと発表した。

パラメータの直感的な比較が素人が楽しみを見ているようなものだとすれば、実装能力は大規模モデルの強さを競う本当の競争です。現在、実装レベルでは、大手テクノロジー企業が関連する実装の検討を行っています。

Huawei Cloud Pangu Big Modelは、エネルギー、小売、金融、工業、医療、環境、物流など、さまざまな業界の100を超えるシナリオに適用されており、企業のAIアプリケーション開発の効率が平均90％向上しています。

さらに、アリババDAMOアカデミーが開発したM6は、マルチモーダルおよびマルチタスク機能を備えており、その認知能力と創造力は従来のAIを上回っています。アリペイ、タオバオ、Tmallビジネスで使用されており、特にデザイン、ライティング、質疑応答に優れており、電子商取引、製造、文学芸術、科学研究などの分野で幅広い応用の見通しがあります。

注目すべきは、現在、大規模なモデルはオフラインアプリケーションで使用されることが多くなっていることです。オンラインアプリケーションの場合、知識蒸留や低精度量子化などのモデル圧縮テクノロジ、プロジェクトのリアルタイムパフォーマンスなど、一連の複雑なプロジェクト課題を考慮する必要があります。

大規模モデルの分類

1. モデルアーキテクチャによる：単一モデルとハイブリッドモデル。単一モデルの中では、OpenAI が立ち上げた「GPT-3」、Microsoft-NVIDIA が立ち上げた「MT-NLG」モデル、Inspur が立ち上げた「Source 1.0」などが有名です。ハイブリッドモデルとしては、Googleの「Switch Transformer」、Zhiyuan Research Instituteの「Wudao」、Alibabaの「M6」、Huawei Cloudの「Pangu」などがある。

その中で、Google の「Switch Transformer」は、Mixture of Experts (MoE) モードを採用してモデルを分割します。その結果、スパースアクティベーションモデルが生成され、コンピューティングリソースが大幅に節約されます。

智源の「武道2.0」の1兆7500億個のパラメータは、再び兆パラメータ規模の記録を更新した。注目すべきは、もはや単一分野のモデル開発ではなく、さまざまな分野の統合システムに焦点を当てている点だ。

2. 応用分野による分類：現在、ビッグモデルの人気の方向性としては、NLP（中国語）ビッグモデル、CV（視覚）ビッグモデル、マルチモーダルビッグモデル、科学計算ビッグモデルなどがあります。

現在、自然言語処理の分野で人気のある単一の大規模モデルには、「GPT-3」、「MT-NLG」、「Source 1.0」などがあります。驚くべきことに、NLP 分野で非常に成功している自己教師あり事前トレーニングモデルは、CV タスクでも使用でき、優れた結果が得られることがいくつかの研究で示されています。

大型模型カードポイント

大規模モデルの性能において次々と画期的な進歩が達成される一方で、その背後にあるボトルネックも徐々に明らかになり、社会的注目を集め始めています。

まず、大規模なモデルを構築するには、膨大な量のデータ、計算能力、アルゴリズム、その他のソフトウェアおよびハードウェアリソースが必要になるため、簡単ではありません。短期的には、この膨大な資源消費は、企業や科学研究機関にとって間違いなく大きな負担となるだけでなく、世界的な省エネと環境保護、そして我が国の二重炭素（カーボンピークとカーボンニュートラル）目標にも反するものです。限られたリソースの条件下で大規模モデルの低エネルギー進化をどのように達成するかは、かなりの課題です。

第二に、大規模モデルには統一された評価基準とモジュール化されたプロセスが欠けています。大規模モデルの研究開発はまだ初期の探索段階にあり、市場の有能な企業や機関が市場をめぐって競争するにつれて、必然的に高品質の集中リソースの再差別化が起こり、さまざまな煙突型の評価基準と分散型アルゴリズムモデル構造が生まれ、議論と評価システムが断片化される可能性があります。

繰り返しますが、イノベーションは不十分です。大規模モデルの応用価値は、パラメータスケールが大きいほど良いというわけではなく、その一般化能力に依存します。大規模モデルが優れているかどうかは、データの精度やネットワーク構造だけでなく、ソフトウェアとハードウェアの面で業界と連携できるかどうかにも左右されます。現在、業界では高パラメータセットや高計算能力モデルの研究開発に重点が置かれ、ネットワークモデルの革新や業界との共同革新などの問題が軽視されています。

最後に、アプリケーションの実装が遅いです。業界関係者は一般的に、大規模な AI モデルの最大の課題は、より多くの業界やシナリオに実際に実装する方法であると考えています。現時点では、このアプリケーションは主に企業の内部プロジェクトで使用されています。この閉鎖的な開発状況をいかに変革し、アプリケーションシナリオに迅速に適応するかが、大規模モデルの最大の価値であり、難しさでもあります。

大型モデルを探すならここ

1. 大規模なモデルパラメータの利点は依然として存在する

数百万、数千万、数千億、数兆と、大規模モデルのパラメータ規模が大きくなるにつれ、研究者の予想通り、パフォーマンスは人間のレベルに着実に近づいています。大規模モデルの規模については、今後も改善の余地があることが予想されます。変わる可能性があるのは、人々が単にコンピューティング能力を高めるだけではなく、並列コンピューティングやソフトウェアとハードウェアの連携などのテクノロジのサポートにさらに依存するようになることです。実用的な考慮により、いくつかの小さなパラメータモデルも静かに登場していることは注目に値します。

2. 大規模モデルは複数の分野で一般的になりつつある

ビッグモデルの本来の目的は、訓練されたモデルが一般化能力と自己進化能力の両方を備え、さまざまな分野で認知能力を持つようにすることです。たとえば、NLP 分野の大規模モデルは CV 分野で非常に効果的であることが証明されています。また、GPT-3 は、大量のラベルなしデータから学習する一般的な能力を示しており、特定のタスクに限定されません。マルチモーダルな事前トレーニング済み大規模モデルの最近の増加は、このことの最良の証拠です。ビッグモデルの将来にはイノベーションが必要です。ビッグモデルは、人工知能アルゴリズムの一般的な基盤アーキテクチャの構築、モデルの認知能力を単一分野から複数分野の統合へと一般化すること、さまざまなシナリオで自己成長すること、そして持続可能で進化可能な方向に発展することに注力します。

3. オープンソースプラットフォームの使いやすさ

大規模モデルのオープンソース化は一般的な傾向であり、多くの組織がこれを推進することに尽力しています。 Microsoft、IDEA、Zhiyuan Research Institute などのほとんどの機関のオープンソースはまだ浅いレベルにあり、アルゴリズムパッケージを呼び出してトレーニングの順番を待つことしかできません。将来の大規模モデルが研究室の外に出るには、アルゴリズムシステム、標準システム、基本プラットフォーム、データセット、エンジニアリングテストの面で完全にオープンである必要があります。

4. 標準的で使いやすいワークフロー

「事前トレーニング済みの大規模モデル + 微調整」アプローチは確かに AI 開発者のペースを加速させましたが、対応するワークフローが構築されれば、大規模モデルはより多くのシナリオで活躍するでしょう。さらに、将来的には、大型モデルの評価は標準化された成熟したシステムによって測定されるようになります。このシステムは業界でも認められた標準となり、モデルの汎用性と使いやすさを規制します。同時に、この標準は、現在の自己宣伝的な宣伝ではなく、大型モデルの長所と短所を測定するために使用されます。

5. 大規模モデル機能のデバイス上での展開

将来的には、大型モデルの一部のコンピューティング能力とストレージ能力がチップなどのエンドサイドハードウェアデバイスに固定化される予定です。使用時には、再インストールされたモデルのコンピューティング能力とデータを呼び出すために時間を無駄にする必要がなく、いつでも呼び出して使用できます。現在のモデルのほとんどは、使用するには膨大な計算能力と実行時間を必要とする高負荷の大型モデルです。将来の大型モデルでは、このパターンが徐々に変化していきます。

ビッグモデルにはどのようなビジネスモデルがあるのでしょうか?

今後、大手モデルがどのようなビジネスモデルを展開していくのかを懸念する人が増えています。それは3つのレベルから想像できます:

1. 大きなモデルをベースとして使用します。この基地は、国立イノベーションセンターや政府機関に売却またはリースすることも、あるいはそれらと共同で開発することもできます。

2. オープンソースを実行する。大規模モデルに関連する多くの技術的問題は、単一の企業で解決するのは困難です。オープンテクノロジー、コミュニティの力、IPの共有、相互利益を通じて解決できます。

3. 一般ISV（独立系ソフトウェア開発者）向けに提供。大型モデルを研究室から出して、何千もの業界の顧客に直接見せることは現実的ではありません。 ISV に機能を開放することで、より多くの下流の顧客にリーチできるようになります。連絡方法は2つあり、1つはトラフィックまたはプロジェクトごとに課金する方法、もう1つはユーザーに無料で使用させてトラフィック広告を通じて収益を得る方法です。

要約と展望

今日、大規模モデルの人気はディープラーニングの時代と非常に似ています。しかし、認知知能に向けた高度な探求としては、大規模なモデルにはまだ長い道のりが残っています。自らのイノベーション力、一般化力、実行力を継続的に向上させられるかどうかが、変化を打破する鍵となるでしょう。

おそらく、今後数年のうちに、大規模なモデルが基本的な産業エコシステムとして機能し、大規模な計算能力を使用して最高レベルのインテリジェンスをトレーニングし、さまざまな AI アプリケーションに安定したインテリジェントサービスを提供するという状態が徐々に出現するでしょう。これらすべてを証明するには時間がかかるでしょう。

会議の推奨

今日、人工知能に対する人々の期待は知覚知能を超えています。新世代の人工知能は、マルチモーダルな大規模モデルのサポートにより、徐々に認知知能へと移行しています。今後の人工知能ブームがさらに天井を突破し、より大きな産業規模を形成できるかどうかは、認知知能のブレークスルーが鍵となる。

2022年5月14日から15日まで開催されるWOTグローバルテクノロジーイノベーションカンファレンスの「認知知能の発展における新たな動向」セッションでは、産業界と学界の多くの人工知能技術専門家が、マルチモーダル、多言語の大規模モデルやインテリジェントな検索推奨に関する詳細な技術共有を行います。興味のある学生は、詳細についてはリンクをクリックしてください：http://wot..com/act/wot2021/dev?www1。

<<: テスラの自動運転タクシー参入は依然として困難

>>: 人工知能研究における大きな進歩は人類に大きな変化をもたらすだろう