人工知能の発展の観点から見ると、GPT シリーズのモデル (ChatGPT や GPT-4 など) の登場は間違いなく重要なマイルストーンです。これにより駆動される AI アプリケーションは、高度な汎用性と使いやすさを実証しており、複数のシナリオと業界をカバーできます。これは AI の歴史において前例のないことです。 しかし、人工知能の研究者たちはこれでは満足しないだろう。ある意味、このビッグモデルは人工知能研究の長い道のりにおける素晴らしい「始まり」に過ぎません。しかし、私たちが大きな野心を持って次のマイルストーンに向かって進むにつれ、既存のテクノロジーとモデルだけに頼るだけでは、新たな課題に対処するのに十分ではないことが分かってきました。私たちには、新たなブレークスルーとイノベーションが必要です。 Transformer ネットワーク アーキテクチャ、「言語」モデル (次のトークン予測、または自己回帰モデル) 学習パラダイム、スケーリング法則、および大量のデータとコンピューティング リソースは、人工知能に基づく大規模モデルの現在のパラダイム シフトを構成する中核的な技術要素です。この「黄金の組み合わせ」に基づいて、基本的な大規模人工知能モデルに関する現在の作業のほとんどは、トレーニングデータの量を継続的に増やし、モデルの規模を拡大することに重点を置いています。しかし、私たちはこのパラダイムが人工知能の将来の発展をサポートするには不十分だと考えています。既存のアーキテクチャに制約され、漸進的なイノベーションのみを追求する場合、既存の技術の道筋の限界が見えており、人工知能における基本的なイノベーションの最初の成長曲線のピークがすでに手の届くところにあることを意味します。 「車両を何台つなげても、列車は作れない。車両から列車に飛び移って初めて、10倍の成長が達成できる。」ジョセフ・シュンペーターの名言は、第2の成長曲線は、既存の成果の単純な重ね合わせからは生まれないことを示しています。人工知能の基本モデルの構成要素の中に、第2の成長曲線を活用する原動力を見つける必要があります。 そのため、マイクロソフトリサーチアジアでは、人工知能の第一原理に注目し、根本から人工知能の効率と性能を10倍、さらには100倍向上させ、より強力な創発能力を備えた基本モデルを構築し、人工知能を第2の成長曲線に導く方法を模索してきました。 人工知能における基礎イノベーションの第二成長曲線 基本モデルは人工知能の第一原理である人工知能の構成要素を 2 次元で展開すると、次のような部分が存在すると考えられます。最上部には自律エージェントがあり、その目標は自律学習と適応調整を通じてさまざまなタスクを完了することです。最も基本的なレベルは、「知能」の本質に対する科学的理論的裏付けであり、これは「知能」(特に人工知能)の境界とメカニズムを理解するのに役立ちます。両者の間の部分は基盤モデルと呼ばれます。データ、コンピューティング能力、新しいソフトウェアおよびハードウェア インフラストラクチャによってサポートされる基本モデルは、科学理論をインテリジェント エージェントの実際の動作に変換します。 汎用人工知能に関する基礎研究の構成要素 人工知能の将来の青写真を描くとき、基本モデルは間違いなく人工知能の第一原理であり、その中で基本ネットワークアーキテクチャ(モデルアーキテクチャ)と学習パラダイム(学習パラダイム)がその2つの中核的な基盤です。 上位層では、基本モデルが自律型インテリジェントエージェントの作成を推進し、上位層アプリケーションに継続的に電力を供給する発電機のように、より革新的なアプリケーションやシナリオに電力を供給します。一方、基本モデルは、知能の科学的理論に関する詳細な研究を促進することができます。実際、何兆ものパラメータを持つ大規模モデルが示す「激しい」美学であろうと、スケーリング則による主要な物理的指標の探索であろうと、それらはすべて科学的研究の一部であるべきです。知能に関する科学的理論の進歩により、将来的には単純な数式のみを使用して人工知能の法則を記述し、推論できるようになるかもしれません。 これらの目標を達成するには、中核となる強力な基礎モデルが必要です。基本モデルの再構築は、人工知能の基礎イノベーションの第 2 次発展曲線にとって重要な突破口となります。 次の質問は、基本モデルをどのように改善すればよいかということです。 前述のように、既存の「黄金の組み合わせ」は依然として基本モデルの技術的基礎ですが、将来の人工知能基本モデルの構築と開発をリードするには、より多くの基礎的かつ基礎的な研究の突破口が必要です。この組み合わせを根本的に変革することで、将来の AI トレーニングパラダイムの基礎となり、基本モデルが真に人間社会のインフラストラクチャとなることを期待しています。新世代の基本モデルには、強力さと効率性という 2 つの大きな特徴が必要です。このうち、強力とは、パフォーマンス、一般化能力、幻覚への抵抗能力における優れた性能に反映され、効率的とは、低コスト、高効率、低エネルギー消費を指します。 既存の大規模モデルは、データ量と計算能力を継続的に増加させること、つまり規模の法則によって、最初の問題をある程度解決してきましたが、これはコスト効率を犠牲にして達成されています。これらの制限を克服するために、Transformer に代わる RetNet や BitNet などの新しいネットワーク アーキテクチャを導入しました。同時に、私たちはマルチモーダル大規模言語モデル(MLLM)の進化を推進し、新しい学習パラダイムを模索し続け、 「3本柱のアプローチ」を使用して新しい基本モデルを構築し、人工知能の将来の発展のための強固な基盤を築いています。 推論効率次世代基本モデルネットワークアーキテクチャの革新の重要な原動力となる基本的なネットワーク アーキテクチャは、人工知能モデルのバックボーンです。基本的なアーキテクチャが十分に完璧である場合にのみ、上位レベルの学習アルゴリズムとモデル トレーニングが効率的に実行されることが保証されます。現在、Transformer アーキテクチャは大規模言語モデルで広く使用されており、その並列トレーニング特性によりモデルのパフォーマンスが大幅に向上し、長期依存性モデリングにおけるリカレントニューラルネットワークアーキテクチャの欠点をうまく解決しました。しかし同時に、推論の効率を向上させるという大きな課題ももたらします。 現在の大規模モデルの開発傾向によれば、Transformer アーキテクチャ上でモデルをトレーニングし続けると、既存のコンピューティング能力では次の段階の人工知能開発のニーズを満たすことが困難になることがすぐにわかるでしょう。 これにより、推論効率が既存の基本ネットワーク アーキテクチャの進化におけるボトルネックとなり、将来の基本ネットワーク アーキテクチャの変更を促進する重要な原動力にもなるという問題が明らかになりました。推論の効率性を向上させることは、コストを削減するだけでなく、基本モデルを水や電気などのインフラストラクチャやリソースに実際に変換して、誰もが簡単にアクセスして使用できるようにすることを意味します。 最近、私たちは新しい基本ネットワーク アーキテクチャである Retentive Network (RetNet) を立ち上げ、いわゆる「不可能三角形」問題を突破し、パレート最適化を実現しました。言い換えれば、RetNet は、優れたスケーラビリティと並列トレーニングを維持しながら、低コストの展開と高効率の推論を実現します。私たちの実験では、RetNet の推論コストはモデル シーケンスの長さに依存しないことも確認されました。つまり、将来的に長いテキスト シーケンス、長い画像シーケンス、またはより長いオーディオ シーケンスやビデオ シーケンスを処理する場合でも、RetNet は安定した効率的な推論を維持できるということです。これらの利点により、RetNet は Transformer に続く大規模言語モデル ネットワーク アーキテクチャの強力な後継者となります。 モデルネットワークアーキテクチャの「不可能三角形」問題 さらに、モデルの規模が拡大し続けるにつれて、コンピューティングのエネルギー消費の問題がますます顕著になり、現在のネットワーク アーキテクチャにおける人工知能の開発に対するもう 1 つの大きな障害となっています。私たちが立ち上げた BitNet は、この問題を効果的に軽減します。 BitNet は、1 ビットの大規模言語モデルのトレーニングをサポートする初の新しいネットワーク構造です。強力なスケーラビリティと安定性を備え、大規模言語モデルのトレーニングと推論のコストを大幅に削減できます。最先端の 8 ビット量子化方式とフル精度の Transformer ベースラインと比較すると、BitNet はメモリ使用量と計算エネルギー消費を大幅に削減しながら、非常に競争力のあるパフォーマンスを示します。さらに、BitNet はフル精度 Transformer と同様のスケーリング則を持ちます。効率性とパフォーマンスの利点を維持しながら、より大きな言語モデルに機能を効率的に拡張できるため、1 ビット大規模言語モデル (1 ビット LLM) が可能になります。 RetNet が並列推論パフォーマンスの観点からネットワーク アーキテクチャに革命をもたらしたのであれば、BitNet は直交の観点から推論効率を向上させました。これら 2 つの組み合わせ、および Mixed Experts Model (MoE) や Sparse Attention などのモデル効率を向上させる他のテクノロジの統合は、将来、基本的なモデル ネットワーク アーキテクチャの基礎となります。 マルチモーダル大規模言語モデルの進化の促進マルチモーダルネイティブに向けて将来の基本モデルの重要な特徴は、マルチモーダル機能、つまりテキスト、画像、音声、ビデオなどの複数の異なる入力と出力を統合できることです。これにより、基本モデルは人間のように聞く、見る、話す、描くことができます。これは将来の人工知能を構築するための避けられない方向性でもあります。 このような背景から、私たちはマルチモーダル大規模言語モデル Kosmos に関する一連の研究を実施しました。そのうち、コスモス1は人間の推論パターンに従ってテキスト、画像、音声、ビデオなどのタスクを処理でき、万能人工知能のプロトタイプを構築します。 Kosmos-2 は、知覚と言語の整合をさらに強化します。画像を言語で記述できるだけでなく、画像内のエンティティを識別することもできるため、マルチモーダル大規模言語モデルのきめ細かい整合 (グラウンディング) 機能が実現します。この機能は具現化された AI の基盤を築き、言語、知覚、行動、物理世界にわたるマルチモーダル モデルの大規模な統合の可能性を実証します。 Kosmos-2をベースにKosmos-2.5を打ち上げました。このバージョンでは、マルチモーダル大規模言語モデルに一般的なリテラシー機能が提供され、テキストが密集した画像を解釈できるようになり、インテリジェントなドキュメント処理やロボットによるプロセス自動化などのアプリケーションのための技術基盤が提供されます。次回のKosmos-3では、基本的なネットワークアーキテクチャと革新的な学習パラダイムの二重のイノベーションを推進することで、基本的な人工知能モデルの開発をさらに推進します。 Kosmos シリーズの全体的なアーキテクチャ図: Kosmos-1 および 2 マルチモーダル大規模言語モデルは、マルチモーダル入力と出力、きめ細かいアライメント、ユーザーの指示への従いをサポートし、マルチモーダル タスク (自然言語タスクを含む) のコンテキスト学習を実行できます。 さらに、音声は間違いなく将来のマルチモーダル大規模言語モデルの中核機能の 1 つです。そこで、ゼロサンプルテキストからの音声合成をサポートする音声マルチモーダル大規模言語モデル VALL-E もリリースしました。わずか 3 秒間の音声プロンプト サンプルで、VALL-E は入力プロンプトの音声に似た音声で入力テキストを読み上げることができます。回帰タスクに基づいてトレーニングされない従来の音声モデルとは異なり、VALL-E は言語モデルに基づいて直接トレーニングされます。この調査では、音声合成を言語モデリングタスクに直接変換することで、言語と音声モダリティの統合をさらに強化します。 VALL-E はまず、音声コーデック モデルを通じて連続音声入力を個別のトークンに変換し、統合された音声テキスト言語モデルをトレーニングできるようにします。 Kosmos シリーズのモデルと VALL-E は、マルチモーダル大規模言語モデルにおける当社の初期の研究です。当社は、大規模言語モデルに基本的なマルチモーダル認識および生成機能を持たせることを可能にしました。しかし、これではまだ十分ではありません。真のマルチモーダル推論、クロスモーダル移行、および新たな機能の実現には、将来の大規模なマルチモーダル言語モデルと基本的な AI モデルがマルチモーダル ネイティブでなければならないと私たちは考えています。 破壊的イノベーションに焦点を当てる汎用人工知能の基礎研究の第2次成長曲線の推進を継続基本モデルアーキテクチャとマルチモーダル大規模言語モデルにおける革新を継続的に進めることに加えて、基礎研究におけるさらなる破壊的なブレークスルーも必要です。コストの問題、長いシーケンスのモデリング/長期記憶、幻覚の問題、セキュリティの問題など、現在の大規模モデルの適用における多くの問題も、根本的な観点から解決する必要があると考えています。 まず、大規模言語モデル学習の理論的枠組みと基本原理。既存の研究は基本的に実験と経験に基づいています。将来の基礎革新は、より基礎的かつ理論的な観点から推進される必要があります。すでに圧縮ベースの作業がいくつか行われており、近い将来に大きな進歩が見られると考えています。 さらに、大規模モデルの開発により、多くのタスクにおいて人間(データ作成者やラベル作成者など)の能力を達成または上回ることが可能になります。そのためには、モデルが人間よりも強力であるという前提に基づいて、基本的な学習フレームワーク、データと監視信号のソース、評価などを含むがこれらに限定されない、新世代の人工知能研究パラダイムを探求する必要があります。例えば、合成データはますます重要になります。一方ではデータが不足し、他方ではモデルによって自動的に生成されるデータの品質がますます高くなります。もう 1 つの機会は、少量のデータと大規模なモデルで学習することです。モデルの自動探索と学習を強化学習と組み合わせることで、人工知能を人間が少量のデータから効率的に学習する方法に近づけることができます。これは、コンピューティング能力の拡張を通じてインテリジェンスをさらに強化するための実現可能な方向性の 1 つでもあります。 もう 1 つの機会は、少量のデータと大規模なモデルで学習することです。モデルの自動探索と学習を強化学習と組み合わせることで、人工知能を人間が少量のデータから効率的に学習する方法に近づけることができます。これは、コンピューティング能力の拡張を通じてインテリジェンスをさらに強化するための実現可能な方向性の 1 つでもあります。 最後に、将来の人工知能モデル、システム インフラストラクチャ、ハードウェアの開発において、共同イノベーションと共進化の機会が増えることが、ますます多くの研究によって示されています。 人工知能の長い探求において、私たちは前例のない歴史的節目に立っています。私たちは今、人工知能の分野において「ニュートン以前の時代」にいるのかもしれません。多くの未知と課題に直面していますが、多くのチャンスも抱えています。あらゆる探求と突破口は、未来の無限の可能性を告げています。私たちの研究を通じて、人々が汎用人工知能の基本モデルや理論、技術の発展動向についてより深い洞察を得ることができ、人工知能の未来についての「真実」が明らかになることを願っています。 私たちは、将来、人工知能が私たちの日常生活にさらに深く統合され、私たちの仕事、生活、コミュニケーションの方法を変え、人類にとって最も困難で重要な問題を解決し、さらには人類社会に大きな影響を与えると信じています。今後5年から10年は、人工知能にとって最も期待され、最もエキサイティングな時期となるでしょう。私と私の同僚は、人工知能が人類社会の発展と進歩の強力な原動力となるよう、人工知能の基礎研究の飛躍的進歩と革新的なアプリケーションの普及を促進することに引き続き注力していきます。 著者フル・ウェイ博士は現在、Microsoft Research Asia のグローバル研究パートナーとして、基本モデル、自然言語処理、音声処理、マルチモーダル人工知能などの分野で研究を行うチームを率いています。最近では、汎用人工知能の基礎研究とイノベーションの推進に尽力しています。魏博士は、西安交通大学の非常勤博士課程指導者、香港中文大学の教育部・マイクロソフト重点実験室の共同所長も務めています。 魏博士は、トップクラスの会議やジャーナルに200本以上の研究論文を発表しており(引用数30,000回以上、H指数84)、AAAI 2021 Best Paper Nomination AwardとKDD 2018 Best Student Paper Awardを受賞しています。 魏博士は、2004年に武漢大学で学士号を、2009年に博士号を取得しました。 2017年、彼は自然言語処理への貢献により、MITテクノロジーレビューの35歳未満の中国のイノベーターの年次リスト(MIT TR35 China)に選出されました。 |
<<: OpenAIの最強のライバルトレーニングAIがLLMブラックボックスを分解し、ビッグモデルの「魂」を予期せず垣間見る
>>: 同義千文の720億パラメータモデルがオープンソース化、初の「フルサイズ・フルモード」オープンソース化を実現
11月9日、スタンフォード大学の最近の研究で、スマートフォンは音声パターンから人が酔っているかどうか...
過去 10 年間で、AI (人工知能) の分野は目覚ましい進歩を遂げており、NLP (自然言語処理)...
[[428386]]ヘンリー・A・キッシンジャー、エリック・シュミット、ダニエル・ハッテンロッカーに...
最近、「重慶の人気列車がドローンに衝突され停止」する動画がインターネット上で広く出回っている。 [[...
人工知能(AI)技術は現在、新たな急速な成長期に入り、将来の世界を変える可能性が最も高い破壊的技術と...
マルチモーダル大規模言語モデルは、強力な画像理解および推論機能を発揮します。しかし、現在の観察に基づ...
マルチモーダル機械学習は、さまざまなシナリオで目覚ましい進歩を遂げています。しかし、マルチモーダル学...
[51CTO.com からのオリジナル記事] モノのインターネットの普及とセンサーの広範な使用により...
【51CTO.comオリジナル記事】 「物理システムのデジタルコピーを使用してリアルタイムで最適化す...
人工知能技術は、今日の状況に対応し、現実世界に適用するのに苦労しています。テクノロジーに興味があるな...
1. 全体的なアーキテクチャ粗いソートは、リコールと細かいソートの中間のモジュールです。 。数万の候...