清華大学の劉志遠氏:「ビッグモデルに関する10の質問」、新しいパラダイムの下での研究の方向性を見つける

清華大学の劉志遠氏:「ビッグモデルに関する10の質問」、新しいパラダイムの下での研究の方向性を見つける

大規模モデルの出現により AI 研究の新しい時代が到来し、それによってもたらされた改善は非常に大きく、多くの分野の研究問題に対して特定のアルゴリズムを設計することで達成される改善を上回っています。

具体的には、Finetune の事前トレーニングの新しいパラダイムの最も重要な機能は、統一されたフレームワークと統一されたモデルです。まず、より統一されたアーキテクチャです。事前トレーニングが登場する前は、CNN、RNN、Gate、Attention などのアルゴリズム フレームワークが次々と登場していました。 2017 年に Transformer が登場して以来、さまざまな人気フレームワークが統一されたフレームワークに置き換えられました。第二に、この統合フレームワークは、事前トレーニング メカニズムを通じて統合モデルを提供するため、統合モデルを微調整し、同時に多くの下流タスクで使用できるようになりました。

では、ビッグモデルの時代に緊急に注目し、調査する必要がある新しい問題は何でしょうか?

そこで、深く掘り下げる価値のある 10 の質問を皆さんと共有したいと思います。大規模モデルの時代に、より多くの研究者が独自の研究の方向性を見つけられることを願っています。

問題は次のとおりです。

1. 理論: 大規模モデルの基本理論は何ですか?

2. アーキテクチャ: Transformer は究極のフレームワークですか?

3. エネルギー効率: 大規模モデルをより効率的にするには?

4. 適応: 大規模なモデルを下流のタスクにどのように適応させるか?

5. 制御可能性: 大規模モデルの制御可能な生成をどのように実現するか?

6. セキュリティ: 大規模モデルにおけるセキュリティ倫理の問題をどのように改善するか?

7. 認知: 大規模モデルが高度な認知能力を獲得できるようにするにはどうすればよいでしょうか?

8. アプリケーション: 大規模モデルはどのような革新的なアプリケーションを提供できますか?

9. 評価: 大規模モデルのパフォーマンスをどのように評価するか?

10. 使いやすさ: 大規模モデルの使用のハードルを下げるにはどうすればよいでしょうか?

01 理論:ビッグモデルの基本理論は何ですか?

まず第一に、大きなモデルにおける最初の非常に重要な問題は、その基本的な理論的な問題であると私は考えます。大規模モデルの非常に重要な特徴は、ごく少量の下流タスク データを使用して、関連する下流タスクを適応させることができることです。下流タスク全体のトレーニング データであっても、少数ショットの学習であっても、ゼロショットの学習であっても、非常に優れた結果を達成できます。同時に、事前トレーニングから下流のタスク適応までのプロセスでは、調整が必要なパラメータの数は非常に少なくなります。これら 2 つの特性は、大規模モデルによってもたらされた新しい現象です。

この現象については多くの疑問があります。

まず、ビッグモデルとはいったい何でしょうか?大規模モデルの定量的または理論的分析を行うには、どのような優れた数学的または分析的ツールが必要でしょうか? これ自体が非常に重要な問題です。

第二に、どのように――なぜ大きなモデルが優れているのでしょうか?大規模モデルはこれをどのように行うのでしょうか?事前トレーニングと微調整はどのように関連していますか?そして、この大きなモデルは何を学んだのでしょうか?これらは「どのように」という質問です。

最後に、なぜ——なぜ大規模なモデルはそれほどうまく学習できるのでしょうか?この点に関しては、過剰パラメータ化理論など、すでにいくつかの非常に重要な研究理論が​​存在しますが、究極の理論的枠組みのベールはまだ明らかにされていません。これら 3 つの側面、つまり「何を」「どのように」「なぜ」に関しては、ビッグ モデルの時代には探求する価値のある理論的な問題が数多くあります。

02 アーキテクチャ: Transformer は究極のフレームワークですか?

2つ目の問題は、大規模モデルで使用される主流のインフラストラクチャであるTransformerが5年前(2017年)に提案されたことです。モデルのサイズが大きくなり続けると、パフォーマンスの向上は徐々に限界収益の減少を示していることがわかります。それでは、Transformer は究極のフレームワークなのでしょうか? Transformer よりも優れた効率的なフレームワークを見つけることは可能ですか?これも検討する価値のある質問です。

ニューラル ネットワーク自体は神経科学にヒントを得たものであり、他の分野のサポートを受けて次世代の大規模モデル フレームワークを探索することができます。数学からのインスピレーションには、非ユークリッド空間多様体のフレームワークや、いくつかの幾何学的事前分布をモデルに組み込む方法などがあり、これらは比較的新しい研究方向です。

この問題は、状態空間モデルなどの工学や物理学の観点や、動的システムの観点などからも考えることができます。3 つ目の側面は神経​​科学から来ています。最近、脳のような効果を求めてスパイキング ニューラル ネットワークを研究している人もいます。上記はすべて、新しいアーキテクチャに関する最先端の研究です。次世代の大規模モデル フレームワークとは具体的に何でしょうか?まだ標準的な答えはなく、これ自体が緊急に検討する必要がある問題です。

03 エネルギー効率: 大規模モデルをより効率的にするには?

3 番目の問題は、大規模モデルのパフォーマンスです。大規模なモデルが大きくなるにつれて、コンピューティングとストレージのコストは当然増加します。最近、GreenAI という概念が提案されました。これは、人工知能モデルを総合的に設計およびトレーニングするには、コンピューティングのエネルギー消費を考慮する必要があることを意味します。この問題に対処するために、モデルが大規模化するにつれて、AI をコンピュータ システムと統合する必要性が高まり、大規模モデルに対するより効率的なサポート システムを提案する必要があると考えています。一方では、より効率的な分散トレーニング アルゴリズムを構築する必要があります。この点では、国際的に有名な DeepSpeed や Wudao チームが開発したいくつかの加速アルゴリズムなど、国内外で関連する研究が数多く行われています。

一方、大きなモデルを学習させて使用すると、その「大きさ」によって推論処理が非常に遅くなります。そのため、モデルをいかに効率的に圧縮して効果を維持しながら推論を高速化するかが、もう一つの最先端の方向性です。この点に関する主な技術的ルートには、剪定、蒸留、量子化などがあります。同時に、最近、大規模なモデルには非常に強いスパース分布現象があることが分かりました。これは、モデルの効率的な圧縮と計算に非常に役立ちますが、これにはいくつかの特殊なアルゴリズムのサポートが必要です。

04 適応: 大規模なモデルを下流のタスクにどのように適応させるか?

4 番目の質問は、大規模なモデルがトレーニングされたら、それを下流のタスクにどのように適応させることができるかということです。大規模なモデルは既知のタスクでより優れたパフォーマンスを発揮すると同時に、定義されていない複雑なタスクをサポートする可能性も示します。同時に、大規模モデルが大きくなるにつれて、下流のタスクに適応するためのコンピューティングとストレージのオーバーヘッドが大幅に増加することがわかります。 2020年から2021年にかけてトップカンファレンスで発表された論文の統計を見ると、事前トレーニング済みモデルを使用する論文が増えていますが、実際に大規模なモデルを使用する論文の数はまだ非常に少ないことがわかります。

非常に重要な理由は、世界中で多くの大規模モデルがオープンソース化されているにもかかわらず、多くの研究機関が依然として大規模モデルを下流タスクに適応させることができていないことです。これは大規模モデルにとって非常に重要な研究フロンティアです。非常に重要な方向性は、先ほど唐潔教授が言及したプロンプトチューニングです。事前トレーニングプロセスで下流タスクの形式をいわゆるマスク言語モデルに似た形式に変更することで、適応プロセスがよりスムーズかつ容易になります。

もう 1 つの非常に重要なフロンティアは、パラメータ効率の高い学習、つまりデルタ チューニングです。基本的な考え方は、大規模なモデル内のごく小さなパラメータのみを調整することで、モデルを下流のタスクにすばやく適応させ、適応プロセスをそれほど困難にしないことです。これが、大規模なモデルを下流のタスクにすばやく適応させる方法の重要な問題であると考えています。これは非常に最先端の方向性です。先ほどタン教授がおっしゃったように、私たちはこの分野での迅速な研究をサポートするために、OpenPrompt と OpenDelta という 2 つのツールをオープンソース化しました。皆さんがこれらのツールを使い、コメントや提案を寄せ、さらには貢献してくれることを歓迎します。

05 制御可能性: 大規模モデルの制御可能な生成を実現するにはどうすればよいでしょうか?

5 番目の問題は、大規模モデルの制御可能な生成です。現在、大規模モデルはいくつかの新しいテキストや画像を生成できますが、生成プロセスに必要な条件や制約を正確に追加する方法は、大規模モデルにとって非常に重要な研究方向です。

この方向への技術的な解決策も数多くあり、その中には、生成プロセスが私たちが提供する条件を受け入れるようにいくつかのプロンプトを追加するという、Tang教授が言及したアイデアも含まれます。

この点に関しては、統一された制御可能な生成フレームワークを確立する方法、より優れた評価方法を実装する方法、生成されたテキストに対して概念的または事実的な自己一貫性テストを実行する方法、新しいデータに関連するデータを生成する方法など、いくつかの未解決の問題もあります。

06 セキュリティ: 大規模モデルにおけるセキュリティ倫理の問題をどのように改善するか?

6 番目の問題は、現在の大型モデル自体が安全倫理にほとんど配慮していないことです。実際、大規模なモデルは攻撃を受けやすく、入力がわずかに変更されただけで機能しなくなる可能性があります。さらに、大規模モデルの使用には特定の倫理的問題があり、これらの問題により、大規模モデルに的を絞った制約を課す必要があります。

この点については、黄敏烈教授を含むチームも研究を進めています。特に、大規模なモデルは意図的にバックドアを埋め込まれやすく、特定のシナリオで特定の反応を示す傾向があることがわかりました。これは非常に重要なセキュリティ問題です。

さらに、以前の研究では、モデルが大きくなるにつれて、モデルの偏りが増し、信頼性が低下することが示されています。信頼性が低下するというこの傾向は、調査する必要があるものです。

07 認知: 大規模モデルが高度な認知機能を獲得できるようにするにはどうすればよいでしょうか?

7 番目の質問は、大規模なモデルは人間の高度な認知能力を学習できるかどうかです。大型モデルは、人間のようにいくつかのタスクを完了できるように作成できますか?人間がタスクを完了するとき、一般的にはいくつかのことを行います。まず、タスクをいくつかの単純なタスクに分割しようとします。次に、これらのタスクに関連する情報を取得します。最後に、より複雑なタスクを完了するために、いわゆる高レベルの推論を実行します。

これも最先端の方向性であり、非常に探求する価値があります。国際的には、WebGPT などの方法を使用して、大規模なモデルが検索エンジンなどの使用方法を学習できるようにする試みが始まっています。さらに、この大きなモデルに、人間のようにインターネットを閲覧し、的を絞った方法で関連情報を取得し、タスクを完了することを学習させることが可能かどうかも疑問です。

08 アプリケーション: 大型モデルの革新的なアプリケーションは何ですか?

8番目の質問は、多くの分野における大規模モデルの革新的な応用です。近年、Nature の表紙記事には多種多様なアプリケーションが登場しており、その中で大規模モデルが重要な役割を果たし始めています。この点でよく知られている研究は AlphaFold であり、これはタンパク質構造予測全体に革命的な影響を与えました。

今後この方向性においては、AIが得意とする大規模データモデリングや大規模モデル生成プロセスにドメイン知識をどのように組み込むかが重要な課題となります。これは、大規模モデルを革新的なアプリケーションに活用するための重要な命題です。

09 評価: 大規模モデルのパフォーマンスをどのように評価するか?

9 番目の質問は、大規模なモデルがますます大規模に構築され、構造、データ ソース、トレーニング ターゲットの種類が増えるにつれて、これらのモデルのパフォーマンスはどの程度向上するのかということです。まだ取り組む必要がある分野は何ですか?大型モデルの性能評価に関しては、大型モデルの長所と短所を判断するための科学的な基準が必要です。知源もこの点で相応の努力をしており、「知源指数」という概念を提案しました。

10. 使いやすさ: 大規模モデルの使用のハードルを下げるにはどうすればよいでしょうか?

最後に、この大規模モデルは、統一されたフレームワークと統一されたモデルのサポートの下で非常に強力な機能を発揮しており、今後さまざまなシナリオで広く使用されることが期待されます。より幅広い応用を実現するためには、その利用の敷居をいかに下げるかが課題となります。この点では、歴史的なデータベース システムやビッグ データ分析システムからヒントを得て、大規模モデル システムを構築し、基盤となる関連コンピューティング デバイス、システム サポート、ユーザー インターフェイス、アプリケーションの普遍性などについて統一的な考慮を行う必要があります。

この点に関しては、清華大学とAIASの支援を受けて、最近、トレーニング、微調整、推論から後処理までの全プロセスに効率的なコンピューティングサポートを提供できる大規模モデルのサポートシステムを開発しており、3月末に正式にリリースされる予定です。個別のキットは現在オンラインで入手可能であり、誰でもビッグモデルシステムを使用して、ビッグモデルの時代をより適切にナビゲートし、最先端の探索とアプリケーションを行うことができます。

まとめると、上記の 10 の質問は、探求する価値のある非常に重要な方向性であると思います。ビッグ モデルの時代に、より多くの学生や研究者が研究する価値のある問題を発見してくれることを願っています。これはまったく新しい時代です。古い問題がいくつか消え、新しい問題がいくつか発生しています。私たちは、一緒にその問題に取り組んでいきたいと考えています。

<<:  行列分解はディープラーニングに勝る! MIT が時系列データベース tspDB をリリース: 機械学習に SQL を使用

>>:  時間ステップを100倍短縮すると、従来のニューラルネットワークと同等の精度を実現:上海交通大学などがANN-SNN変換フレームワークSpikeConverterを提案

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

機械学習パイプラインのデータをオーケストレーションする方法

翻訳者 | 李睿校正 | 梁哲、孫淑娟機械学習のワークロードでは、結果を迅速に生成するために効率的な...

2018 年の人工知能に関する 10 冊の良書のまとめ

いろいろ検索してみたところ、インターネット上にはまだ人工知能に関する本のリストがないので、自分で作っ...

GPT や Llama などの大規模モデルには「反転の呪い」があります。このバグを軽減するにはどうすればよいでしょうか?

中国人民大学の研究者らは、Llamaなどの因果言語モデルが遭遇する「反転の呪い」は、次のトークン予測...

今年上半期の世界的なベンチャーキャピタル投資はほぼ半減し、AIスタートアップには400億ドル以上が流入した。

調査会社ピッチブックが7月6日に発表したデータによると、世界のベンチャーキャピタルファンドは2023...

ビッグモデルが明らかに:ユーザーレビューから金脈を抽出する方法

著者 | 崔昊レビュー | Chonglouまとめこの論文では、大規模な言語モデルと LangCha...

アジャイル開発が機械学習に役立つ5つの方法

[51CTO.com クイック翻訳] フレームワークと方法として、アジャイル開発は現在、ソフトウェア...

データの品質は機械学習を成功させる鍵です

翻訳者 | 張毅校正 | 梁哲、孫淑娟出典: frimufilms が作成したビジネス写真 - ww...

...

ホットマネーの流入が止まると、2019年の人工知能業界の浮き沈みに関する考察

昨年後半から、インターネット業界の人々は生活がますます困難になっていると感じています。かつてセルフメ...

ディープラーニングは私たちの生活に革命をもたらした

【51CTO.com クイック翻訳】ディープラーニングが泡のようなものだとしたら、それを真に制御する...

ナレッジグラフの紹介

1.1 ナレッジグラフの開発履歴ナレッジグラフは 1950 年代に始まり、大きく 3 つの開発段階に...

認知的ブレークスルー II: 人工知能の時代に私たちが経験している社会的、文化的変化

人類はアフリカでホモ・サピエンスとして誕生して以来、約50万年にわたる進化の過程を経てきました。人類...

詳細レポート: ビッグモデルが AI を全面的に加速させます!黄金の10年が始まる

過去70年間に「3つの上昇と2つの下降」を経験した後、基盤となるチップ、コンピューティングパワー、デ...