1万語に及ぶ長い記事です！ディープマインドの科学者が2021年の高エネルギー研究15件をまとめる

2021 年には、より強力なコンピューティング能力、データ、モデルの助けを借りて、機械学習と自然言語処理の技術は急速に発展し続けるでしょう。

最近、DeepMind の科学者 Sebastian Ruder 氏は、過去 1 年間で主に次のような 15 の活気に満ちた刺激的な研究分野をまとめました。

ユニバーサルモデル
大規模なマルチタスク学習
トランスフォーマーを超えて
促す
効率的な方法
ベンチマーク
条件付き画像生成
科学のための機械学習
プログラム合成
バイアス
検索の拡張
トークンフリーモデル
時間的適応
データの重要性
メタ学習

セバスチャン・ルーダーはロンドンのDeepMindの研究科学者です。ベルリンを拠点とするテキスト分析のスタートアップ企業 AYLIEN で研究科学者として働きながら、Insight Data Analytics Research Center で自然言語処理とディープラーニングの博士号を取得しました。

1 一般モデル

汎用人工知能は、AI 実践者の目標であり続けています。機能が汎用的であればあるほど、モデルは強力になります。

2021 年には、事前トレーニング済みモデルはより大規模かつ多用途になり、少し微調整するだけでさまざまなアプリケーションシナリオに適応できるようになります。この事前トレーニングの微調整は、機械学習研究における新しいパラダイムとなっています。

コンピュータビジョンの分野では、Vision Transformerなどの教師あり事前学習モデルの規模が徐々に拡大していますが、データの量が十分に大きい限り、自己教師あり事前学習モデルの効果は教師ありモデルに匹敵する可能性があります。

音声分野では、W2v-BERT などの wav2vec 2.0 に基づくいくつかのモデルや、より強力な多言語モデル XLS-R も驚くべき結果を示しています。

同時に、研究者たちは、ビデオと言語、音声と言語など、これまで十分に研究されていなかったモダリティの組み合わせを改善できる、新しい大規模統合事前トレーニングモデルを発見しました。

視覚と言語においては、制御された研究により、言語モデリングパラダイムにさまざまなタスクを設定することで、マルチモーダルモデルの重要なコンポーネントも明らかになりました。このタイプのモデルは、強化学習やタンパク質構造予測などの他の分野でもその有効性が実証されています。

多数のモデルで観察されるスケーリング動作を考慮すると、さまざまなパラメータサイズでのパフォーマンスを報告することが一般的な方法になっています。ただし、事前トレーニング済みモデルのモデルパフォーマンスの向上が、必ずしも下流のタスクのパフォーマンスの向上に完全に反映されるわけではありません。

要約すると、事前トレーニング済みモデルは、特定のドメインまたはモダリティの新しいタスクにうまく一般化できることが示されています。これらは強力な少数ショット学習と堅牢な学習能力を示しています。したがって、この研究の進歩は非常に価値があり、現実世界での新しいアプリケーションを可能にする可能性があります。

開発の次のステップとしては、将来的にはさらに多くの、さらに大規模な事前トレーニング済みモデルが開発されるだろうと研究者たちは考えています。同時に、単一のモデルが同時に複数のタスクを実行することも期待できます。これは言語の場合にすでに当てはまっており、モデルは共通のテキストからテキストへの形式でフレーム化することで、多くのタスクを実行できます。同様に、画像モデルと音声モデルが単一のモデル内で多くの共通タスクを実行するようになると思われます。

2 大規模マルチタスク学習

事前トレーニング済みのモデルのほとんどは自己教師型です。これらは通常、明示的な監督を必要としない目的を通じて、大量のラベルなしデータから学習します。しかし、多くの分野では、より優れた表現を学習するために使用できる大量のラベル付きデータがすでに存在しています。

これまでに、T0、FLAN、ExT5 などのマルチタスクモデルが、主に言語に関する約 100 のタスクで事前トレーニングされています。このような大規模なマルチタスク学習は、メタ学習と密接に関連しています。さまざまなタスク割り当てにさらされると、モデルはコンテキスト学習の実行方法など、さまざまな種類の動作を学習できます。

ExT5 は大規模なマルチタスク学習を可能にします。事前トレーニング中、ExT5 はテキストからテキストへの形式でさまざまなタスクのセットの入力に基づいてトレーニングされ、対応する出力が生成されます。これらのタスクには、マスク言語モデリング、要約、意味解析、クローズドブック質問応答、スタイル転送、対話モデリング、自然言語推論、Winograd スキーマスタイルのコア参照解析などが含まれます。

T5 や GPT-3 などの最近のモデルの中には、テキストからテキストへの形式を使用するものがあり、これは大規模なマルチタスク学習のトレーニングの基礎となっています。したがって、モデルはタスク固有の損失関数やタスク固有のレイヤーを手動で設計する必要がなくなり、タスク間学習を効果的に実行できるようになります。この最近のアプローチは、自己教師あり事前トレーニングと教師ありマルチタスク学習を組み合わせることの利点を強調し、この 2 つを組み合わせることでより一般的なモデルが実現できることを実証しています。

3. トランスフォーマー以上のもの

上記の事前トレーニング済みモデルのほとんどは、Transformer モデルアーキテクチャに基づいています。 2021年、研究者たちはTransformerの代替モデルも模索してきました。

Perceiver モデルのアーキテクチャは Transformer アーキテクチャに似ており、固定次元の潜在配列を基本表現として使用し、クロスアテンションを通じて入力を調整して入力を高次元にスケーリングします。 Perceiver IO は、構造化された出力スペースを処理するためにモデルアーキテクチャをさらに拡張します。

Transformer の自己注意層を改善しようとするモデルもいくつかあります。比較的成功した例としては、MLP-Mixer モデルや gMLP モデルなどの多層パーセプトロン (MLP) の使用が挙げられます。さらに、FNet はトークンレベルの情報を混合するために、自己注意の代わりに 1 次元フーリエ変換を使用します。

一般的に、モデルアーキテクチャを事前トレーニング戦略から切り離すことは価値があります。 CNN が Transformer モデルと同じ方法で事前トレーニングされていれば、多くの NLP タスクでより競争力のあるパフォーマンスを達成できるでしょう。

同様に、ELECTRA スタイルの事前トレーニングなどの他の事前トレーニング目的関数を使用すると、パフォーマンスが向上する可能性もあります。

4つのヒント

GPT-3 に触発されたプロンプトは、NLP モデルにとって実行可能な新しいパラダイムです。

プロンプトは通常、モデルに何らかの予測を行うように求めるパターンと、予測をクラスラベルに変換するための構文で構成されます。現在の方法には、少量学習のためのプロンプトを使用する PET、iPET、AdaPET などがあります。

ただし、プロンプトは万能薬ではなく、モデルのパフォーマンスはプロンプトによって大きく異なる可能性があります。そして、最適なヒントを見つけるためには、ラベル付けされたデータが依然として必要です。

少数ショットの設定でモデルのパフォーマンスを確実に比較するために、研究者は新しい評価手順を開発しました。公開プロンプトプール (P3) からの大量のプロンプトのコレクションを使用することで、プロンプトを使用する最適な方法を探ることができ、また、一般的な研究分野の優れた概要を提供することもできます。

研究者たちは、ヒントを使用してモデル学習を改善することについて、まだ表面的な研究にとどまっている。後のプロンプトは、より長い説明、肯定例と否定例、一般的なヒューリスティックなど、より複雑なものになります。ヒントは、自然言語の説明をモデルのトレーニングに組み込むより自然な方法である可能性もあります。

5つの効率的な方法

事前トレーニング済みのモデルは通常非常に大きく、実際には効率的ではないことがよくあります。

2021 年には、より効率的なアーキテクチャとより効果的な微調整方法がいくつか登場しました。モデル側では、自己注意の新しい、より効率的なバージョンもいくつかあります。

現在の事前トレーニング済みモデルは非常に強力であり、少数のパラメータを更新するだけで効果的に調整できるため、継続的なプロンプトとアダプターに基づくより効果的な微調整方法が急速に開発されました。この能力により、学習者は適切な接頭辞や適切な遷移を学習して、新しいパターンに適応することも可能になります。

さらに、より効率的なオプティマイザーの作成やスパース性の量子化など、効率を向上させる他の方法もあります。

モデルが標準ハードウェア上で実行できない場合、または実行コストが高すぎる場合、モデルの有用性は大幅に損なわれます。モデルの拡張が進むにつれて、モデルの展開でこれらの方法を使用し、そのメリットを享受できるようにするには、モデルの効率を継続的に向上させる必要があります。

研究の次のステップでは、効果的なモデルとトレーニング方法をより簡単に入手して使用できるようになるはずです。同時に、コミュニティは、新しいモデルを最初から事前トレーニングすることなく、大規模なモデルとインターフェースし、それらを効率的に適応、結合、または変更するためのより効率的な方法を開発します。

6つのベンチマーク

機械学習と自然言語処理モデルの機能は最近急速に向上し、多くのベンチマークで測定された機能を上回っています。同時に、コミュニティが評価に使用できるベンチマークはますます少なくなっており、それらのベンチマークは少数のエリート機関から提供されています。各機関によるデータセットの使用状況を見ると、データセットの 50% 以上が 12 の機関に帰属していることがわかります。

ジニ係数で測定されたデータセットの使用は、機関や特定のデータベースに集中する傾向が強まっています。

したがって、2021 年には、ベストプラクティスと、これらのモデルの将来の開発を確実に評価する方法について多くの議論が行われることが予想されます。 2021 年に自然言語処理コミュニティで登場した注目すべきランキングパラダイムには、動的敵対的評価、コミュニティ主導の評価、BIG-bench などの評価データセットを作成するために共同で取り組むコミュニティメンバー、さまざまなエラータイプにわたるインタラクティブなきめ細かい評価、単一のパフォーマンス指標評価モデルを超えた多次元評価などがあります。さらに、新しいベンチマークでは、少数ショット評価やクロスドメイン一般化などの影響力のある設定が提案されています。

また、異なる言語（インドネシア語とルーマニア語）などの特定のモダリティや、マルチモーダルおよび多言語設定などの一般的な事前トレーニング済みモデルの評価に重点を置いた新しいベンチマークも見られ、評価メトリックにもさらに注意を払う必要があります。

機械翻訳のメタ評価によると、過去 10 年間の機械翻訳論文 769 件のうち、一般的に人間との相関性が高い 108 件の代替指標が提案されているにもかかわらず、論文の 74.3% が依然として BLEU のみを使用しています。そのため、GEM や二次元ランキングなどの最近の提案では、モデルと手法の共同評価が提案されています。

ベンチマークと評価は、機械学習と自然言語処理における科学的進歩の鍵となります。正確で信頼できるベンチマークがなければ、実際に進歩しているのか、それとも定着したデータセットや指標に過剰適合しているのかを知ることは不可能です。

ベンチマークの問題に対する認識を高めるには、次のステップとして、新しいデータセットをより慎重に設計する必要があります。新しいモデルの評価では、単一のパフォーマンスメトリックに重点を置くのではなく、モデルの公平性、効率性、堅牢性などの複数の側面を考慮する必要があります。

7 条件付き画像生成

条件付き画像生成、つまりテキストの説明に基づいて画像を生成する技術は、2021 年に大きな進歩を遂げました。

最近のアプローチでは、DALL-E モデルのようにテキスト入力から直接画像を生成するのではなく、CLIP などの画像とテキストの結合埋め込みモデルを活用して、VQ-GAN などの強力な生成モデルの出力を導きます。

信号からノイズを徐々に除去する尤度ベースの拡散モデルは、GAN を上回る強力な新しい生成モデルとして登場しました。テキスト入力に基づいて出力を誘導することで、モデルによって生成される画像は徐々にリアルな画質に近づきます。このようなモデルは、説明に基づいて画像の領域を変更できる画像修復にも特に適しています。

GAN ベースのモデルと比較すると、最近の拡散ベースのモデルはサンプリング速度がはるかに遅くなります。これらのモデルは、実際のアプリケーションで役立つように、より効率的にする必要があります。この分野では、これらのモデルがどのようなアプリケーションを通じて人間の創作活動を最も効果的に支援できるかを判断するために、人間とコンピュータの相互作用に関するさらなる研究も必要です。

8 科学のための機械学習

2021年、機械学習技術は自然科学の進歩においていくつかの飛躍的な進歩を遂げました。

気象学では、降水量の予測と即時予測の進歩により、予測精度が大幅に向上しました。どちらの場合も、モデルは最先端の物理学ベースの予測モデルよりも優れた性能を発揮しました。

生物学において、AlphaFold 2.0 は、類似の構造が存在しない場合でも、これまでにない精度でタンパク質構造を予測します。

数学では、機械学習が数学者の直感を活用して新しいつながりやアルゴリズムを発見することが示されています。

トランスフォーマーモデルは、十分なトレーニングデータが与えられれば局所的に安定するなど、数学的な特性を持つ微分システムを学習できることも示されています。

研究者が新たな進歩を発見し開発するのを支援するためにモデルをインザループで使用することは、特に魅力的な方向性です。強力なモデルの開発と、インタラクティブな機械学習および人間とコンピュータの相互作用の研究の両方が必要です。

9 手続き型合成

今年、大規模言語モデルの最も注目すべき応用例の 1 つはコード生成であり、Codex が GitHub Copilot の一部として初めて主要製品に統合されました。

しかし、複雑で長い形式のプログラムを生成することは、現在のモデルでは依然として課題となっています。関連する興味深い方向性として、プログラムを実行またはモデル化する方法の学習があります。これは、中間の計算ステップがスクラッチパッドに記録されるマルチステップ計算を実行することで改善できます。

実際には、コード生成モデルがソフトウェアエンジニアのワークフローをどの程度改善するかは未解決の問題のままです。これらのモデルが本当に有用であるためには、会話モデルと同様に、新しい情報に基づいて予測を更新でき、コードのローカルコンテキストとグローバルコンテキストの両方を考慮できる必要があります。

10. 偏見

事前トレーニング済みの大規模モデルの潜在的な影響を考慮すると、これらのモデルに有害なバイアスが含まれず、有害なコンテンツを生成するために悪用されず、持続的に使用されることが重要です。

一部の研究者は、性別、特定の人種グループ、政治的志向などの保護された属性に対する偏見を調査し、そのようなモデルの潜在的なリスクを強調しました。

ただし、毒性モデルからバイアスを単純に除去すると、疎外されたグループに関連するテキストのカバレッジが減少する可能性があります。

これまで、バイアスは主に英語と事前トレーニング済みモデルのコンテキスト、および特定のテキスト生成または分類アプリケーションで調査されてきました。これらのモデルの使用目的とライフサイクルを考慮すると、多言語設定でのさまざまなモデルの組み合わせ、および事前トレーニング後、微調整後、テスト時など、事前トレーニング済みモデルの使用のさまざまな段階でのバイアスを特定して軽減することにも取り組む必要があります。

11 検索機能の強化

検索強化言語モデルは、事前トレーニングおよび下流のタスクに検索を統合できます。

2021 年には、検索コーパスは 1 兆トークンにまで成長し、モデルは Web をクエリして質問に答えることができるようになりました。研究者らは、事前トレーニング済みの言語モデルに検索機能を統合する新しい方法も発見した。

検索拡張により、モデルはパラメータに格納する知識が少なくて済むため、パラメータをより効率的に利用して、それらを検索できるようになります。また、検索に使用するデータを更新するだけで、効果的なドメイン適応を実現します。

将来的には、常識的な知識、事実関係、言語情報など、さまざまな種類の情報を活用するさまざまな形式の検索が登場する可能性があります。検索拡張は、知識ベースの全体論的アプローチやオープン情報抽出検索など、より構造化された形式の知識検索と組み合わせることもできます。

12. トークンモデルなし

BERT のような事前トレーニング済み言語モデルの登場以来、トークン化されたサブワードで構成されたテキストが NLP の標準入力形式になりました。

しかし、サブワードのトークン化は、ソーシャルメディアや特定の種類の形態論でよく見られるタイプミスやスペルのバリエーションなどのノイズの多い入力ではパフォーマンスが低下することがわかっています。

2021 年には、文字列を直接操作する新しいトークンフリー方式が登場しました。これらのモデルは多言語モデルよりも優れており、特に非標準言語で優れたパフォーマンスを発揮することが示されています。

したがって、トークンフリーは、サブワードベースの Transformer よりも有望な代替モデルとなる可能性があります。

トークンフリーモデルは柔軟性が高いため、形態論をより適切にモデル化し、新しい単語や言語の変化に対してより適切に一般化することができます。しかし、異なるタイプの形態論や単語形成プロセスに基づくサブワードアプローチと比較して、これらのモデルがどのように機能するか、またこれらのモデルがどのようなトレードオフを行うかは不明のままです。

13 タイミング適応性

モデルは、トレーニングに使用されたデータに基づいてさまざまな方法で偏りが生じます。

2021 年には、これらのバイアスがますます注目を集めており、その 1 つは、モデルがトレーニングされるデータの時間枠におけるバイアスです。言語は絶えず進化し、新しい単語が絶えず会話に登場していることを考えると、古いデータに基づくモデルは一般化が比較的不十分であることが示されています。

ただし、時間的適応がいつ役立つかは、下流のタスクによって異なる場合があります。たとえば、言語使用におけるイベント駆動型の変化がタスクのパフォーマンスに関連していない場合、タスクにはほとんど役立たない可能性があります。

将来的には、新しい時間枠に適応できる方法を開発するには、静的な事前トレーニングの微調整設定から脱却し、事前トレーニング済みモデルの知識を更新するための効率的な方法が必要になります。この点では、これら 2 つの効率的な方法と検索拡張が役立ちます。

14. データの重要性

データは長い間機械学習の重要な要素となってきましたが、その役割はモデルの進歩によって影に隠れてしまうことがよくあります。

しかし、モデルのスケーリングにおけるデータの重要性を考えると、注目は徐々にモデル中心からデータ中心へと移りつつあります。主なトピックには、新しいデータセットを効率的に作成および維持する方法や、データの品質を確保する方法などが含まれます。

Andrew NG 氏は NeurIPS 2021 で、まさにこの問題、つまりデータ中心の AI について研究するワークショップを開催しました。

現在、さまざまなタスクのデータセットを効果的に構築し、データの品質を確保する方法に関するベストプラクティスと原則的なアプローチが不足しています。データがモデルの学習とどのように相互作用し、データがモデルのバイアスにどのように影響するかについては、まだほとんど理解されていません。

15 メタ学習

メタ学習と転移学習は、少数ショット学習という共通の目標を共有していますが、異なるグループによって研究されています。新しいベンチマークでは、大規模な転移学習法がメタ学習ベースの方法よりも優れています。

有望な方向性としては、メタ学習手法を拡大し、よりメモリ効率の高いトレーニング手法と組み合わせて、実際のベンチマークにおけるメタ学習モデルのパフォーマンスを向上させることが挙げられます。メタ学習法は、FiLMレイヤー[110]などの効果的な適応法と組み合わせて、一般的なモデルを新しいデータセットに効果的に適応させることもできます。

<<: 電子犬は無残に捨てられたので、VRヘッドセットを装着して古い友達を探しました！メタはメタバースの感情カードを切る

>>: 錬金術をより形而上学的にしましょう！蘇州大学の博士課程では「天の幹と地の枝」を使ってランダムシードを生成しており、このプロジェクトはオープンソース化されている。