2021 年には、ML と NLP の分野で多くのエキサイティングな進展がありました。 Sebastian Ruder の最新ブログ「2021 年の ML および NLP 研究のハイライト」では、彼が最も刺激的だと思う論文と研究分野を紹介しています。 この記事では、次の 15 の研究ホットスポットを取り上げます。
一般的な事前学習済みモデル2021年に研究者らは、より大規模な事前トレーニング済みモデルを開発しました。事前トレーニング済みモデルはさまざまな分野に適用でき、ML 研究にとって重要です。コンピューター ビジョンでは、Vision Transformer などの教師あり事前トレーニング済みモデルが拡張され続ける一方で、自己教師あり事前トレーニング済みモデルのパフォーマンスも向上し続けています。音声に関しては、wav2vec 2.0 ベースのモデル (W2v-BERT など) と、より強力な多言語モデル (XLS-R など) が構築されています。同時に、新しい統合された事前トレーニング済みモデルをさまざまなモダリティ(ビデオや言語など)に使用できるようになります。視覚と言語においては、制御された研究により、このマルチモーダル モデルの重要な要素が明らかになりました。さらに、事前トレーニング済みモデルは、強化学習やタンパク質構造予測などの他の分野でも大きな進歩を遂げています。 事前トレーニング済みモデルがなぜそれほど重要なのか?事前トレーニング済みのモデルは、特定のドメインまたはさまざまなモダリティにわたって適切に一般化されることが示されています。彼らは、強力な小規模サンプル学習行動と優れた学習能力を示しています。したがって、事前トレーニング済みモデルは、科学的研究や実用的なアプリケーションを実施する上で重要な役割を果たします。 次は何ですか?将来的には、さらに多くの、さらに大規模な事前トレーニング済みモデルが登場することは間違いないでしょう。同時に、単一のモデルが複数のタスクを同時に実行することも期待できます。言語タスクでは、さまざまなタスクを実行するために、共通のテキストからテキストへの形式でモデルが構築されます。同様に、単一のモデルで画像タスクと音声タスクの両方を実行するモデルも登場するかもしれません。最後に、複数のモダリティ向けにトレーニングされたモデルがさらに増えるでしょう。 大規模マルチタスク学習前のセクションの事前トレーニング済みモデルのほとんどは自己教師ありモデルであり、大量のラベルなしデータから学習します。ただし、多くのドメインでは、大量のラベル付きデータがすでに利用可能であり、より優れた表現を学習するために使用できます。これまでに、T0、FLAN、ExT5などのマルチタスクモデルが約100のタスクで事前トレーニングされており、言語タスクに使用できます。このような大規模なマルチタスク学習はメタ学習と密接に関係しています。さまざまなタスク分布にアクセスすることで、モデルはコンテキスト内で学習する方法など、さまざまな種類の動作を学習できます。 マルチタスクモデルが重要なのはなぜですか? T5やGPT-3など多くのモデルはテキストからテキストへの形式を使用できるため、大規模なマルチタスク学習が可能です。その結果、モデルは複数のタスクにわたって効果的に学習するために、手作業で作成されたタスク固有の損失関数やタスク固有のレイヤーを必要としなくなりました。これらの方法は、自己教師あり事前トレーニングと教師ありマルチタスク学習を組み合わせることの利点を強調し、2 つの組み合わせにより、より一般的なモデルが実現されることを実証しています。 次は何ですか?データセット(統一された形式)の可用性とオープンソースの性質を考慮すると、新しく作成された高品質のデータセットをさまざまなタスクに使用してより強力なモデルをトレーニングし、そのモデルをさらに使用してより困難なデータセットを作成するという好循環を想像できます。 トランスフォーマーアーキテクチャの代替案前のセクションで説明した事前トレーニング済みモデルのほとんどは、Transformer アーキテクチャに基づいています。 2021 年には、トランスフォーマーに代わる実行可能な代替モデル アーキテクチャが登場しました。 Perceiver は、固定次元の潜在配列を基本表現として使用し、交差注意を介して入力を調整することで、非常に高次元の入力に拡張できるトランスフォーマーのようなアーキテクチャです。 Perceiver IO は、拡張アーキテクチャを通じて構造化された出力スペースを処理できます。 MLP-Mixer や gMLP など、多層パーセプトロン (MLP) を使用して自己注意層を置き換えようとするモデルもいくつかあります。 FNet は、自己注意の代わりに 1D フーリエ変換を使用して、トークン レベルで情報を混合します。一般的に、アーキテクチャを事前トレーニング戦略から切り離すことは有用です。 CNN が Transformer モデルと同じ方法で事前トレーニングされていれば、多くの NLP タスクで競争力のあるパフォーマンスを達成できるでしょう。同様に、代替の事前トレーニング目標 (ELECTRA スタイルの事前トレーニングなど) を使用すると、さらなる効果が得られる可能性があります。 Transformer アーキテクチャを置き換えることが重要なのはなぜですか?ほとんどの研究が単一のアーキテクチャに焦点を当てている場合、必然的にバイアスや盲点などの一連のエラーが発生します。新しいモデルは、Attention の計算の複雑さやブラックボックスの性質など、Transformer のいくつかの制限を解決する可能性があります。 次は何ですか?事前トレーニング済みのトランスフォーマーは、多くのタスクの標準ベースラインとして引き続き導入されますが、代替アーキテクチャが提案されることが予想されます。 促すGPT-3 の人気により、プロンプトは NLP モデルにおける実行可能な代替入力形式になりました。プロンプトは、パターン (つまり、モデルに特定の予測を行うように要求する) と、予測をクラス ラベルに変換する言語化機能で構成されます。 PET、iPET、AdaPET などのいくつかの方法では、少数ショット学習にヒントを活用しますが、ヒントは万能薬ではありません。モデルのパフォーマンスはプロンプトによって異なり、最適なプロンプトを見つけるにはラベル付けされた例が必要です。少数の設定でモデルの信頼性を比較するには、新しい評価手順を継続的に開発する必要があります。 プロンプトはなぜ重要ですか?ヒントは、タスクに応じて最大 3,500 個のラベル付き例となるタスク固有の情報をエンコードするために使用できます。したがって、ヒントは、手動で例にラベルを付けたり、ラベル付け関数を定義したりするのではなく、専門家の情報をモデルトレーニングに組み込む新しい方法です。 次は何ですか?これまでのところ、ヒントを使用してモデル学習を改善する方法についてはまだほんの少し触れただけです。将来の研究では、プロンプトはより複雑なものになり、たとえば、より長い指示、肯定的な例と否定的な例、一般的なヒューリスティックなどが含まれるようになります。ヒントは、自然言語の説明をモデルのトレーニングに組み込むより自然な方法である可能性もあります。 効率的な方法事前トレーニング済みモデルの欠点の 1 つは、実際には非常に大きく非効率的であることが多いことです。 2021年、研究者たちはより効率的なアーキテクチャとより効果的な微調整方法をもたらしました。モデリングの面では、自己注意のより効果的なバージョンがいくつかあります。現在の事前トレーニング済みモデルは非常に強力であり、少数のパラメータを更新するだけで効果的に調整できるため、継続的なプロンプトやアダプターに基づくものなど、より効果的な微調整方法の開発が促進されています。効率的な方法は、適切な接頭辞や適切な変換を学習することで、新しいパターンに適応することもできます。 効率的なアプローチが重要なのはなぜですか?モデルは、標準のハードウェアで実行できない場合や、実行するのにコストがかかりすぎる場合は意味がありません。効率性が向上することで、モデルが大きくなっても実務者にとってモデルが有用かつ使いやすいものになります。 次は何ですか?効率的なモデルとトレーニング方法は、より使いやすく、アクセスしやすくなるはずです。同時に、コミュニティは、新しいモデルを最初から事前トレーニングすることなく、大規模なモデルと対話し、それらを効率的に適応、結合、または変更するためのより効率的な方法を開発する必要があります。 ベンチマーク最近の ML および NLP モデルの急速な改善により、多くのベンチマーク測定の能力を超えています。同時に、コミュニティ評価のベンチマークはますます少なくなっており、存在するものも少数のエリート機関からのものに限られています。その結果、2021 年には、このようなモデルを確実に評価できる方法について多くの実践と議論が行われ、それについてこのブログ投稿で説明します。 2021 年に NLP コミュニティで登場した重要なランキング形式には、動的敵対的評価、コミュニティ主導の評価 (コミュニティ メンバーが協力して BIG-bench などの評価データセットを作成する)、複数のエラー タイプにわたるインタラクティブなきめ細かい評価、単一のパフォーマンス メトリックを超えてモデルを評価する多次元評価などがあります。さらに、少数ショット評価やクロスドメイン一般化など、この分野で影響力のある設定のための新しいベンチマークが提案されています。音声、特定の言語などの特定のモダリティのベンチマークやクロスモーダルベンチマークなど、一般的な事前トレーニング済みモデルを評価するための新しいベンチマークもいくつか登場しています。 一方、評価指標にも注目する必要があります。機械翻訳 (MT) のメタ評価によると、人間との相関性が高い 108 の代替メトリックが提案されているにもかかわらず、過去 10 年間の MT 論文 769 件のうち 74.3% が依然として BLEU のみを使用しています。そのため、いくつかの研究(GEM や 2D ランキングなど)では、共同評価モデルと方法を提案しました。 ベンチマークと評価は、機械学習と NLP の進歩の鍵となります。正確で信頼できるベンチマークがなければ、実際に進歩しているのか、それとも定着したデータセットや指標に過剰適合しているのかを判断することは不可能です。 ベンチマークに対する認識が高まると、新しいデータセットの設計がより慎重に行われるようになります。新しいモデルの評価では、単一のパフォーマンス メトリックに重点を置くのではなく、モデルの公平性、効率性、堅牢性などの複数の側面を考慮する必要があります。 条件付き画像生成条件付き画像生成、つまりテキストの説明に基づいて画像を生成することは、2021年に顕著な成果を達成しました。最新世代の生成モデルに関しては、目覚ましい進歩が見られました。 DALL-E モデルのようにテキスト入力に基づいて画像を直接生成するのではなく、最近のアプローチでは、画像とテキストの結合埋め込みモデル (CLIP など) を使用して、生成モデル (VQ-GAN など) の出力を誘導します。尤度ベースの拡散モデルは、信号からノイズを徐々に除去し、GAN を上回る強力な新しい生成モデルとして登場しました。最近のモデルでは、テキスト入力に基づいて出力を誘導することで、リアルな画像を生成できるようになりました。このタイプのモデルは、説明に基づいて画像の領域を修正するインペインティングにも特に優れています。 ユーザーの指示に従って高品質の画像を自動的に生成することは、ビジュアル製品の自動設計、モデル支援設計、パーソナライゼーションなど、芸術的および商業的な幅広い用途に使用できます。 拡散ベースのモデルは GAN ベースのモデルよりもサンプリング速度がはるかに遅いため、実用化するにはこれらのモデルをより効率的にする必要があります。さらに、人間を支援するためのこのようなモデルの最適な応用を決定するために、この分野では人間とコンピュータの相互作用に関するさらなる研究が必要です。 自然科学と機械学習の融合2021 年、機械学習は自然科学の進歩においていくつかのブレークスルーを達成しました。気象学では、機械学習と降水量予測を組み合わせることで予測の精度が大幅に向上し、最先端の物理予測モデルを上回るモデルが誕生しました。生物学では、AlphaFold 2.0 により、類似の構造を知らなくても、これまでにない精度でタンパク質の構造を予測することが可能になります。数学では、ML は数学者の直感を活用して新しいつながりやアルゴリズムを発見できることが示されています。 Transformer モデルは、十分なデータでトレーニングされた後、局所安定性などの微分システムの数学的特性を学習することも示されています。 ML を使用して自然科学の理解と応用を進めることは、医薬品の設計など、最も影響力のあるアプリケーションの 1 つです。研究者が科学研究を行うのを支援するためにモデルをインザループで使用するという方向性は非常に魅力的であり、強力なモデルの開発と、インタラクティブな機械学習および人間とコンピューターの相互作用の研究の両方が必要です。 手続き型合成今年、大規模言語モデルの最も注目すべき応用の 1 つはコード生成であり、Codex が初めて GitHub Copilot に統合されました。事前トレーニング済みモデルのその他の進歩には、事前トレーニング目標の改善、実験の拡張などが含まれます。しかし、複雑なプログラムを生成することは、現在のモデルでは依然として課題となっています。関連する興味深い方向性として、中間計算ステップが「スクラッチパッド」に記録される複数ステップの計算を実行することで改善されるプログラムを実行またはモデル化する方法を学ぶことが挙げられます。 複雑なプログラムを自動的に合成できることは、理論的にはソフトウェア エンジニアの作業をサポートするのに非常に役立ちますが、コード生成モデルが実際にソフトウェア エンジニアのワークフローをどの程度改善するかについては未解決の問題が残っています。このようなモデルが本当に有用であるためには、新しい情報に基づいて予測を更新でき、ローカルとグローバルの両方のコンテキストを考慮に入れる必要があります。 バイアス大規模な事前トレーニング済みモデルの潜在的な影響を考慮すると、そのようなモデルに有害なバイアスが含まれず、有害なコンテンツを生成するために悪用されず、持続可能な方法で使用されることが重要です。業界の議論の多くは、このようなモデルの潜在的なリスクを強調しており、性別、人種、政治的志向などの保護された属性に対する偏見を調査した研究もあります。ただし、モデルからバイアスを除去するとトレードオフが伴います。 現実世界のアプリケーションで使用されるモデルは、有害な偏見を示したり、特定のグループを差別したりしてはなりません。したがって、現在のモデルのバイアスをよりよく理解し、それを除去することは、ML モデルの安全で責任ある展開を実現するために重要です。 これまでのところ、バイアスは主に、事前トレーニング済みモデル、特定のテキスト生成プログラム、および分類アプリケーションで確認されています。このようなモデルの意図された使用法とライフサイクルを考慮すると、多言語設定におけるバイアスを特定して軽減し、事前トレーニング済みモデルの使用のすべての段階(事前トレーニング後、微調整後、テスト時)でバイアスを可能な限り除去するよう努める必要があります。 検索の拡張検索強化言語モデルは、検索を事前トレーニングと下流の使用に統合します。これは、2020 年の研究ホットスポットの私の要約でも言及されています。 2021 年には、検索コーパスは最大 1 兆トークンにまで拡大し、モデルは Web ページをクエリして質問に答えることができるようになりました。さらに、事前トレーニング済みの言語モデルに検索を統合する新しい方法も数多く見られます。 検索拡張がなぜそれほど重要なのか?モデルはパラメータにさらに多くの知識を保存し、それらを取得できる必要があるため、取得拡張を適用することでモデルのパラメータ効率が向上します。検索拡張は、検索データを更新することで効果的なドメイン適応を実現することもできます。 将来的には、常識、事実関係、言語情報など、さまざまな種類の情報を活用するさまざまな形式の検索が登場する可能性があります。検索拡張は、知識ベース コミュニティやオープン情報抽出から派生した方法など、より構造化された形式の知識検索と組み合わせることもできます。 トークンフリーモデル2021 年には、シーケンス文字を直接操作する新しいトークンフリー方式が登場しました。これらのトークンフリー モデルは、多言語モデルよりも優れており、非標準言語でも非常に優れたパフォーマンスを発揮することが示されています。したがって、これらは、この分野で一般的に使用されている単語ベースのトランスフォーマー モデルの有望な代替手段となります。 トークンフリーモデルがなぜそれほど重要なのか? BERT などの事前トレーニング済み言語モデルの登場以来、トークン化された単語で構成されるテキストが NLP の標準入力形式になりました。しかし、単語のトークン化は、ソーシャル メディアでよくあるスペルミスやスペルのバリエーション、または特定の種類の形態論などのノイズの多い入力ではパフォーマンスが低下することがわかっています。さらに、トークン化への強制的な依存は、モデルを新しいデータに適応させるときに不一致を引き起こします。 トークンフリー モデルは柔軟性が高いため、形態論をより適切にモデル化し、新しい単語や言語の変化にうまく一般化できます。しかし、トークンフリーモデルが単語ベースの方法と比較してさまざまな種類の単語形成でどのように機能するか、またどのようなトレードオフがあるかは不明のままです。 タイミングの適応モデルは、トレーニングに使用したデータに応じて、さまざまな方法でバイアスを受ける可能性があります。 2021 年にますます注目を集めているバイアスの 1 つは、モデル トレーニング データの期間に対するバイアスです。言語は進化し続け、新しい用語が絶えず出現していることを考えると、古いデータでトレーニングされたモデルは一般化が不十分であることがわかっています。ただし、タイミングの適応が有用かどうかは、下流のタスクによって異なる可能性があります。たとえば、言語使用におけるイベント駆動型の変化がタスクのパフォーマンスとは無関係なタスクの場合、時間的適応はあまり役に立たない可能性があります。 一部の質問応答タスクでは、質問がいつ尋ねられたかによって質問に対する回答が異なります。この種の質問応答タスクでは、時間的な適応が非常に重要です。 新しい時間枠に適応できる方法を開発するには、静的な事前トレーニングと微調整のパラダイムから脱却し、事前トレーニング済みのモデルの知識を更新するためのより効率的な方法が必要になります。この点では、効率的な方法と検索拡張の両方が有用です。さらに、入力が真空中に存在するのではなく、非言語的なコンテキストと現実世界に基づいたものとなるように、新しいモデルを開発する必要があります。 データの重要性データは長い間 ML の重要な要素でしたが、モデリングの進歩によって影に隠れてしまうことが多かったのです。しかし、モデル拡張におけるデータの重要性を考慮して、研究コミュニティは徐々にモデル中心のアプローチからデータ中心のアプローチに移行してきました。重要なトピックには、新しいデータセットを効率的に構築および維持する方法や、データの品質を確保する方法が含まれます。さらに、マルチモーダルデータセット、英語、多言語テキストコーパスなど、事前トレーニング済みモデルに使用される大規模なデータセットが 2021 年に精査されました。 データは、大規模な ML モデルをトレーニングする際に非常に重要であり、モデルが新しい情報を取得できるようにするための重要な要素です。モデルが大きくなるにつれて、大規模データの品質を確保することがますます困難になります。 現在、さまざまなタスクのデータセットを効率的に構築する方法や、データの品質を確実に保証する方法に関するベストプラクティスと原則的なアプローチが不足しています。さらに、データがモデル学習とどのように相互作用し、データがどのようにモデルのバイアスを形成するかについては、まだ十分に理解されていません。 メタ学習メタ学習と転移学習は共通の目標を共有していますが、主に異なるコミュニティで研究されています。新しいベンチマークでは、大規模な転移学習法がメタ学習法よりも優れています。有望な開発の方向性としては、メタ学習手法を拡張し、よりメモリ効率の高いトレーニング手法と組み合わせて、実際のベンチマークにおけるメタ学習モデルのパフォーマンスを向上させることが挙げられます。メタ学習手法を効率的な適応手法 (FiLM レイヤーなど) と組み合わせて、一般的なモデルを新しいデータセットに適応させる効率を高めることもできます。 メタ学習は重要なパラダイムですが、メタ学習を考慮してシステムが設計されていない標準ベンチマークでは SOTA 結果を達成できませんでした。メタ学習と転移学習のコミュニティをより緊密に結びつけることで、現実世界のアプリケーションでより有用なメタ学習手法が生まれる可能性があります。 メタ学習は、大規模なマルチタスク学習のための多数の自然なタスクと組み合わせると特に役立ちます。メタ学習は、利用可能な多数のプロンプトに基づいてプロンプトを設計または使用する方法を学習することで、プロンプトを改善することもできます。 |
<<: アルゴリズム | ダブルポインタはリンクリストを破る優れた魔法の武器です
>>: NvidiaはArmの買収を断念すると報じられており、400億ドルの買収は危うい状況にある
7月29日、これまでの多くの噂がついに確認された。マイクロソフトとヤフーは10年間の検索協力契約を締...
四足歩行ロボットはもはや誰にとっても馴染みのない存在ではないはずです。ほとんどの人はメディアや企業の...
3月3日、国際的なサイバーセキュリティチームが、生成型人工知能サービス間で独立して拡散し、データを盗...
あなたは、コンピューターサイエンスまたはソフトウェアエンジニアリングの学位を取得して大学を卒業したば...
AIは引き続きテクノロジーの注目を集めており、2023年の最後の四半期を迎えるにあたり、AIの力を活...
「機械は人間を攻撃できるか?」という疑問は、世界中の会議やソーシャルチャットの議論のテーブルで浮上し...
今日、偶然Embedchainというウェアハウスを見つけ、とても便利だと思ったので、皆さんとシェアし...
科学技術と産業技術の継続的な発展により、私たちの生活は大きく向上し、「人工知能」という言葉も徐々に私...
人間は自分たちが偉大だと思っているが、個々の人間は非常に弱い。人類は素晴らしい文明を築き上げましたが...
5月19日北京時間午後11時、マイクロソフトの年次「Build Developer Conferen...