BERTに続き、この新しいモデルは11のNLPベンチマークで再び記録を更新しました。

BERTに続き、この新しいモデルは11のNLPベンチマークで再び記録を更新しました。

BERT が 11 個の NLP 記録を破って以来、幅広いタスクに適用できる NLP 事前トレーニング済みモデルが大きな注目を集めています。最近、Microsoft はこれらの 11 の NLP タスクで BERT を上回る包括的なモデルを発表しました。現在、「Microsoft D36***I & MSR AI」というモデルには対応する論文やプロジェクトアドレスが提供されていないため、新しい事前トレーニング方法であるかどうかは不明です。

BERT と Microsoft の新しいモデルはどちらも、一般言語理解評価 (GLUE) ベンチマークの 11 のタスクを使用しており、GLUE を使用して、幅広い自然言語理解タスクにおけるモデルの堅牢性を実証したいと考えています。 GLUE ベンチマークでは特定のモデルに関する知識は必要ないため、原則として、文や文のペアを処理し、対応する予測を生成できるシステムであれば、評価に参加できます。これら 11 のベンチマーク タスクは、タスク全体にわたるモデルの機能、特にパラメータ共有や転移学習のパフォーマンスを測定することに重点を置いています。

GLUE ベンチマークにおける Microsoft の新しいモデルのパフォーマンスから判断すると、少なくとも 11 の NLP タスクで BERT-Large よりも効率的です。この高い効率は、81.9 という全体的なタスク スコアだけでなく、パラメータ効率にも反映されています。 Microsoft の新しいモデルには 1 億 1,000 万個のパラメーターしかありません。これは、BERT-Large モデルの 3 億 3,500 万個のパラメーターよりもはるかに少なく、BERT-Base と同じ数のパラメーターです。次の図は、GLUE ベンチマークの上位 5 つのモデルを示しています。

「Microsoft D36***I & MSR AI」モデルの説明ページでは、新しいモデルはマルチタスク共同学習を使用しています。したがって、すべてのタスクは同じ構造を共有し、マルチタスク トレーニング アプローチを通じて共同で学習されます。さらに、これら 11 のタスクは、文対分類 MNLI、QQP、QNLI、STS-B、MRPC、RTE、SWAG、単一文分類タスク SST-2、CoLA、質問応答タスク SQuAD v1.1、単一文注釈タスク (名前付きエンティティ認識) CoNLL-2003 NER の 4 つのカテゴリに分類できます。

このうち、文章ペア分類タスクでは、質問と回答のペアに正解が含まれているかどうかを判定するQNLIや、2つの文章がどの程度類似しているかを判定するSTS-Bなどがあり、いずれも文章間の関係性を処理するために使われています。単文分類タスクには、文の感情傾向を判断するSST-2タスクと文法の正しさを判断するCoLAタスクがあり、どちらも文の内部関係を扱います。

SQuAD v1.1 質問応答データセットでは、モデルは質問を通じて段落内の正解の位置と長さを取得します。 ***名前付きエンティティ認識データセット CoNLL では、各時間ステップで人物や場所などのラベルが何であるかを予測します。

以下は、さまざまなタスクにおける Microsoft の新しいモデルのスコアです。

現時点では、Microsoft の新しいモデルのパフォーマンスはまだ非常に限られています。マルチタスクの事前トレーニング後に BERT などのより広範な NLP タスクに使用できれば、このような効率的なモデルには間違いなく大きな利点があります。

<<:  在庫 | 今年の世界の AI 事情

>>:  Facebookは、さまざまな機械学習の問題に適用できる、勾配フリー最適化のためのオープンソースツール「Nevergrad」をリリースしました。

ブログ    
ブログ    

推薦する

...

7兆のブルーオーシャンが呼んでいる、ケータリングロボットの商業利用を加速させるには?

「機械が人に代わる」という無人化とインテリジェント化の潮流は、伝統的な飲食業界のあらゆる分野に広が...

Apple Carに関する8つの技術的推測

著名な情報機関IHS Markitは最近、Appleの自動車プロジェクトに関する簡潔かつ説得力のある...

ChatGPT Plusアカウント登録が停止されました!ネットユーザーは激怒、アカウントの売買やレンタルがネットワーク全体で高騰中

ちょうど今、サム・アルトマンがXで衝撃的なニュースを発表しました—— ChatGPT Plusアカウ...

...

調査結果: 回答者の 64% が生成 AI による作業の功績を認めている

Salesforce が実施した調査では、生成 AI の使用に関する明確なポリシーが存在しない状況で...

...

人工知能は世界の終わりか、それとも深淵か?

あなたは深淵を見つめ、深淵もまたあなたを見つめ返します。 「第一法則: ロボットは人間を傷つけたり、...

90 年代以降の技術オタクと彼の代替検索エンジン Magi

最近、Magiという検索エンジンが注目を集めています。この検索エンジンは、私たちが持っている一般的な...

...

AGVロボットマルチエージェント経路探索の4つの主要な研究方向

マルチエージェント経路探索 (MAPF) は、人工知能、ロボット工学、理論計算機科学、実践的オペレー...

TIC 2018: クラウド サービスが人工知能の急速な発展を支援

[51CTO.comよりオリジナル記事] 中国の大手中立クラウドサービスプロバイダーUCloudが主...

宮崎駿アニメの世界を一筆でスケッチしよう!スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身

絵を描くだけで高精細な絵画が現れます。たとえば中世の城を描くには、ドアと道を描くだけで、美しい城が現...

AI データラベリングとは何ですか?課題は何ですか?

データ注釈はほとんどの人工知能の基盤であり、機械学習とディープラーニング モデルの品質を決定します。...

HarmonyOS メタサービス開発実践: デスクトップカード辞書

1. プロジェクトの説明1.DEMOのアイデアはカード辞書です。 2. カードによって表示される内容...