自然言語処理 (NLP) はここ数年で大きな進歩を遂げており、BERT、ALBERT、ELECTRA、XLNet などの事前トレーニング済みの言語モデルはさまざまなタスクで高い精度を達成しています。事前学習済み言語モデルは、Wikipedia などの大規模なテキスト コーパスを学習セットとして使用し、一部の単語をマスクして予測することで埋め込み表現を学習します。これをマスク言語モデリングと呼びます。実験結果は、この方法で、異なる概念(外科医とメスなど)間の豊富な意味情報をエンコードできることを示しています。トレーニング後、モデルを微調整してタスク固有のトレーニング データに適応させることができ、分類などの特定のタスクは事前トレーニング済みの埋め込みを通じて実現できます。このような事前トレーニング済みの表現はさまざまな NLP タスクで広く使用されているため、実践者としては、事前トレーニング済みのモデルがどのように情報をエンコードし、どのような相関関係を学習し、これらが下流のアプリケーションのパフォーマンスにどのように影響するかを理解して、AI の原則から逸脱しないようにする必要があります。 「事前学習済みモデルにおける性別の相関関係の測定と削減」では、BERT とその簡素化バージョンである ALBERT のケーススタディを実施し、性別の相関関係について議論し、事前学習済み言語モデルの実際のアプリケーションに関する参考資料を提供します。私たちは学術タスクデータセットで実験を行い、その結果をいくつかの一般的に使用されているモデルと比較することで、モデルの実用性を検証し、さらなる研究のための参考資料を提供しました。今後、NLP タスクの精度を維持しながら性別の相関関係を減らす一連のチェックポイントをリリースする予定です。 関連性の測定 事前トレーニングされた表現の相関関係が下流のタスクにどのように影響するかを理解するために、さまざまな評価指標を使用して性別の表現を研究することができます。ここでは、モデルが文中の特定の代名詞の正しい先行詞を理解できるようにすることを目的とした方法である共参照解決を使用したテスト結果について説明します。たとえば、モデルが代名詞が患者ではなく看護師を指していることを認識しようとしている文などです。 OntoNotes (Hovy et al., 2006) は最も一般的に使用されている標準検証データセットであり、F1 スコアは共参照解決におけるモデルの精度を測定するために使用されます (Tenney et al., 2019)。 OntoNotes は 1 つのデータ分布のみを表すため、性別と職業が誤った共参照解決を生成する場合に関する追加データを提供する WinoGender ベンチマークも使用します。 WinoGender スコアが高い (1 に近い) 場合、モデルは性別と職業の関連性に基づいて決定を下します (看護師を男性ではなく女性に関連付けるなど)。性別と職業の間に一貫した関連性がない場合 (スコアが 0)、モデルは文の構造や意味論などの他の情報に基づいて決定を下します。 調査の結果、BERT も ALBERT も WinoGender ではゼロスコアを達成できなかったのに対し、OntoNotes では非常に高い精度 (100% に近い) を達成したことがわかりました。実験では、場合によっては、モデルが推論の決定において性別の関連性を考慮に入れることが示されています。これは、モデルがテキストを理解するために複数の手がかり(1 つだけまたはすべて)を使用できるという私たちの予想と一致しています。もちろん、実際の応用では依然として注意が必要であり、以前の性別の相関関係に基づいて予測を行うためにモデルに頼ることはできません。予測には、利用可能なその他の情報も非常に重要です。 実用ガイド 事前トレーニング済みモデルの埋め込みにおける暗黙的な関連付けが下流のタスクに影響を及ぼす可能性があることを考慮すると、新しい NLP モデルを開発する際にこのリスクを軽減するためにどのような手順を踏めばよいでしょうか。
相関の緩和: ドロップアウトが性別の相関に与える影響についての前回の紹介に基づいて、ドロップアウト パラメーターを増やすことで、手動で何も指定したり、微調整段階を変更したりすることなく、モデルが WinoGender を推測する方法を改善できるという追加の相関を減らすことができるとさらに推測します。ただし、ドロップアウトが増加すると OneNotes の精度も低下し始めます (BERT の結果を参照)。ただし、特定のタスクに合わせてドロップアウトを更新せずに変更することでモデルを改善することで、事前トレーニング フェーズ中にこれを回避できると考えられます。本稿では、反事実的データ拡張に基づいて差別化された重みを使用した別の緩和戦略を提案します。 見通し これらの実用的なガイドラインは、より幅広い言語やアプリケーションに適用できる強力な NLP システムを開発するための参考になると考えています。もちろん、テクノロジーに固有の制限があるため、潜在的な問題をすべて把握して排除することは困難です。したがって、現実世界の環境に展開されるモデルは、さまざまなアプローチを試して厳密にテストし、Google の AI 原則などの倫理基準に準拠していることを確認するための安全策を講じる必要があります。今後、言語モデルをさまざまなタスクに適用し、より多くの人々に高品質なサービスを提供できるよう、評価フレームワークやデータのさらなる開発が進むことを期待しています。 謝辞 この記事の共著者には、Xuezhi Wang、Ian Tenney、Ellie Pavlick、Alex Beutel、Jilin Chen、Emily Pitler、Slav Petrov が含まれます。 Fernando Pereira、Ed Chi、Dipanjan Das、Vera Axelrod、Jacob Eisenstein、Tulsee Doshi、James Wexler にも感謝します。 |
>>: 顔認識アクセス制御システムが起動した後は、ゲートを簡単に通過する際に潜在的なリスクにも注意する必要があります。
人工知能は、次のような採用活動に大きく貢献しています。 [[433895]] 1. 候補者の自動ソー...
[[431855]]各ピクセルのサイズが 4 バイトである N × N 行列で表される画像が与えられ...
専門家の混合 (MoE) は、LLM の効率性と精度を向上させるためによく使用される手法です。このア...
2021年の上海モーターショーが終わったばかりですが、会場内外で自動運転が大きな注目を集めています...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
最近、プリンストン大学の研究者らは、世界初の高品質ミクロンスケール光学イメージングデバイス「ニューラ...
[[411531]]写真/トゥチョン美団は7月13日夜、テンセントのサブスクリプション契約に含まれる...
機械学習がユーザーに真の価値をもたらすためには、それを本番システムに導入する必要があります。 AI ...
スーパーアプリは、より多くの顧客を引き付けるための革新的な戦略です。さらに、多数のサービスを 1 つ...
今日の世界では、人工知能 (AI) が驚異的なスピードで進歩しており、その進歩に遅れを取らないことが...
人工知能チャットボット「ChatGPT」は最近非常に人気が高まっており、あらゆるメディアでそのニュー...