事前学習済みのNLPモデルにおける性別相関の測定

事前学習済みのNLPモデルにおける性別相関の測定

自然言語処理 (NLP) はここ数年で大きな進歩を遂げており、BERT、ALBERT、ELECTRA、XLNet などの事前トレーニング済みの言語モデルはさまざまなタスクで高い精度を達成しています。事前学習済み言語モデルは、Wikipedia などの大規模なテキスト コーパスを学習セットとして使用し、一部の単語をマスクして予測することで埋め込み表現を学習します。これをマスク言語モデリングと呼びます。実験結果は、この方法で、異なる概念(外科医とメスなど)間の豊富な意味情報をエンコードできることを示しています。トレーニング後、モデルを微調整してタスク固有のトレーニング データに適応させることができ、分類などの特定のタスクは事前トレーニング済みの埋め込みを通じて実現できます。このような事前トレーニング済みの表現はさまざまな NLP タスクで広く使用されているため、実践者としては、事前トレーニング済みのモデルがどのように情報をエンコードし、どのような相関関係を学習し、これらが下流のアプリケーションのパフォーマンスにどのように影響するかを理解して、AI の原則から逸脱しないようにする必要があります。

「事前学習済みモデルにおける性別の相関関係の測定と削減」では、BERT とその簡素化バージョンである ALBERT のケーススタディを実施し、性別の相関関係について議論し、事前学習済み言語モデルの実際のアプリケーションに関する参考資料を提供します。私たちは学術タスクデータセットで実験を行い、その結果をいくつかの一般的に使用されているモデルと比較することで、モデルの実用性を検証し、さらなる研究のための参考資料を提供しました。今後、NLP タスクの精度を維持しながら性別の相関関係を減らす一連のチェックポイントをリリースする予定です。

関連性の測定

事前トレーニングされた表現の相関関係が下流のタスクにどのように影響するかを理解するために、さまざまな評価指標を使用して性別の表現を研究することができます。ここでは、モデルが文中の特定の代名詞の正しい先行詞を理解できるようにすることを目的とした方法である共参照解決を使用したテスト結果について説明します。たとえば、モデルが代名詞が患者ではなく看護師を指していることを認識しようとしている文などです。

OntoNotes (Hovy et al., 2006) は最も一般的に使用されている標準検証データセットであり、F1 スコアは共参照解決におけるモデルの精度を測定するために使用されます (Tenney et al., 2019)。 OntoNotes は 1 つのデータ分布のみを表すため、性別と職業が誤った共参照解決を生成する場合に関する追加データを提供する WinoGender ベンチマークも使用します。 WinoGender スコアが高い (1 に近い) 場合、モデルは性別と職業の関連性に基づいて決定を下します (看護師を男性ではなく女性に関連付けるなど)。性別と職業の間に一貫した関連性がない場合 (スコアが 0)、モデルは文の構造や意味論などの他の情報に基づいて決定を下します。

OntoNotes (精度) および WinoGender (性別の関連性) における BERT と ALBERT のパフォーマンス。 WinoGender の値が低いほど、モデルは推論において性別情報にあまり注意を払いません。

調査の結果、BERT も ALBERT も WinoGender ではゼロスコアを達成できなかったのに対し、OntoNotes では非常に高い精度 (100% に近い) を達成したことがわかりました。実験では、場合によっては、モデルが推論の決定において性別の関連性を考慮に入れることが示されています。これは、モデルがテキストを理解するために複数の手がかり(1 つだけまたはすべて)を使用できるという私たちの予想と一致しています。もちろん、実際の応用では依然として注意が必要であり、以前の性別の相関関係に基づいて予測を行うためにモデルに頼ることはできません。予測には、利用可能なその他の情報も非常に重要です。

実用ガイド

事前トレーニング済みモデルの埋め込みにおける暗黙的な関連付けが下流のタスクに影響を及ぼす可能性があることを考慮すると、新しい NLP モデルを開発する際にこのリスクを軽減するためにどのような手順を踏めばよいでしょうか。

  • 暗黙的な相関関係の測定は非常に重要です。精度メトリックを使用してモデルの品質を評価できますが、このようなメトリックは単一の観点からのみモデルを評価するため、テスト データがトレーニング データと同じ分布を持つ場合には特に不十分です。たとえば、BERT および ALBERT チェックポイントの精度は 1% 以内ですが、性別相関を使用した共参照解決の相対偏差は 26% です。つまり、一部のタスクでは、このような違いが特に重要になります。反ステレオタイプなテキスト(男性看護師など)を扱う場合は、WinoGender スコアが低いモデルを選択する方が合理的です。
  • モデル構成を変更するときは、影響が小さいと思われる場合でも注意してください。ニューラル ネットワーク モデルのトレーニングは、通常、トレーニング目標を最大化するように選択される多くのハイパーパラメータによって制御されます。いくつかのパラメータの選択はモデルにほとんど影響を与えないように見えますが、性別の相関関係に大きな変化をもたらす可能性があることがわかりました。たとえば、ドロップアウト正規化は、モデルの過剰適合を回避するために使用されます。BERT および ALBERT のトレーニング中にドロップアウト パラメータを増やすと、微調整後でも性別の相関関係が大幅に減少します。これは、小さな構成の変更がトレーニング済みモデルに影響を与え、相関関係のリスクを軽減できることを意味しますが、モデル構成の変更は慎重に進め、慎重に評価する必要があることも示しています。

BERT および ALBERT トレーニング中に Dropout パラメータを増やすことの影響

相関の緩和: ドロップアウトが性別の相関に与える影響についての前回の紹介に基づいて、ドロップアウト パラメーターを増やすことで、手動で何も指定したり、微調整段階を変更したりすることなく、モデルが WinoGender を推測する方法を改善できるという追加の相関を減らすことができるとさらに推測します。ただし、ドロップアウトが増加すると OneNotes の精度も低下し始めます (BERT の結果を参照)。ただし、特定のタスクに合わせてドロップアウトを更新せずに変更することでモデルを改善することで、事前トレーニング フェーズ中にこれを回避できると考えられます。本稿では、反事実的データ拡張に基づいて差別化された重みを使用した別の緩和戦略を提案します。

見通し

これらの実用的なガイドラインは、より幅広い言語やアプリケーションに適用できる強力な NLP システムを開発するための参考になると考えています。もちろん、テクノロジーに固有の制限があるため、潜在的な問題をすべて把握して排除することは困難です。したがって、現実世界の環境に展開されるモデルは、さまざまなアプローチを試して厳密にテストし、Google の AI 原則などの倫理基準に準拠していることを確認するための安全策を講じる必要があります。今後、言語モデルをさまざまなタスクに適用し、より多くの人々に高品質なサービスを提供できるよう、評価フレームワークやデータのさらなる開発が進むことを期待しています。

謝辞

この記事の共著者には、Xuezhi Wang、Ian Tenney、Ellie Pavlick、Alex Beutel、Jilin Chen、Emily Pitler、Slav Petrov が含まれます。 Fernando Pereira、Ed Chi、Dipanjan Das、Vera Axelrod、Jacob Eisenstein、Tulsee Doshi、James Wexler にも感謝します。

<<:  AIが作ったノアの箱舟はどこへ行くのでしょうか?

>>:  顔認識アクセス制御システムが起動した後は、ゲートを簡単に通過する際に潜在的なリスクにも注意する必要があります。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIは採用に何をもたらすのでしょうか?

人工知能は、次のような採用活動に大きく貢献しています。 [[433895]] 1. 候補者の自動ソー...

...

...

毎日のアルゴリズム: 回転マトリックス

[[431855]]各ピクセルのサイズが 4 バイトである N × N 行列で表される画像が与えられ...

OpenAI と Mistral AI によって人気を博した MoE の背景にあるストーリーとは?ハイブリッドアーキテクチャの導入に関する包括的なガイド

専門家の混合 (MoE) は、LLM の効率性と精度を向上させるためによく使用される手法です。このア...

自動運転の 3 つの大きな問題点、つまり安全性に直接対処しますか?プレミアム?プライバシー漏洩?

2021年の上海モーターショーが終わったばかりですが、会場内外で自動運転が大きな注目を集めています...

...

テンセントのロボット犬が本物の犬の仕事を奪う!彼は楽しくゲームをしたり、歩き回ったりすることができます。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

このアリは写真を撮ることができます!プリンストン大学は、50万分の1の大きさに縮小されたミクロンレベルのカメラを開発した。

最近、プリンストン大学の研究者らは、世界初の高品質ミクロンスケール光学イメージングデバイス「ニューラ...

食品配達ドローンは登場するのか?テンセントが美団の増資を完了、無人配達の研究開発に4億ドルを投資

[[411531]]写真/トゥチョン美団は7月13日夜、テンセントのサブスクリプション契約に含まれる...

ツールの選択からチームのコミュニケーションまで、ML エンジニアが実稼働レベルの機械学習を段階的に構築する様子をご覧ください。

機械学習がユーザーに真の価値をもたらすためには、それを本番システムに導入する必要があります。 AI ...

スーパーアプリの3つの成功例

スーパーアプリは、より多くの顧客を引き付けるための革新的な戦略です。さらに、多数のサービスを 1 つ...

AI時代:従来の常識を超えた大胆な未来

今日の世界では、人工知能 (AI) が驚異的なスピードで進歩しており、その進歩に遅れを取らないことが...

ChatGPTを使用してPythonクローラースクリプトを自動的に作成する

人工知能チャットボット「ChatGPT」は最近非常に人気が高まっており、あらゆるメディアでそのニュー...

...