NLP モデルは人間の言語を理解できないのでしょうか? Microsoft AdaTestはエラーの検出効率が5倍向上

自然言語処理 (NLP) モデルは人間の言語を理解できず、テキストを反対の意味として解釈しますが、これは業界の慢性的な問題です。マイクロソフト社は現在、この問題に対する解決策を開発したと発表している。

マイクロソフト、NLP モデルをテストする AdaTest メソッドを開発

幅広いアプリケーションの基盤として機能できる大規模モデル、つまりプラットフォームモデルの進歩により、AI の自然言語処理能力が大幅に向上しました。しかし、自然言語処理 (NLP) モデルはまだ完璧には程遠く、恥ずかしい形で欠陥が明らかになることもあります。

たとえば、ポルトガル語で「この料理はお勧めしません」という表現を英語で「この料理を強くお勧めします」と翻訳するトップコマーシャルモデルがいます。

こうした失敗が続く理由の 1 つは、NLP モデルのバグを見つけて修正するのが難しいためです。そのため、深刻なバグがほぼすべての主要なオープンソースおよび商用 NLP モデルに影響を及ぼしています。現在、NLP モデルのエラーを見つけて修正する方法には、ユーザー主導型と自動型の 2 つがあります。

ユーザー主導のアプローチは柔軟性があり、NLP モデルの動作のあらゆる側面をテストできます。しかし、このアプローチは、極めて可変的な人間の想像力とエラーを認識する能力に依存しており、非常に労働集約的であるため、実際には入力データのごく一部しかテストに利用できません。

一方、自動方法は高速であるため、入力データの大部分を処理できます。しかし、人間による制御がないため、わずかに異なる入力文言を処理する際にモデルの予測に一貫性がなくなる場合など、非常に限られた状況でのみモデルが正しいか間違っているかをテストできます。

Microsoft の研究者は、GPT-3 のような最新の大規模言語モデル (LLM) は、業界にとって、ユーザー主導型と自動型の方法の長所を組み合わせる機会を提供し、ユーザーがテスト対象のモデルの動作を定義できるようにすると同時に、最新の大規模言語モデルの生成力を活用して、モデルの動作の特定のカテゴリで大規模なテストを生成できると考えています。

Microsoft の研究者は、この人間とマシンの統合パスを「適応型テストとバグ除去」と呼び、略して AdaTest と呼んでいます。 AdaTest では、大規模な言語モデルに、テスト対象モデルのエラーを対象とする多数のテストを生成するというタスクが課せられます。

人間の介入により、有効なテストを選択し、それらを意味的に関連するトピックに整理することで、言語モデルの生成がガイドされます。この種の人間によるガイダンスにより、言語モデルの生成パフォーマンスが大幅に向上し、ターゲットドメインに向けられます。

これらのテストは実際にはラベル付きデータの一種であるため、NLP モデルのバグを特定できるだけでなく、従来のソフトウェア開発と同様の反復的なデバッグサイクルでバグを修正するためにも使用できます。

AdaTest は、プログラミングの経験がない一般の人でも効果的に使用できるほどシンプルでありながら、プロのユーザーには大幅な効率向上をもたらします。つまり、プロフェッショナルユーザーと一般ユーザーの両方が、さまざまなシナリオで NLP モデルの動作をより適切に理解して制御できるようになり、AI システムのパフォーマンスが向上するだけでなく、ユーザーのニーズに対する AI システムの応答性も向上します。

テストループを使用して脆弱性を見つける

AdaTest モードは、エラーを見つけるために使用される内部テストループと、エラーを修正するために使用される外部デバッグループで構成されます。

この作業は簡単そうに見えますが、市場に出回っている最先端のモデルでも間違いが起こることがよくあります。たとえば、一部の SOTA モデルでは、「人生でこれほど楽しい時間を過ごしたことはないと思う」という二重否定の文を否定的な感情として分類したり、さらに深刻なことに、「私は少数派だ」という文を否定的な感情として分類したりします。

これら両方の状況は、市場のビジネスモデルで実際に発生した間違いです。 AdaTest がエラーを検出して修正できることを実証するために、Microsoft の研究チームは、NLP モデルでテキストの公平性の失敗をテストして修正する方法を実演しました。

NLP モデルのテキスト公平性の失敗、つまりテキスト内の特定の属性グループの中立的な記述により、NLP モデルのテキスト感情分析機能が失敗し、テキストの感情の重みが誤って低下する可能性があります。つまり、モデルは特定のグループの描写をより否定的に扱う可能性があります。

テストサイクルでは、Microsoft の研究者はさまざまな ID に関する一連のテキストユニットテストから開始し、この一連のテストを「機密」としてマークしました。これらの初期の例では、モデルに問題があることは何も明らかにされませんでした。

ただし、AdaTest メソッドでは、GPT-3 を使用して、コーパスに類似した多数の示唆的なテストを生成し、テストオブジェクトモデルの潜在的なバグを強調表示します。

何百ものテストが生成されましたが、介入担当者は、誤りまたは誤りに近い最初の数個のテストを確認するだけで済みました。次に、手動介入により、実際には間違っていないテスト結果が無視され、他の有効なテスト結果が現在のトピックに追加され、場合によっては他のサブトピックに整理されます。これらの手動でフィルタリングされたテスト結果は、次の入力ラウンドの言語モデルプロンプトに含まれ、次の入力データセットの処理結果がユーザーの懸念とモデルエラーの交差点にプッシュされます。

この内部テストサイクルを繰り返すことで、NLP モデルはエラーのない状態で開始され、徐々に重大なエラーやバグが明らかになってきます。したがって、ユーザー自身がモデルの欠陥を見つけられない場合でも、合格したテストの小さなセットから始めて、NLP モデルをすばやく反復処理し、テスト対象モデルのエラーを明らかにする大規模なテストセットを作成できます。

内部テストループの例テスターがテキスト感情分析のトピックを使用せず、代わりに否定文と二重否定文の処理などの別のトピックをターゲットにする場合、テスターは異なる障害を見つけます。

たとえば、「これほど幸せを感じたことはなかった」といった単純な発言は、ビジネスモデルによって正しく肯定的なものとして分類される可能性があります。ただし、AdaTest メソッドを使用すると、「これほど良い都市を見たことがないと思う」などの複雑な文が、NLP モデルによって誤って否定文としてマークされることがすぐにわかります。

これらのエラーは、テスターが一度見れば重大かつ明白ですが、非常に特定の文言でのみ発生するため、人間が直接見つけることは困難です。 Microsoft Research チームは、AdaTest によって、専門家と非専門家の両方のユーザーがより適切にテストを記述し、NLP モデルのバグを見つけることができるかどうかを定量的に評価するために、ユーザー調査を実施しました。研究者らは、専門ユーザーに、商用テキスト感情分類器と次の単語の自動補完用の GPT-2 の 2 つのモデルでトピック固有の機能をテストするよう依頼しました。

この機能は、入力中の電子メール内の次の単語を予測するなどのアプリケーションに使用されます。各トピックとモデルについて、参加者は CheckList (ユーザー主導テストの SOTA を表す) または AdaTest のいずれかを使用するようにランダムに割り当てられました。研究者たちは、さまざまなモデルと専門家の参加者の間で、AdaTest が 5 倍改善されたことを観察しました。

研究者が非専門家ユーザーに求めるテスト要件は、NLP モデルのテストにおいて有害なコーパスの内容を制御することです。参加者は、モデルによって有害であると判断されたコーパス内の非有害コンテンツ、つまり個人的に適切だと感じるコンテンツを見つける必要があります。参加者は、Dynabench クラウドソーシングインターフェースの修正バージョンを使用してモデルをテストすることも、AdaTest を使用することもできます。その結果、AdaTest は最大 10 倍の改善を実現します。

異なる視点を持つ人々をテスト参加者としてテストした結果

デバッグループによるバグの修正

十分な数のエラーが見つかると、モデルのテスターは外部デバッグループ (下の図を参照) を実行し、テストループで見つかったエラーを修正してから、モデルを再テストします。デバッグループの「再テスト」部分 (つまり、テストループを再度実行すること) は、このプロセスで非常に重要です。テストを使用してモデルを修正すると、テストデータではなくトレーニングデータになるためです。バグを修正するプロセスでは、多くの場合、過剰に補正が行われ、デバッグサイクルの初期段階でショートカットやバグが導入され、新しい「修正された」モデルに適合した一連のテストでのみ発見できるようになります。

オープンソースの RoBERTa-Large 感情モデルのテストサイクル。研究者たちは、図 2 のトピック「/sensitive/immigration」のテストから始めましたが、RoBERTa モデルはこれを誤って否定的とラベル付けしました。これらのテストでモデルが微調整され（タスクのパフォーマンスを維持するために元のトレーニングデータと混合されます）、結果として、失敗しない新しいモデルが作成されます。しかし、テストループを再実行すると、アプリケーションとテストシナリオに基づいて実際には否定的であったにもかかわらず、ほぼすべての移民に関する文章が「中立」とマークされていることがわかりました。

これらの新しいテストを使用して再度微調整を行った結果、モデルは「すべての移民の文は中立的である」という近道を追加することなく、元のエラーを正しく修正することができました。もちろん、これはモデルに別のショートカットが存在しないという保証にはなりませんが、私たちの経験では、数回のデバッグサイクルを経て、元のエラーを修正する際に発生する予期しないエラーの数が大幅に減少しました。

テスターは、起こりうるすべてのエラーを事前に徹底的に特定する必要はありません。AdaTest は、次のテストおよびデバッグラウンドで導入されたエラーを適応的に検出し、修正します。

したがって、デバッグループは、満足のいくモデルが生成されるまで、現在のバグテスト仕様の境界を押し広げます。実際、AdaTest は、ソフトウェアエンジニアリングにおけるテスト、修正、再テストのサイクルを NLP に適用したものと見ることができます。

デバッグループの反復中に追加されたショートカットは、将来の反復で検出され、修正されます。デバッグループの有効性を評価するために、RoBERTa-Large は、2 つの質問が重複しているかどうかを検出するために Quora の質問データセットを使用して微調整され、また、肯定的/中立的/否定的な感情分析のために Stanford Sentiment Treebank (SST) データセットを使用して微調整されました。

結果は、ベースラインモデルが 53 個の QQP トピックのうち 22 個と 39 個の感情トピックのうち 11 個を正常に識別できなかったことを示しています。その後、研究者はテーマを確定するためのデータを作成しました。このトピックのデータから 50 個の例を抽出し、AdaTest を使用してデバッグループを実行した結果、QQP データセットでは平均 41.6 件のテスト、感情データセットでは平均 55.8 件のテストが行われました。

結果によると、ほとんどの場合、AdaTest はトレーニングに使用された質問と、一部の未表示の予約済みの質問を、質問を壊すことなく修正しますが、元の CheckList データでは、他のテストの質問を壊す新しいエラーが頻繁に導入されます。研究者らは、標準的な開発環境における AdaTest の有効性も評価しました。 3 か月の開発、CheckList テスト、GPT-3 に基づくアドホックデータ拡張を経て、実際に収集された未知のデータで F1 スコア 0.66 (1.00 点満点) が達成されました。

同じチームは、AdaTest を使用して、デバッグループを 4 時間実行した後、同じ未知のデータセットで F1 スコア 0.77 を達成しました。これらのスコアは、2 番目の未確認データセットで複製され、従来の方法の方がパフォーマンスが優れていた領域でも AdaTest がバグ修正を実行できることが実証されました。

人間は言語モデルに欠けている問題の仕様を提供しますが、言語モデルはより大規模かつ広範囲にわたる高品質なテストを提供し、モデルのテストとデバッグを結び付けてエラーを効果的に修正することで、モデル開発を従来のソフトウェア開発の反復的な性質に一歩近づけます。

人間と AI のコラボレーションは、機械学習の発展の将来の方向性を示しています。大規模言語モデルの機能が拡大し続けるにつれて、このコラボレーションがさらに向上することが期待されます。

<<: アメリカがスーパーコンピューティングで世界トップの座を奪還！人類はエクサスケールのスーパーコンピューティングを実現、フロンティアが世界トップ500リストのトップに

>>: 人工知能は人間の弱点を克服できる

ブログ

NLP モデルは人間の言語を理解できないのでしょうか? Microsoft AdaTestはエラーの検出効率が5倍向上

マイクロソフト、NLP モデルをテストする AdaTest メソッドを開発

テストループを使用して脆弱性を見つける

デバッグループによるバグの修正

AIは金融犯罪者と戦う技術である

AppleはAI競争で遅れをとり、市場価値ランキングはAmazon、Google、Microsoftに追い抜かれる可能性も

ETHは、画像の超解像と画像の再スケーリングを考慮して、新しい統合フレームワークHCFlowを提案しています。

フェイフェイ・リーのチームの新しい研究：脳制御ロボットが家事を行い、脳コンピューターインターフェースに少ないサンプルで学習する能力を与える

2024年に向けて誰もが準備すべきAIトレンドトップ10

量子コンピューティングの「GPT の瞬間」はもうすぐ来るのでしょうか?企業はどのように準備すべきでしょうか?

推薦する

2021年にAIは暗号通貨分野に参入するでしょうか?

2021年中間レビュー: AIの浮き沈み、希望の頂点から失望の谷まで

Google の家庭用ロボットがスタンフォード大学のエビ揚げロボットに挑む!猫と遊ぶためにお茶と水を出し、3回続けてフリックして猫と遊ぶ

人工知能はどのようにして自分自身に目標を設定するのでしょうか?

AI産業化が深海域に入る中、コンピューティングパワーのボトルネックをどうやって打破するのか？

なぜ医療においてAIを信頼できないのか？データセットが小さく信頼性が低いため、AI医療にはまだまだ課題がある

AIに関する誤解

TensorFlow を使用したコンテキストチャットボットの実装

誰でも大きなモデルを使用できます。よく構成されたプロンプトにより、簡単に始めることができます。

「非ディープネットワーク」12 層が 50 層に勝つ、プリンストン + インテル: 深い方が必ずしも良いわけではない

AIガバナンスがリスクを軽減しながら利益を獲得する方法