NLP モデルは人間の言語を理解できないのでしょうか? Microsoft AdaTestはエラーの検出効率が5倍向上

NLP モデルは人間の言語を理解できないのでしょうか? Microsoft AdaTestはエラーの検出効率が5倍向上

自然言語処理 (NLP) モデルは人間の言語を理解できず、テキストを反対の意味として解釈しますが、これは業界の慢性的な問題です。 マイクロソフト社は現在、この問題に対する解決策を開発したと発表している。

マイクロソフト、NLP モデルをテストする AdaTest メソッドを開発

幅広いアプリケーションの基盤として機能できる大規模モデル、つまりプラットフォーム モデルの進歩により、AI の自然言語処理能力が大幅に向上しました。しかし、自然言語処理 (NLP) モデルはまだ完璧には程遠く、恥ずかしい形で欠陥が明らかになることもあります。

たとえば、ポルトガル語で「この料理はお勧めしません」という表現を英語で「この料理を強くお勧めします」と翻訳するトップコマーシャルモデルがいます。

こうした失敗が続く理由の 1 つは、NLP モデルのバグを見つけて修正するのが難しいためです。そのため、深刻なバグがほぼすべての主要なオープン ソースおよび商用 NLP モデルに影響を及ぼしています。 現在、NLP モデルのエラーを見つけて修正する方法には、ユーザー主導型と自動型の 2 つがあります。

ユーザー主導のアプローチは柔軟性があり、NLP モデルの動作のあらゆる側面をテストできます。しかし、このアプローチは、極めて可変的な人間の想像力とエラーを認識する能力に依存しており、非常に労働集約的であるため、実際には入力データのごく一部しかテストに利用できません。

一方、自動方法は高速であるため、入力データの大部分を処理できます。しかし、人間による制御がないため、わずかに異なる入力文言を処理する際にモデルの予測に一貫性がなくなる場合など、非常に限られた状況でのみモデルが正しいか間違っているかをテストできます。

Microsoft の研究者は、GPT-3 のような最新の大規模言語モデル (LLM) は、業界にとって、ユーザー主導型と自動型の方法の長所を組み合わせる機会を提供し、ユーザーがテスト対象のモデルの動作を定義できるようにすると同時に、最新の大規模言語モデルの生成力を活用して、モデルの動作の特定のカテゴリで大規模なテストを生成できると考えています。

Microsoft の研究者は、この人間とマシンの統合パスを「適応型テストとバグ除去」と呼び、略して AdaTest と呼んでいます。 AdaTest では、大規模な言語モデルに、テスト対象モデルのエラーを対象とする多数のテストを生成するというタスクが課せられます。

人間の介入により、有効なテストを選択し、それらを意味的に関連するトピックに整理することで、言語モデルの生成がガイドされます。 この種の人間によるガイダンスにより、言語モデルの生成パフォーマンスが大幅に向上し、ターゲットドメインに向けられます。

これらのテストは実際にはラベル付きデータの一種であるため、NLP モデルのバグを特定できるだけでなく、従来のソフトウェア開発と同様の反復的なデバッグ サイクルでバグを修正するためにも使用できます。

AdaTest は、プログラミングの経験がない一般の人でも効果的に使用できるほどシンプルでありながら、プロのユーザーには大幅な効率向上をもたらします。 つまり、プロフェッショナル ユーザーと一般ユーザーの両方が、さまざまなシナリオで NLP モデルの動作をより適切に理解して制御できるようになり、AI システムのパフォーマンスが向上するだけでなく、ユーザーのニーズに対する AI システムの応答性も向上します。

テストループを使用して脆弱性を見つける

AdaTest モードは、エラーを見つけるために使用される内部テスト ループと、エラーを修正するために使用される外部デバッグ ループで構成されます。

この作業は簡単そうに見えますが、市場に出回っている最先端のモデルでも間違いが起こることがよくあります。 たとえば、一部の SOTA モデルでは、「人生でこれほど楽しい時間を過ごしたことはないと思う」という二重否定の文を否定的な感情として分類したり、さらに深刻なことに、「私は少数派だ」という文を否定的な感情として分類したりします。

これら両方の状況は、市場のビジネス モデルで実際に発生した間違いです。 AdaTest がエラーを検出して修正できることを実証するために、Microsoft の研究チームは、NLP モデルでテキストの公平性の失敗をテストして修正する方法を実演しました。

NLP モデルのテキスト公平性の失敗、つまりテキスト内の特定の属性グループの中立的な記述により、NLP モデルのテキスト感情分析機能が失敗し、テキストの感情の重みが誤って低下する可能性があります。つまり、モデルは特定のグループの描写をより否定的に扱う可能性があります。

テスト サイクルでは、Microsoft の研究者はさまざまな ID に関する一連のテキスト ユニット テストから開始し、この一連のテストを「機密」としてマークしました。これらの初期の例では、モデルに問題があることは何も明らかにされませんでした。

ただし、AdaTest メソッドでは、GPT-3 を使用して、コーパスに類似した多数の示唆的なテストを生成し、テスト オブジェクト モデルの潜在的なバグを強調表示します。

何百ものテストが生成されましたが、介入担当者は、誤りまたは誤りに近い最初の数個のテストを確認するだけで済みました。 次に、手動介入により、実際には間違っていないテスト結果が無視され、他の有効なテスト結果が現在のトピックに追加され、場合によっては他のサブトピックに整理されます。これらの手動でフィルタリングされたテスト結果は、次の入力ラウンドの言語モデルプロンプトに含まれ、次の入力データセットの処理結果がユーザーの懸念とモデルエラーの交差点にプッシュされます。

この内部テスト サイクルを繰り返すことで、NLP モデルはエラーのない状態で開始され、徐々に重大なエラーやバグが明らかになってきます。 したがって、ユーザー自身がモデルの欠陥を見つけられない場合でも、合格したテストの小さなセットから始めて、NLP モデルをすばやく反復処理し、テスト対象モデルのエラーを明らかにする大規模なテスト セットを作成できます。

内部テスト ループの例 テスターがテキスト感情分析のトピックを使用せず、代わりに否定文と二重否定文の処理などの別のトピックをターゲットにする場合、テスターは異なる障害を見つけます。

たとえば、「これほど幸せを感じたことはなかった」といった単純な発言は、ビジネス モデルによって正しく肯定的なものとして分類される可能性があります。ただし、AdaTest メソッドを使用すると、「これほど良い都市を見たことがないと思う」などの複雑な文が、NLP モデルによって誤って否定文としてマークされることがすぐにわかります。

これらのエラーは、テスターが一度見れば重大かつ明白ですが、非常に特定の文言でのみ発生するため、人間が直接見つけることは困難です。 Microsoft Research チームは、AdaTest によって、専門家と非専門家の両方のユーザーがより適切にテストを記述し、NLP モデルのバグを見つけることができるかどうかを定量的に評価するために、ユーザー調査を実施しました。 研究者らは、専門ユーザーに、商用テキスト感情分類器と次の単語の自動補完用の GPT-2 の 2 つのモデルでトピック固有の機能をテストするよう依頼しました。

この機能は、入力中の電子メール内の次の単語を予測するなどのアプリケーションに使用されます。 各トピックとモデルについて、参加者は CheckList (ユーザー主導テストの SOTA を表す) または AdaTest のいずれかを使用するようにランダムに割り当てられました。 研究者たちは、さまざまなモデルと専門家の参加者の間で、AdaTest が 5 倍改善されたことを観察しました。

研究者が非専門家ユーザーに求めるテスト要件は、NLP モデルのテストにおいて有害なコーパスの内容を制御することです。参加者は、モデルによって有害で​​あると判断されたコーパス内の非有害コンテンツ、つまり個人的に適切だと感じるコンテンツを見つける必要があります。 参加者は、Dynabench クラウドソーシング インターフェースの修正バージョンを使用してモデルをテストすることも、AdaTest を使用することもできます。 その結果、AdaTest は最大 10 倍の改善を実現します。

異なる視点を持つ人々をテスト参加者としてテストした結果

デバッグループによるバグの修正

十分な数のエラーが見つかると、モデルのテスターは外部デバッグ ループ (下の図を参照) を実行し、テスト ループで見つかったエラーを修正してから、モデルを再テストします。 デバッグ ループの「再テスト」部分 (つまり、テスト ループを再度実行すること) は、このプロセスで非常に重要です。テストを使用してモデルを修正すると、テスト データではなくトレーニング データになるためです。バグを修正するプロセスでは、多くの場合、過剰に補正が行われ、デバッグ サイクルの初期段階でショートカットやバグが導入され、新しい「修正された」モデルに適合した一連のテストでのみ発見できるようになります。

オープンソースの RoBERTa-Large 感情モデルのテスト サイクル。 研究者たちは、図 2 のトピック「/sensitive/immigration」のテストから始めましたが、RoBERTa モデルはこれを誤って否定的とラベル付けしました。これらのテストでモデルが微調整され(タスクのパフォーマンスを維持するために元のトレーニング データと混合されます)、結果として、失敗しない新しいモデルが作成されます。 しかし、テスト ループを再実行すると、アプリケーションとテスト シナリオに基づいて実際には否定的であったにもかかわらず、ほぼすべての移民に関する文章が「中立」とマークされていることがわかりました。

これらの新しいテストを使用して再度微調整を行った結果、モデルは「すべての移民の文は中立的である」という近道を追加することなく、元のエラーを正しく修正することができました。 もちろん、これはモデルに別のショートカットが存在しないという保証にはなりませんが、私たちの経験では、数回のデバッグ サイクルを経て、元のエラーを修正する際に発生する予期しないエラーの数が大幅に減少しました。

テスターは、起こりうるすべてのエラーを事前に徹底的に特定する必要はありません。AdaTest は、次のテストおよびデバッグ ラウンドで導入されたエラーを適応的に検出し、修正します。

したがって、デバッグ ループは、満足のいくモデルが生成されるまで、現在のバグ テスト仕様の境界を押し広げます。 実際、AdaTest は、ソフトウェア エンジニアリングにおけるテスト、修正、再テストのサイクルを NLP に適用したものと見ることができます。

デバッグ ループの反復中に追加されたショートカットは、将来の反復で検出され、修正されます。デバッグ ループの有効性を評価するために、RoBERTa-Large は、2 つの質問が重複しているかどうかを検出するために Quora の質問データセットを使用して微調整され、また、肯定的/中立的/否定的な感情分析のために Stanford Sentiment Treebank (SST) データセットを使用して微調整されました。

結果は、ベースライン モデルが 53 個の QQP トピックのうち 22 個と 39 個の感情トピックのうち 11 個を正常に識別できなかったことを示しています。その後、研究者はテーマを確定するためのデータを作成しました。 このトピックのデータから 50 個の例を抽出し、AdaTest を使用してデバッグ ループを実行した結果、QQP データセットでは平均 41.6 件のテスト、感情データセットでは平均 55.8 件のテストが行​​われました。

結果によると、ほとんどの場合、AdaTest はトレーニングに使用された質問と、一部の未表示の予約済みの質問を、質問を壊すことなく修正しますが、元の CheckList データでは、他のテストの質問を壊す新しいエラーが頻繁に導入されます。 研究者らは、標準的な開発環境における AdaTest の有効性も評価しました。 3 か月の開発、CheckList テスト、GPT-3 に基づくアドホック データ拡張を経て、実際に収集された未知のデータで F1 スコア 0.66 (1.00 点満点) が達成されました。

同じチームは、AdaTest を使用して、デバッグ ループを 4 時間実行した後、同じ未知のデータセットで F1 スコア 0.77 を達成しました。これらのスコアは、2 番目の未確認データセットで複製され、従来の方法の方がパフォーマンスが優れていた領域でも AdaTest がバグ修正を実行できることが実証されました。

人間は言語モデルに欠けている問題の仕様を提供しますが、言語モデルはより大規模かつ広範囲にわたる高品質なテストを提供し、モデルのテストとデバッグを結び付けてエラーを効果的に修正することで、モデル開発を従来のソフトウェア開発の反復的な性質に一歩近づけます。

人間と AI のコラボレーションは、機械学習の発展の将来の方向性を示しています。大規模言語モデルの機能が拡大し続けるにつれて、このコラボレーションがさらに向上することが期待されます。​

<<:  アメリカがスーパーコンピューティングで世界トップの座を奪還!人類はエクサスケールのスーパーコンピューティングを実現、フロンティアが世界トップ500リストのトップに

>>:  人工知能は人間の弱点を克服できる

ブログ    
ブログ    
ブログ    

推薦する

畳み込みニューラルネットワークにおける自己注意メカニズムの理解

導入コンピューター ビジョンにおけるエンコーダー/デコーダー アーキテクチャの制限とそれを改善する方...

...

YouTubeの推奨アルゴリズムは潜在的に有害な動画を優先すると言われている

Mozilla の調査により、YouTube の推奨アルゴリズムは、ヘイトスピーチ、政治的および科学...

1760億のパラメータを持つBLOOMZの推論、パフォーマンスレイテンシはわずか3.7秒

大規模言語モデル (LLM) のサイズが大きくなるにつれて、これらのモデルを本番環境で推論に導入して...

[ディープラーニングシリーズ] PaddlePaddleとTensorflowでGoogLeNet InceptionV2/V3/V4を実装する

前回の記事では、GoogLeNet InceptionV1のネットワーク構造を紹介しました。この記事...

トヨタが GenAI を活用して IT サービスを変革する方法

「私の大胆な決断の1つは、2025年までに従来のヘルプデスクを廃止したいということだった」とトヨタ自...

...

ネットワークセキュリティ運用保守サービスにおける人工知能の応用

近年、国内外のサイバーセキュリティ情勢はますます複雑化しており、従来のモデルでは国民経済の生命線に関...

ほんの数行の Python コードで、将来の子供がどのような外見になるかを予測できますか?強力な人工知能

今回はBaidu Smart Cloudの顔認識機能とPythonを組み合わせて実験してみました。結...

IBMとNASAが協力して地理空間AIモデルをオープンソース化し、気候科学の発展を目指す

8月4日、海外メディアFagen Wasanni Technologiesによると、IBMは最近、N...

ディープラーニングのこれらの概念をすべて理解できましたか? TF、TLT、TRT、DS....

最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...

小売業における人工知能

[[433164]] [51CTO.com クイック翻訳]周知のように、小売業界の競争は激しく、人工...

シスコの調査:企業の25%以上が社内で生成AIの禁止を実施している

シスコが実施した調査によると、データプライバシーの面で生成AIに欠点があることを理解しているにもかか...