NLP モデルは人間のレベルを超えるか?大きな詐欺に遭ったかもしれない

NLP モデルは人間のレベルを超えるか?大きな詐欺に遭ったかもしれない

[[276457]]

ビッグデータダイジェスト制作

出典: thegradient

編纂者:張瑞怡、呉帥、銭天培

軍によって訓練されたニューラルネットワークは、画像内の戦車を分類できると主張していたが、実際には、ある種類の戦車は明るい画像にのみ現れ、別の種類の戦車は暗い画像にのみ現れるため、異なる明るさのレベルを認識することを学習しただけだった。

ゲーム AI は、より高いスコアを獲得するために、より難しい第 2 レベルの開始時ではなく、第 1 レベルの終了時に意図的に死ぬことを学習します。

AIは奇妙でばかげた方法で人間を欺き、自らの目的を達成しようとします。私たちはこれまでにも、そのような事例を多数まとめてきました。

「間違った」情報を学習することでモデルがタスクを解決するという問題は古くから存在しており、「賢いハンス効果」として知られています。

[[276458]]

この効果は、ハンスという名前の馬がいくつかの簡単な知的作業を実行できるように見えるが、実際には人間が与える無意識の手がかりに頼っているだけであるというものです。

クレバー・ハンス効果は画像検出においては以前から知られていましたが、台湾の国立成功大学のニーヴン氏とカオ氏は新しい論文で、この効果が NLP でも注目を集めていると指摘しています。その影響がなければ、BERT は私たちが思っていたほど魔法のようなものではないかもしれません。

まず、論文へのリンクを添付し、議論のプロセスを確認してください: https://www.aclweb.org/anthology/P19-1459/

Niven と Kao は議論理解データセットを使用しました。ランダム選択の精度は 50% でした。以前の最高パフォーマンスのモデルの精度は 71% でした。その後、BERT を選択し、微調整するだけで、驚異的な 77% の精度を達成しました。

BERT は確かにその評判に値するようです。

しかし、著者はこの一見成功した「微調整」に疑問を抱き、それを証明しようと試みます。

NLPには「賢いハンス」の瞬間がある

議論の理解は、世界に関する知識と常識的な推論を必要とする、かなり難しい作業です。 BERT は間違いなくこれまでで最高の言語モデルの 1 つであり、その転移学習は「NLP の Imagenet モーメント」ですが、言語モデルが高度な自然言語理解のスキルを獲得したという証拠はほとんどありません。

議論と理由が与えられたら、その推論を正当なものにする証拠を見つける必要があります。

たとえば、「Google は独占していない」という議論があり、その理由が「人々は Google を使用しない選択をすることができる」であるとします。この推論は、「他の検索エンジンは Google につながらない」という議論によって裏付けられる必要があります。しかし、「他の検索エンジンが Google につながる」と言うなら、その議論は説得力がありません。

著者らは、BERT モデルに関して 3 つの分析も実施しました。

まず、研究者たちは、可能な回答(つまり、議論)の中からユニグラムとバイグラムを計算し、not、is、was などの単一のユニグラムが、ランダムな偶然よりも正確に正しい議論を予測できることを観察しました。これは、これらの手がかりが有用であり、モデルによって活用される可能性があることを示唆しています。

次に、モデルが実際にこれらの手がかりを使用しているかどうかを確認するために、著者らはモデルに部分的な入力のみを与え、モデルが正しい答えを推測できないようにしました。たとえば、議論や理由を示さずに、「他の検索エンジンは Google にリダイレクトしない」または「他の検索エンジンはすべて Google にリダイレクトする」のどちらが正しいかを推測することは不可能です。しかし、モデルはこの不可能性を無視し、71% の精度で正しい議論を識別しました。

他の 2 つの類似タスク (議論と正当化のみ、理由と正当化のみ) を実験した後、著者らは、データセットには統計的な手がかりがあり、BERT の優れたパフォーマンスはこれらの手がかりを活用しているからであると結論付けました。

これを説明するために、著者らは 3 番目の実験で、手がかりがもはや有益ではないデータセットを構築し、BERT のパフォーマンスがランダムな偶然のレベルまで低下することを発見しました。

ほとんどの人は、not、is、do などの大量のユニグラムに基づいて予測を行うモデルは、議論を理解できないことに同意するでしょう。

したがって、著者らは SOTA の結果は無意味であると宣言します。

これは最近の悪名高い2つの事件を思い出させます。 1 つは、犯罪者の顔と法を遵守する市民の顔を区別できると主張していたが、実際には笑顔を検出するだけだった画像分類装置であり、もう 1 つは、実際には眼鏡、ひげ、アイシャドウを検出する、いわゆる「性的指向検出器」であった。

[[276459]]

NLP がコンピューター ビジョンの足跡をたどるなら、その過ちを繰り返す運命にあるようです。

論文に戻ると、著者らは、NLP データセットにおける「賢いハンス効果」を示す最近の研究が多数あると指摘しています。

誤解のないように言っておくと、これは BERT やディープラーニングのような大規模なモデルが役に立たないということではありません。しかし、高度な自然言語理解タスクにおいて人間に近いパフォーマンスを示すディープラーニング モデルに関する報告には懐疑的であるべきです。

モデルのパフォーマンスは本当に良いですか? あまり喜ばないで、騙してみてください!

Clever Hans 効果の例を発見する論文の増加は、NLP 研究にとって重要な新たな問題を提起します。最も明白な問題は、この影響をいかにして防ぐかということです。

データセット内のパターンが現在のタスクの目標と一致する場合、それらのパターンを認識し、記憶し、一般化できるモデルが望ましいです。 そうでない場合、モデルはタスクを理解していなくても適切に機能する可能性があります。

Clever Hans 効果を防ぐには、より優れたデータセットとモデルの厳密な堅牢性分析が必要です。

モデルを考案してそれを改善することで、開発プロセス中にすぐに満足感を得ることができます。さらに、公開データセットに対する SOTA により、論文が確実に受け入れられるようになります。

しかし、データセットの作成から得られる満足感は、より遅れて不確実になります。 SOTA を取得するための新しいモデルを提案する論文に対する ACL 会議の査読者のデフォルトの立場は「受け入れ」である一方、新しいデータセットを紹介する論文は「この論文は新しいデータセットを紹介するだけ」という理由で拒否される可能性が高いと言われています。彼らは、データセットを作成した人々は本当の科学を行っていなかったと主張している。

モデルの一部を削除し (アブレーション)、パフォーマンスへの影響を観察することは、コンポーネントが有用かどうかを確認するための一般的な方法です。 パフォーマンスが低下しない場合は、その部品は役に立たないので、削除する必要があります。

これは、次のようなデータセット削除タスクを実行するときにも一般的な方法になるはずです。

  • 不完全な入力のみを入力します (上記のとおり): これにより、完全な入力が必要かどうかが確認されます。そうでない場合、データセットにはショートカットを可能にする手がかりがいくつか含まれています。
  • 入力をシャッフルする: これにより、単語 (または文) の順序の重要性が検証されます。 スコアがあまり変化しない場合は、モデルが入力の順序を理解していないことを意味します。
  • ランダムなラベルの割り当て: インスタンスの 10% がランダムに再ラベル付けされた場合、パフォーマンスはどの程度低下するでしょうか。すべてのインスタンスを再ラベル付けした場合はどうでしょうか。スコアがあまり変化しない場合は、モデルはおそらく何も興味深いことを学習していないことになります。
  • コンテンツ ワードをランダムに置き換える: すべての名詞句または動詞句をランダムな名詞句と動詞に置き換えた場合、パフォーマンスはどの程度低下するでしょうか。それほど低下しない場合は、データセットによって、文の長さや機能語の分布など、予期しないコンテンツ以外の手がかりが提供される場合があります。

もう一つの例を挙げましょう。入力に無関係な文を追加すると、質問応答モデルが異なる回答を返す場合 (下の図を参照)、モデルが質問を本当に理解していないことを意味します。

より優れたデータセットを作成することに加えて、モデル作成者は「構築して破壊する」という考え方を持つ必要があります。モデルは特定のデータセットで高いスコアを達成するだけでなく、十分に堅牢でなければなりません。

モデルのパフォーマンスが良好であっても、まだ満足しすぎないでください。入力を変更して、モデルを騙せるかどうか試してみてください。

どれだけ努力してもモデルを騙すことができない場合、おそらく非常に優れたモデルを作成したことになります。

関連レポート:

https://thegradient.pub/nlps-clever-hans-moment-has-arrived/?nsukey=zGUM%2BitIg2PGgczL9OmBgiXDHkdeWy4hJYQG33fkllynu9PqhCkmZecP%2Bjrltr7xEB14BaM3FGFlyRWfJj9geFWr9cIsH%2FXosh%2B1kWc8%2BYCti2mUogfGmD8YTXENuU9X2slPjqbQOkYURwZHDx%2FnRv68UyeFpeWbEu6YIyOjk2eonxejiqu8sWZT%2B8FWxdUSAEOqQ%2Bwr6iGpCV8y3AgrAA%3D%3D

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  機械学習の運用はクラウドコンピューティングの運用には適していない

>>:  人工知能について知っておくべき基礎知識はすべてここにあります

ブログ    

推薦する

...

なぜ医療においてAIを信頼できないのか?データセットが小さく信頼性が低いため、AI医療にはまだまだ課題がある

近年、医療診断における AI の応用がますます注目されており、薬物スクリーニングや AI 診断など、...

クロスモーダルトランスフォーマー: 高速かつ堅牢な 3D オブジェクト検出に向けて

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

Suning製品セマンティックリコールにおけるDSSMテキストマッチングモデルの適用

【51CTO.comオリジナル記事】 1. 背景テキスト マッチングは、自然言語処理における中核的な...

Llama 2を破り、GPT-3.5と競合するStability AIの新モデルがオープンソースの大規模モデルのリストでトップに

「たった30分の昼休みを取っただけで、私たちの分野はまた変わってしまったのか?」最新のオープンソース...

...

データ構造とアルゴリズム: 奇数偶数による配列のソート II

[[429517]]簡単なシミュレーション問題、ぜひ挑戦してみてください!配列を偶数/奇数でソート...

...

...

顔認識におけるコモンズの悲劇

現在、顔認識などの個人情報の所有権と保護に関する権威ある解釈や体系的な政策や法的規範は存在せず、商業...

EU、生成AIツールの規制について暫定合意に達する:これまでで最も包括的な規則

12月9日、ワシントンポスト紙やエンガジェットなどの海外メディアの報道によると、世界各国がAIの急速...

Huaweiは封鎖を突破し、GoogleのDropout特許をベンチマークし、独自のアルゴリズムDisoutをオープンソース化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習を使用したデータマッピング

[[278276]]中小企業から大企業まで、ほぼすべての企業が顧客の注目を集める機会を求めて競争して...

災害後、ウェイモブは独自のデータベースの構築を断念し、商人に1億5000万元を支払った。

[[316623]] 【51CTOオリジナル記事】先週、WeMallは大規模なシステム障害に見舞わ...

医療AIの深淵:まだ解決すべき大きな問題

5Gに加えて、人工知能は今年も引き続きホットな話題です。筆者は最近、医療人工知能のコンテストを間近で...