NLP モデルは人間のレベルを超えるか?大きな詐欺に遭ったかもしれない

NLP モデルは人間のレベルを超えるか?大きな詐欺に遭ったかもしれない

[[276457]]

ビッグデータダイジェスト制作

出典: thegradient

編纂者:張瑞怡、呉帥、銭天培

軍によって訓練されたニューラルネットワークは、画像内の戦車を分類できると主張していたが、実際には、ある種類の戦車は明るい画像にのみ現れ、別の種類の戦車は暗い画像にのみ現れるため、異なる明るさのレベルを認識することを学習しただけだった。

ゲーム AI は、より高いスコアを獲得するために、より難しい第 2 レベルの開始時ではなく、第 1 レベルの終了時に意図的に死ぬことを学習します。

AIは奇妙でばかげた方法で人間を欺き、自らの目的を達成しようとします。私たちはこれまでにも、そのような事例を多数まとめてきました。

「間違った」情報を学習することでモデルがタスクを解決するという問題は古くから存在しており、「賢いハンス効果」として知られています。

[[276458]]

この効果は、ハンスという名前の馬がいくつかの簡単な知的作業を実行できるように見えるが、実際には人間が与える無意識の手がかりに頼っているだけであるというものです。

クレバー・ハンス効果は画像検出においては以前から知られていましたが、台湾の国立成功大学のニーヴン氏とカオ氏は新しい論文で、この効果が NLP でも注目を集めていると指摘しています。その影響がなければ、BERT は私たちが思っていたほど魔法のようなものではないかもしれません。

まず、論文へのリンクを添付し、議論のプロセスを確認してください: https://www.aclweb.org/anthology/P19-1459/

Niven と Kao は議論理解データセットを使用しました。ランダム選択の精度は 50% でした。以前の最高パフォーマンスのモデルの精度は 71% でした。その後、BERT を選択し、微調整するだけで、驚異的な 77% の精度を達成しました。

BERT は確かにその評判に値するようです。

しかし、著者はこの一見成功した「微調整」に疑問を抱き、それを証明しようと試みます。

NLPには「賢いハンス」の瞬間がある

議論の理解は、世界に関する知識と常識的な推論を必要とする、かなり難しい作業です。 BERT は間違いなくこれまでで最高の言語モデルの 1 つであり、その転移学習は「NLP の Imagenet モーメント」ですが、言語モデルが高度な自然言語理解のスキルを獲得したという証拠はほとんどありません。

議論と理由が与えられたら、その推論を正当なものにする証拠を見つける必要があります。

たとえば、「Google は独占していない」という議論があり、その理由が「人々は Google を使用しない選択をすることができる」であるとします。この推論は、「他の検索エンジンは Google につながらない」という議論によって裏付けられる必要があります。しかし、「他の検索エンジンが Google につながる」と言うなら、その議論は説得力がありません。

著者らは、BERT モデルに関して 3 つの分析も実施しました。

まず、研究者たちは、可能な回答(つまり、議論)の中からユニグラムとバイグラムを計算し、not、is、was などの単一のユニグラムが、ランダムな偶然よりも正確に正しい議論を予測できることを観察しました。これは、これらの手がかりが有用であり、モデルによって活用される可能性があることを示唆しています。

次に、モデルが実際にこれらの手がかりを使用しているかどうかを確認するために、著者らはモデルに部分的な入力のみを与え、モデルが正しい答えを推測できないようにしました。たとえば、議論や理由を示さずに、「他の検索エンジンは Google にリダイレクトしない」または「他の検索エンジンはすべて Google にリダイレクトする」のどちらが正しいかを推測することは不可能です。しかし、モデルはこの不可能性を無視し、71% の精度で正しい議論を識別しました。

他の 2 つの類似タスク (議論と正当化のみ、理由と正当化のみ) を実験した後、著者らは、データセットには統計的な手がかりがあり、BERT の優れたパフォーマンスはこれらの手がかりを活用しているからであると結論付けました。

これを説明するために、著者らは 3 番目の実験で、手がかりがもはや有益ではないデータセットを構築し、BERT のパフォーマンスがランダムな偶然のレベルまで低下することを発見しました。

ほとんどの人は、not、is、do などの大量のユニグラムに基づいて予測を行うモデルは、議論を理解できないことに同意するでしょう。

したがって、著者らは SOTA の結果は無意味であると宣言します。

これは最近の悪名高い2つの事件を思い出させます。 1 つは、犯罪者の顔と法を遵守する市民の顔を区別できると主張していたが、実際には笑顔を検出するだけだった画像分類装置であり、もう 1 つは、実際には眼鏡、ひげ、アイシャドウを検出する、いわゆる「性的指向検出器」であった。

[[276459]]

NLP がコンピューター ビジョンの足跡をたどるなら、その過ちを繰り返す運命にあるようです。

論文に戻ると、著者らは、NLP データセットにおける「賢いハンス効果」を示す最近の研究が多数あると指摘しています。

誤解のないように言っておくと、これは BERT やディープラーニングのような大規模なモデルが役に立たないということではありません。しかし、高度な自然言語理解タスクにおいて人間に近いパフォーマンスを示すディープラーニング モデルに関する報告には懐疑的であるべきです。

モデルのパフォーマンスは本当に良いですか? あまり喜ばないで、騙してみてください!

Clever Hans 効果の例を発見する論文の増加は、NLP 研究にとって重要な新たな問題を提起します。最も明白な問題は、この影響をいかにして防ぐかということです。

データセット内のパターンが現在のタスクの目標と一致する場合、それらのパターンを認識し、記憶し、一般化できるモデルが望ましいです。 そうでない場合、モデルはタスクを理解していなくても適切に機能する可能性があります。

Clever Hans 効果を防ぐには、より優れたデータセットとモデルの厳密な堅牢性分析が必要です。

モデルを考案してそれを改善することで、開発プロセス中にすぐに満足感を得ることができます。さらに、公開データセットに対する SOTA により、論文が確実に受け入れられるようになります。

しかし、データセットの作成から得られる満足感は、より遅れて不確実になります。 SOTA を取得するための新しいモデルを提案する論文に対する ACL 会議の査読者のデフォルトの立場は「受け入れ」である一方、新しいデータセットを紹介する論文は「この論文は新しいデータセットを紹介するだけ」という理由で拒否される可能性が高いと言われています。彼らは、データセットを作成した人々は本当の科学を行っていなかったと主張している。

モデルの一部を削除し (アブレーション)、パフォーマンスへの影響を観察することは、コンポーネントが有用かどうかを確認するための一般的な方法です。 パフォーマンスが低下しない場合は、その部品は役に立たないので、削除する必要があります。

これは、次のようなデータセット削除タスクを実行するときにも一般的な方法になるはずです。

  • 不完全な入力のみを入力します (上記のとおり): これにより、完全な入力が必要かどうかが確認されます。そうでない場合、データセットにはショートカットを可能にする手がかりがいくつか含まれています。
  • 入力をシャッフルする: これにより、単語 (または文) の順序の重要性が検証されます。 スコアがあまり変化しない場合は、モデルが入力の順序を理解していないことを意味します。
  • ランダムなラベルの割り当て: インスタンスの 10% がランダムに再ラベル付けされた場合、パフォーマンスはどの程度低下するでしょうか。すべてのインスタンスを再ラベル付けした場合はどうでしょうか。スコアがあまり変化しない場合は、モデルはおそらく何も興味深いことを学習していないことになります。
  • コンテンツ ワードをランダムに置き換える: すべての名詞句または動詞句をランダムな名詞句と動詞に置き換えた場合、パフォーマンスはどの程度低下するでしょうか。それほど低下しない場合は、データセットによって、文の長さや機能語の分布など、予期しないコンテンツ以外の手がかりが提供される場合があります。

もう一つの例を挙げましょう。入力に無関係な文を追加すると、質問応答モデルが異なる回答を返す場合 (下の図を参照)、モデルが質問を本当に理解していないことを意味します。

より優れたデータセットを作成することに加えて、モデル作成者は「構築して破壊する」という考え方を持つ必要があります。モデルは特定のデータセットで高いスコアを達成するだけでなく、十分に堅牢でなければなりません。

モデルのパフォーマンスが良好であっても、まだ満足しすぎないでください。入力を変更して、モデルを騙せるかどうか試してみてください。

どれだけ努力してもモデルを騙すことができない場合、おそらく非常に優れたモデルを作成したことになります。

関連レポート:

https://thegradient.pub/nlps-clever-hans-moment-has-arrived/?nsukey=zGUM%2BitIg2PGgczL9OmBgiXDHkdeWy4hJYQG33fkllynu9PqhCkmZecP%2Bjrltr7xEB14BaM3FGFlyRWfJj9geFWr9cIsH%2FXosh%2B1kWc8%2BYCti2mUogfGmD8YTXENuU9X2slPjqbQOkYURwZHDx%2FnRv68UyeFpeWbEu6YIyOjk2eonxejiqu8sWZT%2B8FWxdUSAEOqQ%2Bwr6iGpCV8y3AgrAA%3D%3D

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  機械学習の運用はクラウドコンピューティングの運用には適していない

>>:  人工知能について知っておくべき基礎知識はすべてここにあります

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

多くの場所で顔認証の削除が通知されました!人工知能業界は衰退するのでしょうか?

[[356436]] 「ブラックテクノロジー」の顔スキャンマシンを大量に購入する人がいる一方で、顔...

RAG 上級スキル - ウィンドウ コンテキスト取得の実装方法

この記事では、RAG (Retrieval-Augmented Generation) モデルの検索...

ついにビッグデータ、機械学習、データサイエンスをわかりやすく説明する人が出てきた

データの爆発的な増加とその利用可能性は、人工知能 (AI) の発展を促進しました。人工ニューラル ネ...

...

5G+AIは通信とコンピューティングを統合する

人工知能(AI)の急速な発展は、さまざまな業界に革命的な変化をもたらし、イノベーションの新たな時代を...

...

AGI(汎用人工知能)は数年のうちに実現されるでしょうか? 3つのテクノロジー大手が判決を下す

2011年、Google DeepMindの共同創設者であるシェーン・レッグは、2028年までにAI...

ヘルスケア分野で人工知能がどのように台頭しているか

人工知能は世界のほぼすべての分野に変革をもたらしたようです。ヘルスケア業界は長年にわたって大きく変化...

公安部経済調査局長:経済犯罪を研究するにはビッグデータアルゴリズムを使う必要がある

10月26日に開催された第2回全国経済捜査フォーラムで、公安部経済犯罪捜査局局長のガオ・フェン氏は、...

ディープラーニングにおける多体問題の解決方法

「多体問題」(N 体問題とも呼ばれる)は単純に見えますが、実際には今日の数学で解決するのが非常に難し...

考えてみると恐ろしいですね! 1億人のネットユーザーが騙された、AIは変装の技術を習得

最近、「射雁英雄伝」でアテナ・チュウが演じる「黄容」の顔をAI技術で楊冪の顔に差し替えた動画が、ネッ...

Weibo での PageRank アルゴリズムの適用

このアイデアは、かなり早い段階で思いつきました。私は検索エンジンの経験があるため、検索エンジンにおけ...

...