NLP モデルは人間のレベルを超えるか?大きな詐欺に遭ったかもしれない

[[276457]]

ビッグデータダイジェスト制作

出典: thegradient

編纂者：張瑞怡、呉帥、銭天培

軍によって訓練されたニューラルネットワークは、画像内の戦車を分類できると主張していたが、実際には、ある種類の戦車は明るい画像にのみ現れ、別の種類の戦車は暗い画像にのみ現れるため、異なる明るさのレベルを認識することを学習しただけだった。

ゲーム AI は、より高いスコアを獲得するために、より難しい第 2 レベルの開始時ではなく、第 1 レベルの終了時に意図的に死ぬことを学習します。

AIは奇妙でばかげた方法で人間を欺き、自らの目的を達成しようとします。私たちはこれまでにも、そのような事例を多数まとめてきました。

「間違った」情報を学習することでモデルがタスクを解決するという問題は古くから存在しており、「賢いハンス効果」として知られています。

[[276458]]

この効果は、ハンスという名前の馬がいくつかの簡単な知的作業を実行できるように見えるが、実際には人間が与える無意識の手がかりに頼っているだけであるというものです。

クレバー・ハンス効果は画像検出においては以前から知られていましたが、台湾の国立成功大学のニーヴン氏とカオ氏は新しい論文で、この効果が NLP でも注目を集めていると指摘しています。その影響がなければ、BERT は私たちが思っていたほど魔法のようなものではないかもしれません。

まず、論文へのリンクを添付し、議論のプロセスを確認してください: https://www.aclweb.org/anthology/P19-1459/

Niven と Kao は議論理解データセットを使用しました。ランダム選択の精度は 50% でした。以前の最高パフォーマンスのモデルの精度は 71% でした。その後、BERT を選択し、微調整するだけで、驚異的な 77% の精度を達成しました。

BERT は確かにその評判に値するようです。

しかし、著者はこの一見成功した「微調整」に疑問を抱き、それを証明しようと試みます。

NLPには「賢いハンス」の瞬間がある

議論の理解は、世界に関する知識と常識的な推論を必要とする、かなり難しい作業です。 BERT は間違いなくこれまでで最高の言語モデルの 1 つであり、その転移学習は「NLP の Imagenet モーメント」ですが、言語モデルが高度な自然言語理解のスキルを獲得したという証拠はほとんどありません。

議論と理由が与えられたら、その推論を正当なものにする証拠を見つける必要があります。

たとえば、「Google は独占していない」という議論があり、その理由が「人々は Google を使用しない選択をすることができる」であるとします。この推論は、「他の検索エンジンは Google につながらない」という議論によって裏付けられる必要があります。しかし、「他の検索エンジンが Google につながる」と言うなら、その議論は説得力がありません。

著者らは、BERT モデルに関して 3 つの分析も実施しました。

まず、研究者たちは、可能な回答（つまり、議論）の中からユニグラムとバイグラムを計算し、not、is、was などの単一のユニグラムが、ランダムな偶然よりも正確に正しい議論を予測できることを観察しました。これは、これらの手がかりが有用であり、モデルによって活用される可能性があることを示唆しています。

次に、モデルが実際にこれらの手がかりを使用しているかどうかを確認するために、著者らはモデルに部分的な入力のみを与え、モデルが正しい答えを推測できないようにしました。たとえば、議論や理由を示さずに、「他の検索エンジンは Google にリダイレクトしない」または「他の検索エンジンはすべて Google にリダイレクトする」のどちらが正しいかを推測することは不可能です。しかし、モデルはこの不可能性を無視し、71% の精度で正しい議論を識別しました。

他の 2 つの類似タスク (議論と正当化のみ、理由と正当化のみ) を実験した後、著者らは、データセットには統計的な手がかりがあり、BERT の優れたパフォーマンスはこれらの手がかりを活用しているからであると結論付けました。

これを説明するために、著者らは 3 番目の実験で、手がかりがもはや有益ではないデータセットを構築し、BERT のパフォーマンスがランダムな偶然のレベルまで低下することを発見しました。

ほとんどの人は、not、is、do などの大量のユニグラムに基づいて予測を行うモデルは、議論を理解できないことに同意するでしょう。

したがって、著者らは SOTA の結果は無意味であると宣言します。

これは最近の悪名高い2つの事件を思い出させます。 1 つは、犯罪者の顔と法を遵守する市民の顔を区別できると主張していたが、実際には笑顔を検出するだけだった画像分類装置であり、もう 1 つは、実際には眼鏡、ひげ、アイシャドウを検出する、いわゆる「性的指向検出器」であった。

[[276459]]

NLP がコンピュータービジョンの足跡をたどるなら、その過ちを繰り返す運命にあるようです。

論文に戻ると、著者らは、NLP データセットにおける「賢いハンス効果」を示す最近の研究が多数あると指摘しています。

誤解のないように言っておくと、これは BERT やディープラーニングのような大規模なモデルが役に立たないということではありません。しかし、高度な自然言語理解タスクにおいて人間に近いパフォーマンスを示すディープラーニングモデルに関する報告には懐疑的であるべきです。

モデルのパフォーマンスは本当に良いですか? あまり喜ばないで、騙してみてください!

Clever Hans 効果の例を発見する論文の増加は、NLP 研究にとって重要な新たな問題を提起します。最も明白な問題は、この影響をいかにして防ぐかということです。

データセット内のパターンが現在のタスクの目標と一致する場合、それらのパターンを認識し、記憶し、一般化できるモデルが望ましいです。そうでない場合、モデルはタスクを理解していなくても適切に機能する可能性があります。

Clever Hans 効果を防ぐには、より優れたデータセットとモデルの厳密な堅牢性分析が必要です。

モデルを考案してそれを改善することで、開発プロセス中にすぐに満足感を得ることができます。さらに、公開データセットに対する SOTA により、論文が確実に受け入れられるようになります。

しかし、データセットの作成から得られる満足感は、より遅れて不確実になります。 SOTA を取得するための新しいモデルを提案する論文に対する ACL 会議の査読者のデフォルトの立場は「受け入れ」である一方、新しいデータセットを紹介する論文は「この論文は新しいデータセットを紹介するだけ」という理由で拒否される可能性が高いと言われています。彼らは、データセットを作成した人々は本当の科学を行っていなかったと主張している。

モデルの一部を削除し (アブレーション)、パフォーマンスへの影響を観察することは、コンポーネントが有用かどうかを確認するための一般的な方法です。パフォーマンスが低下しない場合は、その部品は役に立たないので、削除する必要があります。

これは、次のようなデータセット削除タスクを実行するときにも一般的な方法になるはずです。

不完全な入力のみを入力します (上記のとおり): これにより、完全な入力が必要かどうかが確認されます。そうでない場合、データセットにはショートカットを可能にする手がかりがいくつか含まれています。
入力をシャッフルする: これにより、単語 (または文) の順序の重要性が検証されます。スコアがあまり変化しない場合は、モデルが入力の順序を理解していないことを意味します。
ランダムなラベルの割り当て: インスタンスの 10% がランダムに再ラベル付けされた場合、パフォーマンスはどの程度低下するでしょうか。すべてのインスタンスを再ラベル付けした場合はどうでしょうか。スコアがあまり変化しない場合は、モデルはおそらく何も興味深いことを学習していないことになります。
コンテンツワードをランダムに置き換える: すべての名詞句または動詞句をランダムな名詞句と動詞に置き換えた場合、パフォーマンスはどの程度低下するでしょうか。それほど低下しない場合は、データセットによって、文の長さや機能語の分布など、予期しないコンテンツ以外の手がかりが提供される場合があります。

もう一つの例を挙げましょう。入力に無関係な文を追加すると、質問応答モデルが異なる回答を返す場合 (下の図を参照)、モデルが質問を本当に理解していないことを意味します。

より優れたデータセットを作成することに加えて、モデル作成者は「構築して破壊する」という考え方を持つ必要があります。モデルは特定のデータセットで高いスコアを達成するだけでなく、十分に堅牢でなければなりません。

モデルのパフォーマンスが良好であっても、まだ満足しすぎないでください。入力を変更して、モデルを騙せるかどうか試してみてください。

どれだけ努力してもモデルを騙すことができない場合、おそらく非常に優れたモデルを作成したことになります。

NLP モデルは人間のレベルを超えるか?大きな詐欺に遭ったかもしれない

ジェネレーティブAIは高度な分析に新たな可能性をもたらす

まだ AI と機械学習を混同していませんか?まず、AIの6つの注目分野を見てみましょう。

自動運転がどんどん近づき、高精度地図の実用化も加速

ニューラルネットワーク関係抽出のための構文的に敏感なエンティティ表現

AIによるIoT革命：なぜ両者が完璧に適合するのか

AIOps によるネットワーク管理の一般的な方法

Python 機械学習でプログラミングスキルを向上させる方法

データ構造とアルゴリズムの基本概念

人工知能が建設業界の様相を変えている

推薦する

AIが米国の8年生の理科テストに高得点で合格。常識や推論の問題を解くことができ、同じ舞台でAIと競争する準備が整った。

アダムはまた「引退」するのでしょうか？イェール大学のチームがAdaBeliefを提案

【ディープラーニング連載】畳み込みニューラルネットワーク（CNN）の原理を徹底解説（I） - 基本原理

AI著作権問題プラットフォームが有料化、Googleは将来的にGoogle Cloud向けに開始予定の「免責保護」サービスを紹介

MITは、Natureの表紙に掲載され、非コード領域のDNA変異を予測するディープラーニングフレームワークを設計した。

C# データ構造とアルゴリズムにおける線形テーブルの簡単な分析

AIGC の 7 つの暗い側面

2020年末総括：国際AI技術研究と政府と企業の協力の進捗状況の概要

機械学習はクラウドネイティブセキュリティの未来

顔認識: 顔の主要な特徴の認識