話題の論文「14行のコードがBERTを打ち負かす」に逆転の兆し!バグを修正すると、パフォーマンスは数秒で最悪になります

話題の論文「14行のコードがBERTを打ち負かす」に逆転の兆し!バグを修正すると、パフォーマンスは数秒で最悪になります

50 年前の kNN アルゴリズムは、わずか 14 行のコードで、BERT などの人気の Transformer をテキスト分類で上回りました。

ACL Finding のこの結果は発表されるとすぐに学界で人気となり、今日の機械学習タスクに古い方法がどれだけ使用できるかについて人々に再考を促しました。

写真

その独創性は同会議の論文の95%を上回ると称賛する声もあったが、受賞できなかったのは本当に不可解だ。

写真

たった 14 行のコードが、全員の思考を完全に広げました。

しかし、数日以内に、誰かが次のことを発見しました。

それはすべて誤解だったようです。

BERT は負けていません。コードにバグがあり、結果に問題があります。

写真

これは逆転ですか? ? ?

再テスト後、パフォーマンスはSOTAから最悪に変化しました

この論文の主な背景とアイデアを簡単に見てみましょう。

写真

精度が高いため、現在テキスト分類によく使用されているディープ ニューラル ネットワーク モデル(DNN)について説明します。計算集約型の性質上、有効性を確保するには数百万のパラメーターと大量のラベル付きデータが必要であり、使用や最適化、分布外データへの転送にコストがかかります。

ここで、ウォータールー大学の研究者と私の知る限り当局は、「気まぐれ」で、パラメータを必要としない代替案を提案した。

これは、gzip などの単純な圧縮アルゴリズムと k 最近傍分類アルゴリズム(正規化圧縮距離 NCD を使用)を組み合わせることによって実行できます

写真

その結果、このシンプルなソリューションは、トレーニング パラメータなしでも非常にうまく機能します。

7 つの分布内データセットのうち 6 つでは、さまざまな DNN の結果と同等の結果が出ました。分布外データセットでは、5 回連続で優れた結果が出、BERT を上回りました。

さらに、サンプル数が少ない場合でもうまく機能します。逆に、ラベル付けされたデータが少なすぎるため、現時点では DNN を効果的にトレーニングできません。

アメリカの機械学習研究者ケン・シュッテ氏(MITで電気工学とコンピューターサイエンスの博士号を取得)、この論文を読んで非常に興味を持ち、いくつかの新しいアイデアを思いつきました。

そこで彼はそれを再現することにした。

その結果、奇妙なことが起こりました。

メソッド内の kNN コードにエラーがあるようで (意図的ではない可能性もあります)、最終テスト結果の精度指標が予想よりも高くなることがわかりました(もちろん保証はできません)

要約すると、結果は kNN (k=2) 精度ではなく、トップ 2 精度です。

とはいえ、その効果はそれほど強くないかもしれません。

具体的には、ケンは論文の表 5 で、この方法が OOD データセット上の他のすべてのニューラル ネットワーク ベースの方法よりも優れていることを示していると指摘しました。

写真

彼は最初の 4 つのデータ セット(kNN (k=2) の精度を使用)を再テストしましたが、結果は非常に異なっていました。ベンチマーク モデルにまったく勝つことができず、最高のパフォーマンスから最悪のパフォーマンスにまでなりました(ケンは最後のデータセットが大きすぎるため試していません)

以下に詳しい説明を記載します。

この論文では、著者は kNN 分類器を使用する際に値k=2を使用しています。

(kNN は、「ラベル付けされた」サンプルを使用して、最終的に未知のサンプルのカテゴリを決定する教師ありアルゴリズムです。このアルゴリズムの主なパラメータは k 値の選択です。k 値が大きいほど、分類効果は安定しますが、計算量が多くなります)

Ken は、この選択はやや不必要であり、分類器にあまり多くの情報を追加しないので、1 を選択するだけで十分だと考えています。

値が 2 の場合、トレーニング セットで検索された 2 つの隣接するポイントのカテゴリ ラベルが矛盾している場合 (たとえば、一方が正でもう一方が負の場合)、同点が発生し、唯一の正しいポイントをさらに決定する必要があります。

この判定プロセス中に、論文のソース コード(experiments.py ファイルの calc_acc メソッド内)で問題が発生しました。

写真

簡単に言えば、このコードは、隣接する 2 つのポイントのラベルの 1 つが中心点の真のカテゴリと一致している限り、実際に正しいと判断します(つまり、1 つの一致が正しいと見なされます) 。これは、 Top-2 精度に相当します

ただし、標準の KNN アルゴリズムでは、距離が近いカテゴリを優先する、ランダムに選択して決定するなどの他のタイブレーク戦略が使用されます。つまり、標準の kNN (k=2) 精度を使用して結果を評価するため、「より厳密」になります。

つまり、k=2 の場合、元の方法の精度は実際には標準アルゴリズムの精度よりも高く、最終的な効果は見た目ほど良くないということです。

Ken は 2 つのタイブレーク戦略(1 つはランダム選択、もう 1 つは k の減少)を書き直し、各データ セットでのモデルの精度を再計算しました。結果は、すべてがさまざまな程度に低下していることを示しました。

写真

もちろん、top-2 に従って計算すると、Ken によって再現された結果は基本的に元の論文の結果と同じであることがわかります。これは、Ken の発見が有効であることを間接的に証明しています。

ネットユーザー:ただし、方法自体の革新性には影響しません

このニュースが報道された後、ネットユーザーはどう思ったでしょうか?

興味深いことに、ケンの分析は理にかなっていると誰もが考えていますが、これは方法自体の革新性には影響しません。

BERT には勝てませんが、それでもアイデアは印象的です。

著者の戦略は不合理ではない。最も重要なことは、今後この研究方向を探求する論文がさらに増えるだろうということだ。

写真

Google AIの研究者であるルーカス・ベイ氏も同様の意見を述べた。

写真

ケンの後、スタンフォード大学のヤン・デュボア博士は、この論文の問題はそれ以上のものだと気づいた。

トレーニング セットとテスト セットも重複しています。

たとえば、DengueFilipino のトレーニング セットとテスト セットはまったく同じですが、KirundiNews の重複率は 90% にもなります。

写真

もちろん、いつものように、この方法は非常に特殊であるため、ネットユーザーのコメントには「何だこれ」という声が溢れていますが、ほとんどの人は依然としてその重要な貢献を固く擁護し、問題は深刻ではなく、単にレビューが不十分なだけかもしれないと考えています。

ほら、「論文は潰せても、アイデアは潰せない」というようなコメントが次々と出てきました。

写真

どう思いますか?これら 2 つのバグは、この論文に対するあなたの意見に影響しますか?

ケン・ユアンボ: https://kenschutte.com/gzip-knn-paper/
原著論文: https://aclanthology.org/2023.findings-acl.426/

<<:  AIの言語学習は人間の脳と非常に似ています!新たな研究により、言語は人間の生来の能力ではなく、機械も学習できることが証明された。

>>:  清華大学がゲーム会社を設立しました! 10人以上のChatGPTが勤務し、7分でゲームを開発

ブログ    
ブログ    

推薦する

NLP タスクに最適な 6 つの Python ライブラリ

この記事では、自然言語処理タスクに最適な 6 つの Python ライブラリを紹介します。初心者でも...

ディープラーニングを理解するには、より低い次元からアプローチするべきでしょうか、それともより高い次元で考えるべきでしょうか?

今日のトピックは、複数選択問題から始めましょう。ニューラルネットワークとは何ですか?次の説明のうち正...

7,000万以上の店舗と10億以上の商品を持つWeidianは、どのようにAIシステムを構築しているのでしょうか。

[51CTO.com からのオリジナル記事] AI テクノロジーは電子商取引にとって不可欠ですが、...

...

Google は、ロボットにゴミを捨てることを教えることができる視覚言語アクション モデル RT-2 をリリースしました。

グーグルは7月28日、ゴミ捨てなどのタスクを理解できるようロボットを訓練するのに役立つ新しい人工知能...

メディア分野における人工知能の革新は期待に値する

過去 30 年間にわたり、この種のイノベーションの歴史に残る例は数多くありました。ウェブサイト上のメ...

xAI Twitterライブ放送:GoogleやOpenAIと直接競合する

人工知能の波に直面して、マスク氏はついに再び行動を起こした! 7月15日、マスク氏とxAI創設チーム...

人工知能に関してどのような基礎教育が必要でしょうか?

人工知能の基礎教育を強化することは、将来の社会の発展に備えるための避けられない選択であり、要件です。...

ブロックチェーン科学: 非対称暗号化、楕円曲線暗号

ブロックチェーン暗号化入門ブロックチェーン暗号化技術ブロックチェーン技術の応用と発展において、デジタ...

省エネ1000倍!人間の脳のようなニューラルチップはAIモデルの実行時に大幅な電力節約が可能

現在最も成功している人工知能アルゴリズムである人工ニューラル ネットワークは、人間の脳内の実際のニュ...

...

チャットボットにおける2つの技術的火種: AIと機械学習

チャットボットの人気が高まるにつれて、競合するアプリケーション フレームワークが多数登場しました。 ...

...

機械学習とビッグデータを学ぶための必読書6選!

機械学習とデータサイエンスは複雑で相互に関連した概念です。技術トレンドに遅れないようにするには、知識...

パラメータ調整器、ここを見てください!ディープラーニングのトレーニング効率を向上させる2つのコツ

[[343402]] 1. トレーニングのボトルネックはどこですか? GPU 使用率が低い: モデル...