LSTM の父は Llama 2 に中傷されて激怒しました。メタは32年前にアイデアトレーニングモデルを盗用し、ルカンに責任を求めた。

LSTM の父はまた機嫌が悪いです!

何が起こっているのか？

今日、ユルゲン・シュミットフーバー氏はソーシャルメディア上で、メタ氏が1991年のアイデアを使ってラマ2号を訓練したと語った。

ラマ 2 は私のアイデアを利用するだけでなく、私が有害な活動に関与しており、社会に何ら前向きな貢献をしていないことも示唆しています。

老人は、Meta and Llamaの代表であるLeCun氏をオンラインで直接名指しし、問題解決のために名乗り出るよう要請した。

写真

添付の写真では、カリフォルニア大学デービス校の博士課程の学生が、ラマ2との会話中にシュミットフーバーの紹介に非常に不快感を覚えた様子が写っています。

一部のネットユーザーは、これはヤン・ルカン自身が追加した回答のようだと述べて、炎上を煽った。

写真

いつも騒ぎ立てるのが大好きなマルクス氏も衝撃を受けた。「これはLLMの名誉毀損の最も典型的な例だと言える。シュミットフーバー氏が怒るのも当然だ」

同時に、これは非常に良い法的な質問でもあります。Meta はこれに責任があるのでしょうか?既存の法律ではこのようなことがカバーされるかどうかはわかりません。

写真

LSTMの父は複数の証拠を示した

ラマ 2 のトレーニングに私のアイデアが使用されたことを証明するため。

シュミットフーバー氏は1992年に発表した論文を直接示し、NECOは現在のトランスフォーマーの変種であると述べました。

写真

また、Meta は 2017 年にはすでに、Schmidhuber 氏のチームの別のディープラーニングアルゴリズムである LSTM を使用して、1 日あたり最大 45 億件の翻訳を処理していました。

写真

また、シュミットフーバー氏とルカン氏の研究の独創性や、チューリング賞の優先順位をめぐる論争を証明できるリンクも多数あります。

写真

この老人が人工知能の分野に貢献したことが、広範囲にわたる意義を持っていることは否定できない。

2018年にビッグスリーにチューリング賞が授与された後、ネットユーザーたちは早くも不満を表明し、彼をチューリング賞に忘れられた偉大な神と呼んだ。

写真

有名な LSTM に加えて、シュミットフーバー氏は 1992 年に提案した PM (予測可能性最小化) モデルにも「誇り」を持っています。

ここ数年で大人気となったGANもPMの亜種です。両者の違いは方向性が逆であることです。

写真

この点に関して、シュミットフーバー氏はGANの父であるイアン・グッドフェロー氏ともオフラインで激しい対決を繰り広げた。

ディープラーニングの三大巨頭についても、老人は彼らと何度も口論した。老人は、HLBの三人は自分の仲間内で遊んでいるだけだと考え、ディープラーニングの分野における他の先駆者たちの貢献については触れなかった。

写真

最近まで、ルカン氏とシュミットフーバー氏は公の場で対立を続けてきた。

例えば、昨年7月、彼はルカンの論文「自律機械知能」が1990年から2015年までの彼の重要な研究に言及していると述べたが、それを引用しなかった。

写真

昨年 11 月、シュミットフーバー氏は、ルカン氏の「2012 年から 2022 年までのベスト 5 アイデア」のほとんどが自身の研究室から生まれたものだと述べ、さらにその前には次のように述べていた。

1. 自己教師ありRNNスタック、1991年

2. ResNet = オープンゲート 2015 Highway Net;

3&4. 1991 年の高速なキー/値ベースの重み。

5. 線形化自己注意トランスフォーマー、1991 (また、GAN 1990)

写真

シュミットフーバー氏とルカン氏の間の恨みは依然として深いことがわかり、今回彼がなぜルカン氏に直接責任を問うたのかは理解に難くない。

しかし、疑問は、ラマ 2 は本当にそれを故意にやったのか、ということです。

ラマ2チャット: 逃げるのは恥ずかしいが役に立つ

明らかに、この出力の波は「オリジナル」の Llama 2 モデルから発生したものではありません。

一部のネットユーザーは、Perplexityのような企業がモデルに「倫理的な微調整」の層を加える可能性が高いと指摘した。

それとも、Meta がチャットバージョンで RLHF を使いすぎたために、モデルが思考能力を失い、役に立たなくなったからでしょうか...

対照的に、Llama 2 13B のオリジナルの量子化重みを使用してローカルデバイスで実行すると、実際の効果は依然として良好です。

モデルがユルゲン・シュミットフーバー氏を称賛している間、ネットユーザーたちは彼がチューリング賞を受賞したかのような錯覚を与えたが、彼らはこの老人が実際に受賞に値すると述べた。

写真

ネットユーザーは、自分の発見を確認するために、Replicate API と Llama 2 13B の結果を比較しました。

案の定、同じ状況が発生しました。

写真

これに対して、ハギングフェイスの機械学習科学者ネイサン・ランバート氏はブログ投稿で、ラマ2チャットの安全フィルターは少々敏感すぎると述べた。

「ホットソースの作り方」や「プロセスを終了する方法」などの無害な質問に対しても、モデルは非常に極端な回答をします。申し訳ありませんが、それは実行できません。

写真

この状況に対する現在の主流の理論は、モデルが RLHF によって長い間叩かれてきたというものです...

ご存知のとおり、RLHF を実行する場合、トレーニング中に使用される主なパフォーマンス評価メトリックは、選好モデルの単調に増加する報酬です。

これにより、2 つの問題が直ちに発生します。a) 使用される報酬モデルが不完全であること、b) 中間トレーニング手法の有用な評価方法が欠如していることです。

報酬モデルが検証セットで 65 ～ 75% の精度を達成するようにトレーニングされている限り (トレーニングデータはモデル化が難しい人間の好みの集合体であるため)、過剰な RLHF が発生します。

モデルが報酬モデルに基づいて最適化手順を多く実行すると、モデルの動作の好みに過度に重点が置かれるようになります。

しかし、現時点ではこの問題に対する直接的かつ完全な解決策は存在しません。

Meta の調査結果によると、チャットモデルの評価には 2 つの潜在的に致命的な欠陥があることが示唆されています。

1. 「境界線上の質問」の場合、モデルの拒否率は27％にも達する

これは、最初に役立つ言語モデルを開発し、次に無害な言語モデルを開発することを提案する Anthropic の研究と密接に結びついています。両方を同時に行うと回避行動につながる可能性があるためです。

しかし、Meta が論文でこれについて言及しているという事実は、少なくとも彼らがすでにこれに取り組んでいることを意味します。

写真

2. 報酬モデルに大きな相違がある分野

つまり、有益性スコアが高く安全性スコアが低い場合、またその逆の場合にどのように対処するかということです。

明らかに、彼らが使用した統合方法には、まだ改善の余地が大いにあります。

写真

ネットユーザーの間で熱い議論

誰かが尋ねました、シュミットフーバーがトランスフォーマーに似たものを提案したことを誰か確認できますか?

写真

あるネットユーザーは詳細な説明をした。

Schmidhuber 氏は 90 年代に「高速ウェイトプログラマ」に関するさまざまな論文を執筆しました。同氏は、「FWP アプローチは、今日のトランスフォーマーで使用されている自己注意メカニズムに似た、独自に考案したアクティベーションパターンを追加することで、高速な体重変化を実現します」と述べています。しかし、興味深いのは、シュミットフーバー氏が常に人々の現在の研究を 20 ～ 30 年前に自分が行った研究に結び付けることができるにもかかわらず、この研究を独力で進めることはできなかったことです。もし彼の研究がそれほど明らかに良いアイデアであるならば、彼はそれを現代に適用することを自ら引き受けたはずだ。それ以来、コンピューティング能力が大幅に向上したため、完全に再発見されるのではなく、実現可能になったからです。しかし実際には、彼の専門知識は理論的な範囲に限られており、現代のシステムを実装する際に増大するアーキテクチャとエンジニアリングの複雑さに苦労したことは一度もありませんでした。彼がしたばかげた発言は、歴史書に彼自身の功績を残すのにちょうどいいものだった。たとえば、現代の方法論は、彼の独自の枠組みから派生したものであっても彼のものであり、さらに、Meta が彼に対する復讐としてこの回答を自分で書いたなど、ばかげたことを暗示しています。ご存知のとおり、これは彼の助けにはなりませんでした。

写真

RLHF は AI にとって最悪のものだと考える人もいます。

写真

クロードはまだあなたのことを理解しています。

写真

参考文献:

https://twitter.com/doodlestein/status/1683957105844277248

https://www.interconnects.ai/p/llama-2-part-2

<<: 米上院司法委員会公聴会：AIは制御が難しく、悪意のある者が生物兵器の開発に利用する可能性がある

>>: ICML2023の優秀論文数は6件に大幅に減少しました。北京大学と武漢理工大学の卒業生が賞を受賞しました。大きなモデルの透かしが好まれます。