word2vecの作者はイリヤらとの10年間の恨みを明かした。seq2seqも私のアイデアだった

画期的な論文word2vec は、当然の NeurIPS Test of Time Award を受賞しました。

しかし、第一著者のトーマス・ミコロフ氏がフェイスブックに投稿した長い受賞スピーチは失望と不満に満ちていた。

写真

論文が当初 ICLR に拒否されたという事実は、ささいな問題だった。彼はまた、 OpenAI の主任科学者である Ilya Sutskever 氏(当時は両者とも Google に在籍)について、婉曲的なコメントを出した。

私たちは確かに刺激的な時代に生きていますが、数十人、数百人の科学者の努力に基づく技術を独占し、それがすべて人類の利益のためであると主張する人たちをあまり信用しすぎないでください。

写真

ミコロフ氏は、word2vecに続くもう1つの画期的な研究であるseq2seqについて言及していた。これは2014年に公開され、予期せぬことが起こらなければ2024年のNeurIPS Test of Time Awardを受賞する予定だ。

Tomas Mikolov 氏は、seq2seq のアイデアはもともと彼から生まれたものであり、Google Brain で働いていたときに Quoc Le 氏や Ilya 氏と何度も議論を重ねたと主張しています。

しかし、フェイスブックに切り替えた後、最終的に発表された論文に自分が共著者として記載されていないことに驚いたという。

写真

今は AI に資金が注ぎ込まれており、あらゆるアイデアが莫大な価値がある時代です。
ディープラーニングコミュニティがあっという間に「ゲーム・オブ・スローンズ」のような状況になってしまったのは悲しいことです。金と権力は人を堕落させる...

word2vecからseq2seqへ

word2vec の論文は当初、第 1 回 ICLR カンファレンス (当時は単なるワークショップ) に提出されましたが、採択率が 70% であったにもかかわらず、却下されました。

このため、ミコロフ氏は、査読者が論文の将来的な影響を予測することがいかに難しいかを嘆いた。

多くの研究者が同じ思いを抱いている。現在では大型モデルやAIペイントで広く使われているLoRAの作者であるWeizhu Chen氏は、最初の投稿は査読者が単純すぎると考えたために却下されたと明かした。

実際に機能するもののほとんどは、シンプルでエレガントな傾向があります。

写真

ミコロフ氏は長年にわたり、word2vec に関する肯定的なものも否定的なものも含めた多くのコメントを聞いてきましたが、オンラインで実際に反応したことはありませんでした。

どういうわけか、研究コミュニティは、引用と注目を集めようとしている特定の人々による PR スタイルのプロパガンダに絶えずさらされていますが、私はそれに加わりたくありません。

賞の10周年という機会を利用して、ミコロフ氏はこの古典的な論文の背景にあるいくつかの物語を共有しました。

まず、word2vec のコードは理解しにくいと多くの人が不満を述べており、中には Mikolov がわざと誰にとっても理解しにくいようにしたと考える人もいました。

彼は今、「いや、私はそれほど邪悪ではなかった」と明言し、リリースの承認を何ヶ月も待っている間にコードを短く速くしようとしただけで、結局コードを過剰に最適化してしまったのだと語った。

振り返ってみると、Google Brain チームの Greg Corrado 氏と Jeff Dean 氏がいなかったら、このプロジェクトは承認されなかっただろうと思います。word2vec は、Google がオープンソース化した最初の広く宣伝された AI プロジェクトになっていたと思います。

word2vec はミコロフ氏の最も引用された論文であるにもかかわらず、彼はこれを最も影響力のあるプロジェクトだとは決して考えていなかった。

実際、word2vec はもともと彼のRNNLMプロジェクトのサブセットでしたが、すぐに忘れ去られました。

私の意見では、少なくともAlexNetと同じくらい破壊的です。

RNNLM は、ディープラーニングがまだ暗黒時代だった 2010 年に始まり、ミコロフ氏は最初に実証されたアイデアを次のように挙げています。

リカレントニューラルネットワークのスケーラブルなトレーニング、勾配クリッピングを提案した。
テキストを生成する最初のニューラル言語モデルであり、彼は2007年からその例を示してきた。
動的評価
文字およびサブワードレベルのニューラル言語モデリング
ニューラル言語モデルの適応（現在はファインチューニングと呼ばれる）
初めて公開された言語モデルベンチマーク、修正されたPenn Treebankデータセット

写真

ミコロフ氏は、チェコ共和国のブルノ工科大学で博士号を取得した後、2012 年に Google Brain に入社しました。

彼は、ニューラルネットワークを信じる人が大勢いて、word2vec を研究し、その可能性を実証することができたのはとても幸運だったが、すべてが完璧であるかのような印象を与えたくはなかったと語った。

word2vec の後、Mikolov 氏は Google Translate を改良することでニューラル言語モデルを普及させたいと考えました。彼はフランツ・オッホのチームと協力し始め、当時の機械翻訳を補完したり、さらには置き換えたりできるいくつかのモデルを提案しました。

核となるアイデアは彼が Google Brain に入社する前に提案されたもので、異なる言語の文章のペアをトレーニングし、生成モデルを使用して最初に見た文章を翻訳するというものだ。

当時は、短い文ではうまく機能しましたが、長い文ではそれほどうまく機能しませんでした。彼はこのプロジェクトについて、Google Brain の他のメンバー、主に彼が Facebook に移った後にこのプロジェクトを引き継いだ Quoc Le 氏と Ilya Sutskever氏と何度も議論した。

ついに私のアイデアが今では有名な「seq2seq」として出版されたとき、共著者として私の名前が挙がらなかっただけでなく、私の古い友人たちも論文の謝辞で私の名前を挙げるのを忘れ、私以外の Google Brain の全員に感謝の意を表したことに非常に驚きました。

…

ミコロフ氏の長い演説を読んだとき、誰もが複雑な感情に満たされた。

写真

コーネル大学の助教授、ヴォロディミル・クレショフ氏は、word2vec が拒否されたという話を使って、論文の査読プロセスで落胆しないように皆を励まし、「良いアイデアは最終的に当然の評価を得るだろう」と語った。

写真

ミコロフ氏が指摘した貢献の分布、引用数、影響力などの問題は、NLP だけの問題ではなく、AI の分野全体に存在していると考える人もいます。

写真

参考リンク:
[1] https://www.facebook.com/tomas.mikolov/posts/pfbid0avhBpB2WULd3KNtAieyiDCFpP9MQggxW1xSh6RXZDjWF6sGzgpYa638KMAyF75JSl [2] https://twitter.com/AravSrinivas/status/1736090919718605169 [3] https://www.fit.vutbr.cz/~imikolov/rnnlm/

<<:

>>: 天一雲が大規模言語モデル微調整データコンテストで優勝しました！

ブログ

GPT-4/Llama2のパフォーマンスを大幅に向上させるためにRLHFは必要ない、北京大学のチームはAlignerの新しいアライメントパラダイムを提案

word2vecの作者はイリヤらとの10年間の恨みを明かした。seq2seqも私のアイデアだった

word2vecからseq2seqへ

Googleの人工知能部門DeepMindが想像力を駆使した新システムを開発

GPT-4 MATHの精度は84.3%まで上昇しました！香港中文大学や清華大学を含むトップ7大学が新たなCSV方式を提案

データ管理はAI革命の最大の課題となるでしょうか？

GPT-4/Llama2のパフォーマンスを大幅に向上させるためにRLHFは必要ない、北京大学のチームはAlignerの新しいアライメントパラダイムを提案

ソフトマックスを放棄した初の大規模線形アテンショントランスフォーマーモデル: 1750億のパラメータ、より優れた速度と精度

安全な生産を守り、ロボット、IoTなどの技術サポートを提供します。

位相データ解析を使用して畳み込みニューラルネットワークモデルの動作プロセスを理解する

推薦する

まずはFace IDから始め、顔認識技術について簡単に分析してみましょう。

よく使われる類似度指標の概要: コサイン類似度、ドット積、L1、L2

数十人の国内NLP専門家が協力し、事前学習済みモデルの過去、現在、未来を検討した。

TensorFlow から Theano まで: 7 つのディープラーニングフレームワークの水平比較

人工知能は医療と健康分野に破壊的な革命をもたらすだろう

IDC、2021年以降のITトレンドトップ10を発表

人工知能の環境コスト: 計算能力のために私たちは何を犠牲にする覚悟があるのでしょうか?

強力な顔認識システムを騙すには、額に紙を貼り付けてください。 Huawei製、Face IDは終了

108 言語をサポートする Google 翻訳は、AI をどのように活用して翻訳の品質を向上させているのでしょうか?

機械学習が将来の雇用市場にどのような影響を与えるか

あなたの顔データはどこに保存されますか?