Word2vec の作者が明かす: seq2seq は私のアイデア、GloVe はスキルを盗用、反撃が迫る

NeurIPS 2023の受賞論文が発表され、10年前の単語埋め込み技術word2vecが当然の「Test of Time Award」を受賞したと言えるでしょう。この論文「単語と語句の分散表現とその構成性」は、当時 Google に在籍していた Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean によって執筆されました。

しかし、最初の Word2vec 論文は、Tomas Mikolov と他の著者による「ベクトル空間での単語表現の効率的な推定」でした。著者欄を比較すると、Ilya のみが追加されました。その年に NeurIPS に提出された論文「単語と句の分散表現とその構成性」は、Word2vec が実際に広く使用されるようになった改良論文でした。

これは喜ばしいことだったはずだが、論文の第一著者であるトーマス・ミコロフ氏はいくつかの点に不満を抱いているようで、最近、論文の背景にあるさらなるストーリーをシェアした。興味のある読者は、「論文は最初の ICLR で拒否され、コードは最適化されすぎていたが、word2vec の作者 Tomas Mikolov がその背景にあるストーリーを共有した」を参照してください。

オリジナルリンク: https://www.facebook.com/tomas.mikolov/posts/pfbid0avhBpB2WULd3KNtAieyiDCFpP9MQggxW1xSh6RXZDjWF6sGzgpYa638KMAyF75JSl

Facebook に掲載されたトーマス氏の受賞スピーチでは多くの情報が明らかになり、記事が公開された後、大きな注目を集めました。

オリジナルのword2vec論文はICLRによって拒否された

トマス・ミコロフ氏は、オリジナルの word2vec 論文 (ベクトル空間における単語表現の効率的な推定) は、当時の採択率が高かったにもかかわらず、2013 年の第 1 回 ICLR 会議で拒否されたと述べています。その年の選考では、審査員は「弱い拒否」を 1 件、「強い拒否」を 4 件与えました。

興味のある読者は、https://openreview.net/forum?id=idpCdOWtqXd60 をご覧ください。

この質問に多くの人が同意しています。LoRA の著者である Weizhu Chen 氏も、同様の経験をしたと述べています。LoRA の論文は、最初に提出されたときに査読者が LoRA は単純すぎると考えたため、却下されました。

「SIFT は 1997 年の ICCV と 1998 年の CVPR で 2 回拒否されました。」

オリジナルの word2vec 論文の却下に加えて、Tomas Mikolov は他のことも明らかにしました。読み進めてみましょう。

seq2seq の元々のアイデアは誰ですか?

トマス・ミコロフ氏は、2012年にGoogle Brainチームに加わったと語る。Google Brainでの仕事中、同氏はクオック・レ氏やイリヤ・スツケヴェル氏といくつかのアイデアについて議論した。このアイデアについて、トマス・ミコロフ氏は次のように述べている。「実は、Googleに入社する前に、ニューラル言語モデルを文のペア（フランス語と英語など）でトレーニングし、最初の文を見た後に生成モデルを使用して翻訳を生成することで、エンドツーエンドの翻訳を実現するという非常にシンプルなアイデアを提案しました。これは短い文にはうまく機能しますが、長い文にはうまく機能しません。」

彼は、Quoc Le 氏や Ilya Sutskever 氏を含む Google の他のメンバーとこのプロジェクトについて何度か議論してきました。しかし、トーマス・ミコロフ氏が Google を離れて Facebook AI に参加することを選択し、プロジェクトが他者に引き継がれると、事態は悪化し始めました。

トーマス・ミコロフ氏は次のように述べている。「 Google は最終的に私のアイデアをシーケンスごとに公開しましたが、共著者として私を挙げなかっただけでなく、私を除く Google Brain のほぼ全員の名前を挙げた長い謝辞も付けました。当時は人工知能の分野に多額の資金が投入され、すべてのアイデアが莫大な価値があった時期でした。ディープラーニングコミュニティが急速にある種のゲームオブスローンズに変貌していくのを見るのは悲しいことでした。」

論文アドレス（上）と謝辞（下）: https://arxiv.org/pdf/1409.3215.pdf

トーマス・ミコロフ氏の見解では、これらのアイデアがシーケンスからシーケンス (seq2seq) への研究を促進した、つまり seq2seq のアイデアはもともとトーマス・ミコロフ氏から生まれたものである。

しかし、seq2seq の作者である Quoc Le 氏は、Tomas 氏の発言に反対しました。Quoc Le 氏はまず、Tomas 氏が参加した word2vec 論文で優勝したことを祝福しました。その後、会話は変わりました。「トーマスが seq2seq について言ったことには不正確な点がありました。特に、彼がこのアイデアを私たちに提案しなかったこと、そして私たちがエンドツーエンド翻訳のアイデアを彼と共有したとき、彼が実際に非常に懐疑的だったことは、私たち全員が非常にはっきりと覚えています。実際、彼の懐疑的な態度にもかかわらず、私たちはこのアイデアを実現するために一生懸命働きました。」

画像出典: https://twitter.com/quocleix/status/1736523075943125029

トーマスの研究はGloVeの論文で7回引用された。

Tomas 氏は seq2seq に加えて、スタンフォード NLP グループによる GloVe プロジェクト (多くの人から word2vec よりも優れていると考えられているグローバル単語表現ベクトル) という別のプロジェクトについても言及しました。この研究は、ジェフリー・ペニントン、リチャード・ソッチャー、クリストファー・D・マニングによって実施されました。

論文アドレス: https://aclanthology.org/D14-1162.pdf

「このプロジェクトは私たちのプロジェクトから多くのトリックをコピーしましたが、GloVe は常に後退しているように感じられました。速度が遅く、メモリを多く必要とし、word2vec よりも低品質のベクトルを生成しました」と Tomas 氏は言います。「しかし、GloVe はより多くのデータで事前トレーニングされた単語ベクトルに基づいてリリースされたため、非常に人気がありました。その後、fastText プロジェクトで問題を修正し、同じデータでトレーニングした場合、word2vec は GloVe よりもはるかに優れたパフォーマンスを発揮しました。」

GloVe の著者の一人である Richard Socher 氏は、これに反論しました (以下に一部要約します)。

画像出典: https://twitter.com/RichardSocher/status/1736161332259614989

「トーマス・ミコロフ氏と共著者が『Test of Time Award』を受賞したことを大変嬉しく思います。受賞に値する賞であり、私はすでに数日前にFacebookで彼にお祝いのメッセージを送りました。」

トーマスのアプローチがシュミットフーバーに少し似ているのは理解できます (シュミットフーバーは他の研究者の独自の研究に何度も公然と異議を唱えてきました)。学術の世界では、このような状況がよく発生します。つまり、研究が成功すれば、多くの人がそれを主張し、彼らは「親」として理解されますが、失敗した場合にのみ「孤児」（誰も気にしないことを意味する）になります。

意味のあるトピックは、賢い頭脳と創造的な想像力を刺激します。これらの人々はよく似たアイデアを持っていますが、その多くは不確かなものです。確かに、ある時点では多くのアイデアが提案されたものの、大規模に実装または実行されなかったのは事実です。「

リチャード・ソーチャー氏は続けて、「ミコロフ氏が、彼の研究で私たちが多くの技術を盗用したとやや不満げな様子で言ったとき、私たちは少し困惑しました。なぜなら、私たちは実際にグローブ論文で彼の研究を7回引用していたからです」と語った。

実際、この論文では、キーワード「Mikolov」を検索しましたが、参考文献に登場した 3 回を除くと、論文には実際に 7 回登場しました。

最後にリチャードは、「2010 年当時、言語ネットワークに本当に注目し、取り組んでいたのは、ロナン・コロバート、ジェイソン・ウェストン、トマス・ミコロフ、ヨシュア・ベンジオ、私、クリス・マニング、その他数名だけでした。現在、この分野は非常に急速に発展しており、素晴らしい仕事を続けなければ、すぐに忘れ去られてしまいます。AI とディープ NLP の分野は、この 1 年で急速に発展したため、参加したばかりの人や注目したばかりの人の多くは、それがどこから来たのかを知りません。当然のことながら、しばらくこの分野に携わり、基礎を築いてきた一部の人が不安を感じることがあります。しかし、私たちのアイデアがこれほどのスピードで拡大していることに興奮すべきです。」と述べました。

先ほど、Tomas は GloVe は word2vec より後退していると考えていたと述べましたが、ある人がこの点について反論しました。「word2vec は単語埋め込みの最初の導入でしたが、Glove の方が直感的で移植性が高いと感じました。任意のコーパスから単語埋め込みを構築するために使用するスクリプトは非常に便利です。私たちは今でも、軽量な最初のフィルターとして SIF とともに Glove を本番環境で使用しています。」

Tomas Mikolov 氏の記事によって引き起こされた一連の議論と論争はまだ続いていますが、事実がどうであろうと、幸いなことに word2vec は NeurIPS 2023 Time Test Award を受賞しました。

最後にお聞きしたいのですが、2014年にNeurIPSで発表されたSeq2Seqは来年NeurIPS Proof of Time賞を受賞するでしょうか？

<<:

>>: 人工知能は科学研究に革命を起こす力を持っている

やめる！ Google は米国国防総省の 100 億ドルの契約への入札を断念しました。

Word2vec の作者が明かす: seq2seq は私のアイデア、GloVe はスキルを盗用、反撃が迫る

オリジナルのword2vec論文はICLRによって拒否された

seq2seq の元々のアイデアは誰ですか?

やめる！ Google は米国国防総省の 100 億ドルの契約への入札を断念しました。

AI が大学入試のエッセイのテーマを予測: 科学、形而上学、それとも誇大広告?

人工知能を理解していないかもしれませんが、次の3つのポイントを知っておく必要があります

質問で機械学習を学ぶ: 機械学習とは何ですか?

「アルゴリズム」の混乱にどう向き合うか？

ライブ放送室で見る高解像度1080Pは720Pほど良くないかもしれない

カリフォルニア大学バークレー校が脳コンピューターインターフェースで新たな進歩を遂げました！脳波で歌を再現できるなんて、言語障害を持つ人にとってはありがたい存在？

人材不足は数百万人に達し、人工知能＋教育が一般的なトレンドとなっている

推薦する

ImageNet の最高スコアを更新しましょう! Google Brain 中国研究者がスーパートランスフォーマーをリリース

不確実な環境で自動運転を実現するにはどうすればよいでしょうか?

JD Cityが新しいブランドアイデンティティを発表、スマートシティがJDグループの主要戦略に

人工知能は 5 つの主要な地球規模の問題に解決策をもたらす | ダボスブログ

Java 上級: 5 つの負荷分散アルゴリズムの実装原理を深く理解する

逆転！清華大学の卒業生の死はグーグルのレイオフとは無関係、家庭内暴力の詳細が明らかに、男性は殺人罪で起訴された

陳作寧院士：人工知能モデルとアルゴリズムの7つの発展傾向

人工知能の7つの応用シナリオ

産業用ロボットとは何ですか?

「ブロックチェーン+人工知能」は医療金融やその他の応用シナリオに応用されています

Geek+がダブル11の結果を発表：中国最大のインテリジェント倉庫ロボットネットワークが72時間で811万件の注文を配達