この論文は最初のICLRで却下され、コードは最適化されすぎていた。word2vecの作者であるTomas Mikolov氏がその裏話を語った。

数日前、NeurIPS 2023 は受賞論文を発表し、その中で 10 年前の NeurIPS 論文「単語と句の分散表現とその構成性」が Test of Time 賞を受賞しました。この研究は、画期的な単語埋め込み技術 word2vec を導入し、大量の非構造化テキストから学習する能力を実証し、自然言語処理の新しい時代を切り開きました。

この論文は、当時 Google にいた Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean らによって執筆され、40,000 回以上引用されています。

しかし、最初の Word2vec 論文は、Tomas Mikolov と他の著者による「ベクトル空間での単語表現の効率的な推定」でした。この論文の引用数は4万件近くに達しました。

論文アドレス: https://arxiv.org/abs/1301.3781

最近、トーマス・ミコロフ氏は、最初の ICLR による論文の却下やその後の進展など、論文の背景にあるさらなるストーリーを共有しました。

画像ソース: https://www.facebook.com/tomas.mikolov

以下は元の投稿内容ですが、本来の意味を変えずに編集しました。

word2vec の論文が NeurIPS 2023 Proof of Time Award を受賞したことを大変嬉しく思います。これは、私が最優秀論文タイプとして受賞した初めての賞です。実際、元の word2vec 論文は、2013 年の最初の ICLR カンファレンスで (採択率が高かったにもかかわらず) 拒否されました。このことから、査読者が論文の将来的な影響を予測することがいかに難しいかを考えさせられました。

長年にわたり、私は word2vec について肯定的なものも否定的なものも含め多くのコメントを聞いてきましたが、インターネット上に真剣にコメントを投稿したことは一度もありません。研究コミュニティは、一部の研究者による PR スタイルの宣伝にますます浸かっているように感じます。彼らは、これを他の人の論文の引用や注目を集める手段として利用しています。私はその一部になりたいとは思いませんが、10年後には、その新聞の裏にあるストーリーのいくつかを共有するのも興味深いかもしれません。

よく聞くコメントの一つは、コードが非常にわかりにくいので、わざと読みにくくしたのではないかと思う人もいる、というものです。しかし、私はそこまで邪悪な人間ではなく、リリースの承認を得るのに何ヶ月も待ったため、コードは最終的に過剰に最適化されてしまいました。また、コードをより高速かつ短くするように努めています。振り返ってみると、当時グレッグ・コラードとジェフ・ディーンがチームにいなかったら、承認を得ることはできなかっただろうと思います。 word2vec はおそらく、Google がオープンソース化した最初の広く知られた AI プロジェクトだと思います。

word2vec のリリースから 1 年以上経って、スタンフォード NLP グループの GloVe プロジェクトも大きな論争を巻き起こしました。このプロジェクトは私たちのプロジェクトから多くの技術をコピーしましたが、GloVe は常に後退しているように感じられました。つまり、速度が遅く、メモリを多く必要とし、word2vec よりも品質の低いベクトルを生成したのです。しかし、GloVe はより多くのデータで事前トレーニングされた単語ベクトルに基づいてリリースされたため、人気を博しました。その後、fastText プロジェクトでこの問題を修正し、同じデータでトレーニングした場合、word2vec のパフォーマンスは GloVe よりもはるかに向上しました。

word2vec は私の論文の中で最も引用されている論文ですが、私はこれを最も影響力のあるプロジェクトだとは思っていませんでした。実際、word2vec コードは元々、以前のプロジェクト RNNLM のサブセットにすぎず、すぐに忘れ去られてしまったように感じます。しかし、私の意見では、AlexNet と同じくらい革命的なものになるはずです。

ここでは、2010 年に RNNLM で初めて実証されたアイデアのいくつかを挙げます。リカレントニューラルネットワークのスケーラブルなトレーニング、ニューラル言語モデルによる最初のテキスト生成、動的評価、文字およびサブワードレベルでのニューラル言語モデリング、ニューラル言語モデルの適応 (現在はファインチューニングと呼ばれています)、公開された最初の LM ベンチマークです。

私は、すべてが正しく行われると、ニューラルネットワークはより多くのトレーニングデータを使用して n-gram 言語モデルよりも優れたパフォーマンスを発揮できることを示す最初の研究を発表しました。これは今では当たり前のことのように聞こえますが、当時は不可能だと広く考えられており、Google の従業員のほとんどでさえ、データが増えれば増えるほど、n グラムとスムージング技術以外のことを行うのは無駄になると信じていました。

私は幸運にも、2012 年に Google Brain チームに参加しました。このチームには大規模ニューラルネットワークの「信奉者」が多く、word2vec プロジェクトに取り組むことを許可され、その可能性を実証することができました。しかし、ここまで来れば完璧だという印象を与えたくはありません。 word2vec の後のプロジェクトとして、Google Translate を改良することでニューラル言語モデルを普及させたいと考えました。私はフランツ・オッホと彼のチームとのコラボレーションを開始し、その中でフレーズベースの機械翻訳を補完したり、さらにはそれに代わったりできるいくつかのモデルを提案しました。

実際、Google に入社する前に、私はニューラル言語モデルを文のペア（フランス語と英語など）でトレーニングし、最初の文を見た後に生成モデルを使用して翻訳を生成することで、エンドツーエンドの翻訳を実現するという非常にシンプルなアイデアを提案しました。これは短い文には有効ですが、長い文にはそれほど有効ではありません。

私は Google Brain 内で、主に私が Facebook AI に移った後にプロジェクトを引き継いだ Quoc と Ilya と、このプロジェクトについて何度か話し合いました。最終的に、彼らが私のアイデアを「From Sequence to Sequence」というタイトルで出版し、私を共著者として挙げなかっただけでなく、長い謝辞のセクションで私を除く Google Brain のほぼ全員の名前を挙げたことに、私は非常に驚きました。当時は、人工知能の分野に巨額の資金が投入され、あらゆるアイデアが莫大な価値を持っていた時代でした。ディープラーニングコミュニティがあっという間に「ゲーム・オブ・スローンズ」のような状況になってしまったのは悲しいことです。

全体として、言語モデルへの関心は長年にわたってゆっくりと高まってきましたが、ChatGPT のリリース以降は爆発的に増加しており、ついに多くの人が AI と言語を結び付けているのを見るのは本当に素晴らしいことです。まだそこまでには至っておらず、ニューラルモデルの一般化の限界を押し広げるには新たな発見が必要だと個人的には考えています。私たちは間違いなく刺激的な時代に生きています。しかし、数十人、あるいは数百人の科学者の努力に基づく技術を独占し、それがすべて人類の利益のためであると主張する人たちをあまり信用しすぎないようにしましょう。

しかし、トーマス・ミコロフ氏のスピーチは人々のため息をも誘った。彼はLSTMの父、ユルゲン・シュミットフーバー氏の後を継ぐのだろうか？

画像出典: https://twitter.com/agihippo/status/1736107652407849208

どう思いますか？

<<:

>>: Mistral と Microsoft が「小さな言語モデル」の波を起こしました。 Mistralのコーディング能力はGPT-4より優れており、コストは2/3に削減されます