arXiv.org は、物理学、数学、コンピューターサイエンス、生物学の論文のプレプリントを収集することに特化した Web サイトです。データによれば、2014 年末までに arXiv には 100 万件を超える論文が収集され、毎月 8,000 件のペースで増加し続けています。これは世界最大の論文データベースの 1 つです。 最近、スタンフォード大学コンピューターサイエンス学部の博士課程修了者で、OpenAIのシニアサイエンティストでもあるAndrej Karpathy氏は、arXivの機械学習論文のビッグデータセットに基づいて、論文数、オープンソースフレームワーク、数学モデル、最適化アルゴリズムなど、過去5年間の機械学習のトレンドの変化について詳細な分析を行い、その分析結果を自身の個人ブログで公開しました。 Google トレンドや Baidu Index などのツールについて聞いたことがあるはずです。キーワードを入力するだけで、過去数か月、あるいは数年間のその単語のトレンドの変化をすぐに確認できます。これに触発されて、たまたま手元にあった arXiv 論文データセットには、過去 5 年間の機械学習に関連する 28,303 件の論文が収集されていました。では、Google トレンドと同様に、これらの論文から機械学習の分野における科学研究の傾向がわかるのでしょうか? 詳細なデータ分析を実施したところ、非常に興味深い結果が得られたので、ここで共有します。 論文総数 まず、論文の数を見てみましょう。次の図は、過去 5 年間に arXiv が収集した機械学習論文の数の推移を示しています。 上図からわかるように、2017年3月は論文総数が急増しています。タイミングから判断すると、NIPSやICMLなどの大規模な会議の論文提出期限が3月であることによるものと考えられます。説明する必要があることの 1 つは、arXiv 論文データセットは包括的ではあるものの、機械学習業界全体の変化する傾向を完全には表すことができないということです。結局のところ、すべての人が arXiv Web サイトに論文を投稿することに慣れているわけではないからです。しかし、上の図からは明らかな上昇傾向が見られ、機械学習の人気が確かに高まり続けていることがわかります。 以下では、これらの論文を研究資料として使用し、どのような変化の傾向が含まれているかを確認します。 ディープラーニングフレームワーク まず、ディープラーニングのフレームワークを見てみましょう。ここでは、2017 年 3 月にアップロードされたすべての論文で言及されている機械学習フレームワークを記録しました (参考文献と論文の内容を含む)。 ご覧のとおり、2017 年 3 月に提出されたすべての論文の約 10% で TensorFlow が言及されています。もちろん、すべての論文がフレームワークの使用を宣言しているわけではありませんが、論文が固定の確率分布を持つフレームワークを宣言し、この確率がフレームワーク自体とは無関係であると仮定すると、コミュニティの最大 40% が TensorFlow を使用していることになります (Keras バックエンドとして TensorFlow を使用する論文も含めると、この割合はさらに高くなります)。これらのフレームワークは時間の経過とともに次のように変化してきました。 ご覧のとおり、Theano はしばらくの間急速に成長してきましたが、最近はその成長率が鈍化しています。 Caffe は 2014 年頃から人気が爆発的に高まり始めましたが、ここ数か月で強力な TensorFlow に追い抜かれました。 Torch (および最近では PyTorch) も、遅いながらも着実に増加しています。私の推測では、Caffe と Theano は今後徐々に衰退し、PyTorch の台頭により TensorFlow の成長率は鈍化する可能性があるため、数か月後にこの結果を見るとさらに興味深いものになると思います。 畳み込みニューラル ネットワーク モデル (CNN) 畳み込みニューラルネットワークの状況を見てみましょう。下のグラフから、CNN分野の重要なマイルストーンであるResNet(ディープ残差ネットワーク)が2016年末に急増したことがはっきりとわかります。2017年3月には、提出された論文の約9%がResNetに言及していました。 さらに、Google InceptionNet 以前にも、インセプションの概念について言及した論文が実際に存在していたことがわかります。 最適化アルゴリズム 最適化アルゴリズムに関しては、Adam アルゴリズムが最も広く使用されており、論文の約 23% で言及されています。ここで注目すべきは、実際の使用においては、最適化アルゴリズムを明示的に述べていない論文が多く、ニューラル ネットワークの最適化に関する内容さえ説明していない論文もあるため、Adam アルゴリズムの採用率が高くなる可能性があるということです。また、グラフからわかるのは、2014年12月にAdam最適化アルゴリズムが正式に提案される前には、実際に「Adam」というキーワードに言及した論文がいくつかあり、その確率は5%程度にとどまっていたということです。これは、Adamという名前の著者が多いからなのかもしれません。 研究者 ここで、ディープラーニング分野の著名人の論文における名前の変化についても調べてみたいと思いました。結果は下の図に示されています。なお、キーワードのみでカウントする方法は非常に大まかであり、正規化操作もいくつか行いました。 グラフからわかるように、提出された論文の約 35% で Bengio について言及されていますが、実際には Samy と Yoshua の 2 人がここにおり、この図では 2 人を合わせた結果を示しています。また、すべての新しい論文の 30% 以上が Geoff Hinton に言及していることも指摘する価値があり、これは非常に強力です。 キーワード ***その一部はキーワードです。ここではまず、論文中のすべてのユニグラムとバイグラムのキーワードの出現回数を数え、これらの単語の現在と 1 年前の最高採用率を比較しました。ここでベンチマークとして使用する論文は、過去 2 年間で最も引用された論文の一部です。上位にランクされているキーワードの一部を以下に示します。 ResNet を例にとると、2016 年 3 月の全論文における採用率は 1.044% であったのに対し、今年 3 月には採用率が 8.53% に増加したため、相対的な人気は 8.17 となります。2 つのパーセンテージを割ると、8.17 になります。 上記のグラフからわかるように、過去 1 年間で最も注目された機械学習のイノベーションには、ResNet、GAN、Adam、BatchNorm などがあります。研究の方向性に関するホットワードには、スタイル転送、深層強化学習 (ディープ RL)、ニューラル ネットワーク変換、画像生成などがあります。 ***、モデルに関しては、完全畳み込みネットワーク (FCN)、LSTM/GRU、Siamese ネット、エンコーダー デコーダー ネットなどのホットワードが見られます。 逆に、過去 1 年間で減少し、最も人気のないキーワードとなったキーワードはどれでしょうか。次のようなランキングをまとめました。 フラクタルとベイジアン関連のコンテンツの人気は過去 1 年間で大幅に低下したことがわかります。 要約する ちなみに、分析結果をすべて読んだ後、Adam アルゴリズムによって最適化され、スタイル転送に適用された完全畳み込みニューラル ネットワーク、BatchNorm、ResNet、GAN テクノロジに基づく論文をすぐに書いてみませんか? |
>>: 機械学習のケーススタディ: クレジットカード詐欺検出
機械学習とは何ですか?答えるのに 10 秒かかります。 …分からない?あなたはまだ人工知能業界で働き...
[[405572]]災害管理における IoT の活用は、災害を予測し、早期に当局に警告し、災害の影響...
2023年には、ビッグモデル間の激しい競争が繰り広げられるでしょう。これ以外に、AI分野ではどのよう...
[[428336]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
現在、業界のビジュアル AI に対する焦点は最先端技術から産業エコロジーへと移行しており、これはビ...
今回、トランスフォーマーはダンス生成タスクに参加しました。芸術分野では、AIが生成した音楽やAIが描...
温かく思いやりのある、一緒にいてくれる「ダバイ」が欲しいと願う人は多いだろうが、ダバイのように人間の...
人工知能は新しい時代の「電気」であると主張する人もいます。市場調査会社IDCのデータによると、AIハ...
インテリアデザインや装飾に AI を応用することで、エンジニアやインテリアデザイナーは、機械学習によ...
ニューヨーク・タイムズによるOpenAIとマイクロソフトに対する訴訟は、AI技術の発展に影響を及ぼす...
アマゾンのAI採用ツールが女性差別をしていたことが発覚し、公式がチーム解散を発表。これで一件落着か?...
今日では、自動化、人工知能 (AI)、自然言語処理 (NLP) の進歩により、コスト効率の高いデジタ...