機械学習の博士課程での私の経験から得た洞察

機械学習の博士課程での私の経験から得た洞察

2020 年は非常に困難な年でしたが、私にとってはコーネル大学でコンピューターサイエンスの博士号を取得したという重要な節目の年でもありました。これは 6 年間の旅であり、最初の拒否からより広い研究環境を特定するまでの機械学習研究者としての私の個人的な成長も、分野全体の急速な成長と変化を背景に起こりました。

[[375459]]

今年も終わりに近づいてきましたので、私の(機械学習の)博士課程での経験から得た反省と教訓をいくつか共有したいと思います。私が議論するトピックには、将来への期待、博士課程の研究における一般的な課題(およびそれらを克服するためのいくつかの戦略)、出版ペースへの対応、研究のコミュニティ性、研究ビジョンの開発などが含まれます。これらのトピックが、機械学習の博士号取得と研究のガイドとして役立つことを願っています。

博士課程への期待

この記事のタイトルで、私は博士号取得を「旅」と呼びましたが、これは特に学部を卒業したばかりの人たちによって過小評価されがちな側面です(私もそうでした)。機械学習の博士課程は通常、比較的構造化されていない 5 ~ 6 年間のプログラムであり、この期間中に、その分野の研究方法を学ぶだけでなく、特定の問題に対する個人的な好みも養います。

こうした変化する個人的な好みは、あなたが追求する研究の種類や、博士号取得後に選択するキャリアパスにも影響を与えます。しかし、特に博士課程の初期段階では、こうした個人的な視点がどのように進化していくかを予測するのは難しい場合があります。

私の場合、博士課程を始めたとき、私は産業界に残ることを完全に想定していました。しばらく勉強した後、私は学界を真剣に検討し始め、最終的に非常に難しい決断を下しました。それは、学界からの招待を断り、産業界に残り続けるというものでした。

したがって、博士号を取得する際には、一度に一歩ずつ進み、非常に具体的な望ましい結果(簡単に変更され、不必要なプレッシャーを与える可能性がある)ではなく、得られる経験(学習/研究/コミュニティへの関与)に焦点を当てることをお勧めします。

この旅でよくある課題

博士号取得のための勉強は、特に機械学習において非常にやりがいのある経験であり、基礎科学の理解とテクノロジーの効果的な展開の両方に貢献する機会を提供します。博士課程でその両方を経験する機会をたくさん与えられたことにとても感謝しています。しかし、博士課程の期間が長く、体系化されていない性質が、難しいこともあります。私の旅には確かに浮き沈みがあり、時には孤立感を感じたり、完全に行き詰まったり、急速な進歩のペースについていくのに圧倒されたりと、苦労したこともありました。振り返ってみると、そして同僚との議論を通じて、残念ながら、こうした落ち込みは非常によくあることだと今ではわかっています。しかし、こうした経験は多くの人が共有しているため、それを克服するための戦略が存在します。以下では、これらの経験と戦略のいくつかについて説明します。

完全に行き詰まった感じ

非常によくある課題は、特定のプロジェクトまたは一般的な研究プロセスのいずれかで、完全に行き詰まっていると感じることです。

特定のプロジェクトに多大な労力を費やしたにもかかわらず、まだうまくいかないという課題がある場合、いくつかの戦略が役立つかもしれません。

  • エッセイを書く: 部分的な実験結果、数学的な洞察、書き留めた動機などをすべて収集し、時間をかけてそれらをまとめてエッセイを作成します。これにより、状況がどこにあり、重要なギャップがどこにあるのかを把握できるようになります。
  • 重要なポイント: プロジェクトの特定の部分が実行不可能な場合、問題を再定義して (おそらく関連する作業からインスピレーションを得て)、より扱いやすくすることは可能でしょうか?
  • つながりを作る: 現在のプロジェクトが焦点を当てているものと他の研究分野との間につながりはありますか? このつながりをこのプロジェクトで探求できますか? これは、プロジェクトの進行に役立ち、より広いコミュニティにとって関連性を持たせるのに役立ちます。
  • 執筆に関するフィードバック: 研究コミュニティ内の同僚、協力者、友人からプロジェクトの執筆に関するフィードバックを得ることも役立つ場合があります。新しい視点を提供したり、改善点を提案したりするかもしれません。
  • ワークショップの提出: ワークショップを提出することも役立ちます。これにより、すべての研究結果を収集し、有用なフィードバックを得る機会も得られます。 (ここしばらく、私は機械学習カンファレンスのワークショップから最も多くのことを得てきました。進行中の方向性について議論したりフィードバックを得たり、同じ分野で研究している他の研究者と会ったりできるからです。)
  • 終了して先に進む: 最初は有望に思えても、実行が難しく、再構築したり他の領域との接続を形成したりするのが本質的に難しいプロジェクトがある場合があります。この(困難な)状況では、プロジェクトを迅速に終了して先に進むのが最も賢明な方法です。部分的な結果しかない場合は、最終的な記録を作成して共有したくなるものです。そのため、1 つの選択肢として、それを実行し、共同研究者から確認と最終的なフィードバックを得て、arXiv プレプリントまたはワークショップ ペーパーとして保存します。

この行き詰まり感が、より広範な研究プロセスから生じているのであれば、私が気づいた重要なことの 1 つは、研究の成熟度は、特に自分自身を評価する場合には、測定が難しいことが多いということです。博士課程の間、私はヘルスケア アプリケーションに取り組み始めましたが、その分野の学習や論文執筆の進歩は遅々として進みませんでした。このため、私は研究の進捗が遅くなったことに少し停滞感とフラストレーションを感じました。しかし、博士課程の学生として初めて出会った論文のいくつかを読み直したとき、以前とはまったく異なる深さと文脈でそれらを理解することができました。

研究の成熟度の重要な側面、つまり、結果のより広い文脈を理解すること、異なる分野間のつながりを作ることができること、自分の分野における新しい重要な貢献に素早く絞り込むことなどは、すぐに具体的な成果(より多くの論文)に変換できるわけではありません。しかし、それらは、幅広い研究視点を持つ独立した研究者になるために不可欠であり、おそらく博士号取得の主な目標です。論文を読んだり、分野を学んだり、独自の研究に取り組んだり(さらには指導やメンタリングも行ったり)しているのであれば、おそらくこれらすべての重要な分野で進歩を遂げているはずです。

MLの進歩についていくのに圧倒されていると感じている

機械学習は動的かつ急速に進歩する分野です。しかしその一方で、新しい論文、新しいプレプリント、新しいブログ、新しい実装、新しいフレームワークなどの洪水の中で迷子になるのは簡単です。(おもしろい統計:NeurIPS には過去 1 年間で約 10,000 件の投稿と約 2,000 件の論文が採択されました。私たちが圧倒されていると感じるのも不思議ではありません!)

これに対処するための私の戦略は次のとおりです。

  1. 関連論文への参考リンクが多数あります。私の場合、これは arxiv stat.ML cs.LG メーリング リスト、arXiv-sanity、Twitter、、reddit/MachineLearning、paperswithcode へのサブスクリプション、および Semantic Sc​​holar/Google Scholar へのサブスクリプションの組み合わせです。
  2. 論文のリストを作成し、興味深い論文を見つけたが読む時間がない(よくあることです)場合は、メモして後で読むようにしています。
  3. 論文を読む戦略: 論文が私が積極的に取り組んでいる研究の方向に非常に近い場合は詳細に読みますが、そうでない場合は概要をざっと読み、概要を把握します。
  4. 時々、別の分野について読んだり、たまに(たぶん年に 1 回)、自分が研究していない興味深い分野を調べて、その分野で何が起こっているのかを把握するためにいくつかの論文を読んだりします。

また、(1) 論文が発表されるペースに誰もが圧倒されていること、(2) 多くの論文はおそらく同じ基本的なアイデアに依存しており、その分野の最新情報を把握するにはそのアイデアに精通しているだけで十分な場合が多いことを覚えておくことも役立ちます。

孤独を感じる

博士号取得を目指す上でよくあるもう一つの課題は、孤独と闘うことです。博士課程の最初の数年間、いくつかのプロジェクトでは非常に限定された特定の問題に集中する必要がありましたが、これもまた非常に要求が厳しく、終わりがないように感じました。当時は、他の研究者や広い分野から完全に孤立していると感じずにはいられませんでしたが、この困難を乗り越えるためにサポートと指導をしてくれた博士課程の指導教官にとても感謝しています。

もっと広い意味では、特に博士課程の初期段階では、研究プロジェクトを最後までやり遂げる方法を同時に学びながら、より広い研究分野やコミュニティとのつながりや文脈が少ない場合があり、これはよくあることです。現場やコミュニティとのつながりを維持することで、孤立感を感じないようにすることができます。これには、(i) (上級) 学生/ポスドクとのコラボレーション、(ii) 研究の進捗状況に関するフィードバックの取得 (これはアドバイザー/研究室からだけでなく、他の同僚/メンターからも得られる可能性があります)、(iii) 会議への出席、メンタリング、ワークショップの開催など、より広範なコミュニティへの積極的な参加が含まれます。

3つの役立つ個人スキル

博士課程期間中に直面する一般的な課題とその解決方法について説明した後、この記事の残りの部分では、研究を進める上で役立ついくつかの考慮事項について概説します。

特に、私が博士課程のキャリアを通じて非常に役立ったとわかった 3 つの個人的なスキル、つまり自発性、集中力、忍耐力についてお話しします。これは確かに私の個人的な経験に基づいています。しかし、私にとって、学部課程と博士課程の主な違いは、行動を起こす必要があることです。それは、重要な関連論文を読むこと、さまざまなアプローチの実現可能性について簡単な予備調査を行うこと、同僚と関連調査を行うこと、さらには会議に出席して積極的に参加することを意味します。博士課程の時間はほとんど構造化されていないため、生産的であるかどうかは、学習と研究の実施におけるあなたの自発性に大きく依存します。

私が非常に役立つと感じた他の 2 つのスキルは、集中力と忍耐力です。新しい研究の方向性を開始する場合、集中力は、関連する研究を注意深く読み、重要なポイントを抽出し、最初の調査から迅速に学習し、プロジェクトの主な方向性を決定するのに非常に役立ちます。一方、研究プロジェクトを完了するには、そして(特に)提出用の論文を準備する際には、編集/追加の長いリストが存在することが多く、提出後には査読や却下に応じてさらに編集が必要になります。これらすべての編集に集中するのは難しい場合があります (特に、論文を再提出する準備をしていて、より新しく興味深いプロジェクトが進行中の場合)。しかし、査読プロセスは変動性が高いため、通常はそれに従う価値があります。

書類やアイデアをメモする

博士課程の間、私は 1 年目と 3 年目の 2 つの文書を所有しており、それらを常に更新していました。 1 つ目は、読んだ論文を追跡することです。新しい論文を読むたびに、簡単な要約とともにその論文をドキュメントに追加します。文書は現在 50 ページを超えています (おそらく Mendeley または Paperpile に切り替える必要があることを意味します)。これは、何年も前に読んだ文書にすばやく戻って要点を把握するのに非常に便利な方法です。別の文書には研究のアイデアが記録されています。有望な新しいアイデアが浮かぶたびに、それを書き留めます。これは私の研究の方向性を決定し、時間の経過とともに重要なテーマを浮き彫りにするのに役立ちました。

コミュニティの重要性

研究は基本的にコミュニティの努力である、という(機械学習)研究の重要な特性を理解するのに長い時間がかかりました。私たちが解決しようとしている問題は非常に難しく、進歩は、他の人のアイデアを基に構築し、他の人が自分のアイデアを基に構築するというサイクルに依存します。これは、研究の方向性を検討する際に留意すべき重要な要素です。コミュニティは何に興奮していますか? また、その理由は何ですか? 欠点やギャップはありますか? 次の研究ステップへの自然なステップはありますか?

コミュニティ内の仲間とこれらの問題やその他の問題について時間をかけて議論することは、十分な情報に基づいた適切な研究課題を開発するために不可欠です。分野にとって興味深い新しい研究の方向性を発見した場合、その周りにコミュニティを構築することが役立つことがよくあります。これは、コラボレーションを開始したり、重要な未解決の問題を広めたり、ワークショップを開催したりすることで実現できます。

博士号取得当初から、私は現代のディープラーニング システムが示す重要な経験的現象を理解することに興味を持っていました。しかし、当時このテーマを研究するのは非常に困難でした。この分野は急速に進化しており、あらゆる種類の分析の焦点は変化する目標となり、このトピックを中心に新しいコミュニティを構築するという課題が大幅に増加しています。ですから、初めてのディープラーニング分析論文を発表するのはかなり大変で、間違いなく忍耐の連続でした。しかし、それ以来、この刺激的な研究分野の発展を目の当たりにし、貢献できたことは素晴らしいことでした。

開発研究の展望

先ほど述べたように、博士課程を始めるときは、特定の目標よりも一歩ずつ進み、経験に重点を置くのが最善ですが、研究の成熟度の観点から、博士課程には、豊かな研究ビジョンを持つ独立した研究者になるという明確な目標が必要です。

機械学習研究の現状では、論文が急増しており、大量の論文を発表し続けなければならないというストレスを感じやすいです。しかし、論文執筆は重要なスキルですが、研究の成熟度を測る主なテストは、自分の分野に関する知識豊富な視点を持ち、主要な研究課題を特定し、それを包括的なテーマ、つまり研究ビジョンに結び付ける能力であると私は信じています。

よく練られた研究ビジョンを持つことは、非常にやる気を起こさせます。例えで言えば、「デジタル ペインティング」キットを完成させるようなものです。各正方形ピクセルの色だけを見るのではなく、突然、絵全体を鑑賞できるようになります。

では、研究の視野をどのように広げていけばよいのでしょうか?

まず、私の博士課程の経歴から言うと、数年の研究経験なしに成熟した研究ビジョンを形成することは難しいと思います。博士課程の最初の数年間、論文を読み、上級研究者の講演を視聴しましたが、興味深い研究課題をほとんど特定/明確に表現できず、イライラしていたことを覚えています。それ以来、私が読んだ論文、取り組んだプロジェクト、参加したセミナーの相乗効果により、この分野での私の能力は大幅に向上しました。 (確かに改善の余地はあります。今後、より多くのコンテキストとより大きなサブフィールドの理解を得るにつれて、この能力は発達し続けるでしょう。)

(より良い)研究ビジョンを策定する段階について、より具体的に言うと、それは探索から始まり、最初のいくつかのプロジェクトで、私が本質的に興味深いと思うものを理解するのに役立つさまざまなことに触れることができました。それ以来、当然のことながら、研究のためのフォローアップ プロジェクトが実施され、最終的にはアプリケーション/展開に関連するいくつかの問題が発生しました。これらすべては、機械学習の設計と展開における AI の相互作用という幅広いテーマの下に収束し始めており、研究ビジョンが得意とするように、新たな疑問も呼び起こしています。 (私は、このすべてを通して洞察力、指導、そして励ましを与えてくれた博士課程の指導教官に非常に感謝しています!)

最後に、長年の経験は複利効果をもたらすということを強調したいと思います。研究プロジェクトに取り組むと、研究論文から重要なアイデアを特定しやすくなります。これにより、次のプロジェクトに対する個人的な視点や見通しが得られ、将来のプロジェクトへの取り組みが容易になり、その結果、新しい興味深い研究の方向性を特定し、最終的にはより広いビジョンに統合できるようになります。

要約する

つまり、博士号取得のための勉強は非常に充実感があります。しかし、それは浮き沈み、個人的な発見、そして(研究の)視点の進化を伴う旅でした。私は博士課程で得た充実した経験にとても感謝しており、この投稿が他の人の役に立つことを願っています。

<<:  アメリカの科学者たちは氷でロボットカーを作りました。この車は自分で車輪を修理することができ、火星と南極に行く予定です。

>>:  ジニ不純度: 決定木の構築にジニ不純度をどのように活用するか?

ブログ    

推薦する

...

Baidu WorldがAI応用レポートカードを発表、国民経済の3大産業に進出

11月1日、2018年百度世界大会が北京で開催されました。「YES AI DO」をテーマにしたこの大...

...

...

今後 10 年間で最も「収益性の高い」 5 つの業界。誰がやっても儲かるでしょう。

VRバーチャルリアリティは未来のトレンドであり、大きな発展の見込みがあります。現在、大手企業がこの...

CCTV 3.15は顔認識の悪用を暴露し、多くの教育企業が同様のカメラを使用する可能性がある

CCTV スクリーンショット街面の李婷が報告顔認識の応用シナリオはますます多様化しており、その背後...

...

建築設計におけるスマートビルディングと IoT の統合

技術が急速に進歩する時代において、私たちと建築との関係は大きな変化を遂げています。もはやレンガやモル...

ディープラーニングのパイオニア、ヤン・ルカン氏、叱責を受けてツイッターを辞める「皆さんはもうすべて知っています。これからは何も言いません」

2週間に及ぶ「舌戦」の末、チューリング賞受賞者でフェイスブックの主任AI科学者であるヤン・ルカン氏...

...

...

いくつかの名門大学とAdobeは、このオープンソースアルゴリズムを使用して、300年以上前の手紙を「透視」しました。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Kornia オープンソースの微分可能コンピュータビジョンライブラリ、Pytorch ベース、GitHub 3000 スター

OpenCV の創設者 Gary Bradski 氏らが最近、Kornia のレビューを公開しました...