効果的な機械学習研究者の6つの習慣

効果的な機械学習研究者の6つの習慣

優れた機械学習研究者になるために必要な資質は何でしょうか? 強力なコーディングスキルでしょうか? それとも、卓越した理論的知識でしょうか?

[[315315]]

コーディング スキルと理論は重要ですが、優れたテストを行うための唯一の基準は良い習慣であるべきです。

Arxiv Sanity Preserver で最新の研究に遅れずについていき、夜通しモデルのトレーニングを続け、Stack Overflow を最大限に活用しましょう...効果的な ML 研究者になるには他に何が必要ですか?

最近、あるネットユーザーがRedditに「効率的な機械学習研究者はどんな習慣を持っているのか?」という質問を投稿しました。これに対して、多くのネットユーザーが提案するメッセージを残しており、この話題は非常に活発になっています。

以前、Open AI の創設メンバーであり研究科学者でもあるジョン・シュルマンは、特別な「機械学習研究ガイド」も執筆し、研究問題の選択能力から研究の原動力、具体的な研究方法に至るまで、あらゆることに関して独自の提案をしています。まず、次の点を見てみましょう。

1. 適切な研究課題を選択する能力を養う

機械学習の研究では、自分の技術的能力よりも、適切な研究課題を選択する能力がさらに重要です。この能力は、どのアイデアが最終的に成功し、どのアイデアが最終的に忘れ去られるかを観察することによって、時間をかけて開発されます。成功したアイデアは、いくつかの分野で新しいアイデアや進歩の礎となる可能性がありますが、最終的に無視されるアイデアは、複雑すぎる、または脆弱すぎる、あるいはそれらがもたらす漸進的な進歩が小さすぎるなどの理由からである可能性があります。

長期にわたるこのような観察により、どのアイデアが長期的な価値を持ち、どのアイデアが短命であるかを知ることができます。

この能力を養うために、皆さんも近道を模索しているかもしれません。次の方法が参考になるでしょう。

まず、たくさんの論文を読んで批判的に評価します。可能であれば、機械学習分野の優れた研究者を招待して、これらの論文について一緒に議論するようにしてください。

次に、同様の研究テーマを持つ研究グループに参加して、研究経験を吸収し、優れたチームワークスキルを身に付けます。

3 番目に、研究課題を選択する際に、上級研究者や他の経験豊富な研究者にアドバイスを求めることができます。他の人にアドバイスを求めることは恥ずかしいことではありません。最終的に適切な研究課題を決定すると、あなたのスキルが最大限に発揮され、可能な限り最大限に研究を行うことができるようになります。

4 番目に、どのような研究が有益で生産的であるかについて、時間をかけて考えてみましょう。たとえば、次のような質問を自分に問いかけてみましょう。

  • 理論はいつ役に立つのでしょうか?
  • どのような状況で経験的発見を研究に転用できるのでしょうか?
  • あるアイデアが広く受け入れられている一方で、他のアイデアが最終的に忘れ去られるのはなぜでしょうか?
  • 機械学習の分野における今後の動向は何でしょうか? どの研究方向が他の研究方向を大きく引き離す可能性が高いでしょうか?

このうち、1 番目から 3 番目のポイントは、研究環境を最適化し、他の研究者からのアドバイスや経験を得ることを目的としていますが、4 番目のポイントでは、独自に考えることが求められます。

3 番目のポイントからの最初のポイントの重要性は、「ほとんどすべての影響力のある研究は、少数の研究チームと機関によって行われている」という事実によっておそらく証明できます。これは、これらの研究チームや研究機関の研究者が他の研究者よりもはるかに賢いからではなく、彼らが「巨人の肩」の上に立ち、専門知識と視点の密度が高く、コミュニティ内の他の研究者よりも一歩先を行くことができるからです。

しかし、残念ながらそのような環境で機械学習の研究を行うことができないとしても、落胆する必要はありません。努力を重ね、専門能力と独自の視点を培うことで、他の人よりも優位に立てる可能性もあります。

2. 研究はアイデアや目標によって推進されていますか?

[[315316]]

研究の課題を選択したら、次に何をするかを決める方法としては、一般的に次の 2 つがあります。

まず、アイデアに駆り立てられ、いくつかの文献の見解に従って次の作業を実行します。次に行う作業と一致する見解やアイデアを持つ論文を読むのが最善でしょう。その後、アイデアをテストするためのプロジェクトを開始できます。

2 番目に、目標志向であること。目標は、獲得したい新しい AI スキルを開発することであり、同時に、最終目標に一歩近づくことができるいくつかの問題を解決することです。実験段階では、文献に記載されている既存の方法をいくつかテストし、それらの方法に基づいて独自の新しい方法を提案して、最適化および改善することができます。

もちろん、これら 2 つのアプローチは相互に排他的ではありません。機械学習のどのサブフィールドの研究にも、必然的に何らかの目標 (ターゲット検出など) が含まれ、すべての「意見主導型」プロジェクトは、そのサブフィールドの開発目標の進捗状況も表しています。この意味で、「意見主導型」の研究は、実際には「目標主導型」の研究の一例です。

ここで別途挙げている「目標主導型」とは、機械学習のサブフィールドの開発目標よりも個人の目標が明確であり、特定の研究に基づいて最適化や改善を行うのではなく、「新しいことにいち早く挑戦する」ことに重点が置かれていることを意味します。

長期的には、「目標主導型」の研究はほとんどの研究者にとってより価値があります。

「アイデア主導型」の研究は、他の研究者の研究成果と重複するリスクが高くなります。世界中の研究者は同様の文献を読んでいるため、同様のアイデアを思いつくことが容易になります。 「オピニオンドリブン」な研究を通じて画期的な研究をしたいのであれば、自分の研究テーマについて独自かつ深い理解を持ち、コミュニティ内の他の研究者とは異なる視点で研究を行えることが必要です。これができる人もいるかもしれませんが、それは非常に困難です。

一方、「目標主導型」の研究では、目標自体が他の研究者とは異なる独自の視点を与え、他の人が尋ねなかった質問をするように導き、より大きな進歩を遂げることができます。それだけでなく、この研究方法はあなたのモチベーションも高めます。毎朝、目標を達成するというビジョンを持って目覚めることができるようになります。こうすることで、研究の浮き沈みを乗り越えやすくなります。

チームワークの面では、「目標主導型」の研究は、チームの研究者が協力して問題のさまざまな側面から研究を実施するのに役立ちます。意見主導型の調査は、1 人または 2 人の「チーム」によって実施された場合に最も効果的です。

3. 先を見据えて一歩ずつ目標に向かって進んでいく

賢くて勤勉な人でも、良い研究ができない人がいるのはなぜでしょうか。重要な理由の 1 つは、彼らが研究する問題が大きな問題ではないことです。

研究プロジェクトを開始する前に、自分自身に次のように問いかけてみるとよいでしょう。この問題に関するさらなる研究の見通しはどのようなものでしょうか。10% の改善が得られるのでしょうか、それとも 10 倍の改善が得られるのでしょうか。多くの研究者が頻繁に遭遇する大きなボトルネックは、実行しているプロジェクトは有意義であるように思えるが、その結果、いくつかの指標でわずかな改善しか得られないという点です。

段階的に作業を進める(10% の改善を達成する)ことは、より大きな目標を達成しようとするときに非常に役立ちます。たとえば、Krizhevsky、Sutskever、Hinton による 2012 年の画期的な論文では、畳み込みニューラル ネットワークを使用して ImageNet を分類しましたが、完全に新しいアルゴリズム部分は導入されませんでしたが、多くの領域で小さな改善が行われ、当時ほとんどすべての人を驚かせた前例のない結果がもたらされました (今から考えると、それは大したことではなかったと思いますが)。

日々の業務の中では、パフォーマンスや理解は少しずつしか向上しないかもしれませんが、小さな向上の積み重ねが、より大きな目標の達成へとつながります。

漸進的なアイデアについて調査を行う場合は、そのような調査の有用性はその複雑さに依存することに注意してください。ベンチマークのわずかな改善は非常に単純なものである方がよいでしょう。そうでなければ、あなた自身を含め、ほとんど誰もそれを使用したがらないでしょう。たとえば、10% の改善が達成できる場合は 2 行のコードで実現できますが、50% の改善が達成できる場合はさらに 10 行のコードで実現できます。

ここで、自分の機械学習の結果表をもう一度見直してみましょう。あなたが策定した長期研究計画は、これらの結果を達成するのに十分でしょうか? それでも最終目標への道筋が見えない場合は、自分の計画を調整してみる必要があります。

4. ノートブックの適切な使用

新しい機械学習アルゴリズムを開発することを決定したら、長い間 1 つの問題に集中する必要があります。研究者は、毎日のアイデアや実験を記録するために、紙または電子の専用ノートブックを用意することを強くお勧めします。

電子ノートを使う場合は、毎日エントリーを作成し、「何をしているか」、どんなアイデアが浮かんだか、実験結果などを書き留めておくことをお勧めします。 1 週間か 2 週間ごとにレビューを実施します。レビューには、アイデアや洞察、コードの進捗状況、次のステップなど、毎日の記録をすべて読むことが含まれます。これらの日々の記録を簡単な要約にまとめる必要もあります。

レビュー プロセス中にいつでも不足しているコンテンツを入力することや、結果をすばやく表示できるように実験結果を統一された場所に保存することなど、いくつかの詳細は無視できません。

メモは、時間の使用状況をより適切に監視し、アイデアや手がかりの時間管理が不十分なために研究を途中で放棄することを回避するのに役立ちます。

5. 得るものも失うものもあるので、最後まで戦わない

機械学習の研究では、非常に困難な問題に必然的に遭遇し、あきらめない精神で多くの時間を費やしてしまうことがよくあります。しかし、経験上、いくら努力しても失敗する運命にある問題もあることが分かっています。賢明なのは、いつ止めるべきかを知って、自分自身に「限界」を設定し、限界を超えたら諦めることです。

さらに、研究課題を頻繁に切り替えすぎると、失敗につながることがよくあります。典型的な現れ方としては、あるアイデアを実現しようと奮闘しているときに、別の有望なアイデアが突然頭に浮かび、この新しいアイデアと「奮闘」するようになる、というものです。

機械学習のアイデアをすぐに試せる場合は、ぜひ試してみてください。最初の挫折に遭遇してもがっかりしないでください。適度な粘り強さがあれば、トンネルの先に光が見えてくるかもしれません。

合理的に諦める気持ちを持つにはどうすればよいでしょうか。経験豊富なアプローチは、ノートブックを使用してプロジェクトの詳細をタイムリーに確認することです。ほとんどの時間は「成果物を作成する」プロジェクトに費やされ、一部の時間は途中で放棄されるプロジェクトに費やされていることに気付くかもしれません。したがって、適時にレビューし、研究の一貫性を維持し、最後までやり遂げてください。

もう 1 つの効果的な戦略は、一定の時間予算を費やして、主な業務とは異なる新しいアイデアを試すことです。たとえば、週に 1 日をメイン プロジェクトとはまったく異なる作業に費やします。これは「欲」を満たすだけでなく、知識を広げることにも役立ちます。

6. もっと読み、もっと書きましょう。教科書は良い教師です

すべての機械学習プロジェクトは新たな課題をもたらし、賢い人々はプロジェクトを遂行しながらスキルを習得し、個人的な背景を補完します。個人的な成長のために時間を確保すると、長期的には昇進の可能性が大幅に高まります。

具体的には、機械学習の研究者は、機械学習リテラシーの向上に時間を割く必要があります。現在のプロジェクトを計画するだけで、改善にエネルギーを費やすことを望まない場合、日常業務に必要な基礎知識を理解した後、研究者は停滞する可能性があります。

もちろん、自分の快適なゾーンに留まるのは楽しいことですし、じっと「立っている」ことにそれほどエネルギーはかかりません。したがって、キャリアの早い段階で自分の快適ゾーンを拡大するために多大な努力を払う必要があります。興味のある教科書や論文を読んで、関連するアルゴリズムを再現してください。自分に合った学習計画を立て、関連する論文や教科書を少しずつ読んで徐々に上達してください。

機械学習を専攻する学生の多くは、卒業後に教科書を読む時間はほとんどありません。これは非常に悪い習慣です。論文と比較すると、教科書はより知識集約的であり、基礎知識を拡張することができます。優れた教科書は、多くの場合、関連分野のここ数十年のアイデアをカバーしています。本書で使用されている記号や用語は比較的形式的で、物語のスタイルは浅いものから深いものへと段階的に進んでいきます。

教科書だけでなく、関連研究者による博士論文も優れた学習教材となります。一般的に、ML研究者の博士論文は、1.研究背景と最先端の課題、2.これまでに発表された論文(これまでに発表された論文を「まとめる」ことで博士論文が書けると言われています)、3.結論と展望という決まった形式を持っています。上記のように、パート 1 と 3 にはこの分野の過去と未来についての統一的な見解が含まれているため、これらを読むことで最も多くの利益が得られます。

教科書や博士論文は基礎知識を身につけるのに役立ちますが、時代の先端を行く人になりたいなら、やはり論文を読まなければなりません。論文は比較的新しい点に焦点を当てており、革新的であることが多いです。要約を読み、実験の比較を観察することで、革新的な思考を豊かにします。

初心者研究者であれば、論文のアイデアを再現し、それを自分の実験方法と比較することに多くの時間を費やす必要があります。受動的な読書と比べて、問題をより深く理解できるからです。さらに、より高度な技術を再現できれば、彼を追い抜くのもあと一歩かもしれません。

影響力のある論文を読んでそれを再現することに加えて、あまり知られていない論文にも注意を払う必要があります。批判的な目で読んで、役立つポイントを見つけ、他のアイデアへの扉を開いてください。

Redditユーザーがアドバイス

https://www.reddit.com/r/MachineLearning/comments/f4oxuj/discussion_what_are_some_habits_of_highly/

こうした問題に関する議論になると、Reddit のマシン セクションが遅れをとることはなく、人気は 18 時間で 265 に達しました。返信コメントでは、多くのネットユーザーがポイントごとに提案をしてくれました!大まかには以下の通りです。

1. 初期のパイロット実験から洞察を得て、「たぶん」「たぶん」「ほぼ」というアイデアに時間を無駄にしないでください。

2. 損失関数の選択を常に疑わないでください。

3. 同僚ともっとコミュニケーションを取り、明確に説明されていない原則を黒板に直接書き留めます。

4. ほとんどの人は自分の仕事について話すのが好きです。

5. 関心のあるプロジェクトのコード プロジェクト フォルダーを作成し、機能ごとに並べ替えます。

6. データ セットの構築、クリーニング、並べ替え、収集の方法を学びます。

7. データを適切に分類する

8. 「自動車のエンジンを設計する人は通常レーシングドライバーではない」ということ、そして完璧さは完璧さの最大の敵であるということを理解する。

9. 難しい問題に取り組むときは、それを 2 つの部分に分割できます。

10. いつ手抜きをすべきか、いつやり続けるべきかを知る。

11. 有名人とコラボレーションして彼らをさらに有名にし、そしてあなた自身も有名にしましょう。

12. 運は大切です!

<<:  ボストンのロボットが話題になった後、別のヒューマノイドロボットがデビューした

>>:  不動産テクノロジーの6つのトレンド: テクノロジーが不動産業界に破壊的変化をもたらす

推薦する

センサーがなければ、電子自動化もロボットも存在しないでしょう。

センサーは、温度、湿度、光、その他の非電気量などの特定の物理的パラメータの変化を、電流、電圧などの別...

3月にGithubで最も人気のあるデータサイエンスと機械学習のプロジェクト

Analytics Vidhya は最近、3 月の GitHub で上位 5 つのデータ サイエンス...

人工知能が伝統的な物理学に革命を起こす

今日、人工知能 (AI) は物理学を含む多くの業界に変化をもたらしています。関連報道によると、人工知...

アイソレーションフォレスト: ビッグデータにおける最高の異常検出アルゴリズム

Isolation Forest または「iForest」は、わずかなパラメータのみで外れ値を検出で...

「UAV+環境保護」は完璧な組み合わせであり、統合開発の見通しは有望である

産業革命以降、環境破壊のスピードと範囲は拡大し続け、環境問題や自然災害がますます増加し、生命と生存に...

CMU の専門家が「マルチモーダル機械学習」の 6 つの主要な課題を包括的にまとめています。36 ページの長い記事 + 120 ページの PPT、すべて実用的な情報です。

さまざまな言語、視覚、ビデオ、オーディオなどの大規模モデルのパフォーマンスが向上し続けるにつれて、マ...

必ず読むべき28の古典的なプログラミングアルゴリズム

最初の 10 個は、聖書からのトップ 10 アルゴリズムです。発起者からの説明: Proofs fr...

...

...

クォンタムAIパーク、リアルタイム翻訳、Googleが革新的なAI製品を展示

[[434605]] Googleは11日、「発明家」をテーマにしたイベントを開催し、AI技術をベー...

学術界の巨人たちのブラックテクノロジー:人工知能のダークマターについて聞いたことがありますか?

北京大学の公式サイトの最新情報によると、元UCLA(カリフォルニア大学ロサンゼルス校)教授の朱松春...

2019 年の JavaScript 向け機械学習ライブラリ トップ 6

通常、機械学習 (ML) の方法とアルゴリズムは、Python または R の 2 つのプログラミン...

注目メカニズムに基づく人工知能アルゴリズム単一画像超解像法は、質感と滑らかさを区別します

人工知能アルゴリズムによる注目ベースの単一画像超解像法は、テクスチャと滑らかさを区別します。概要: ...

2023年のGenAI技術応用動向の観察

生成型人工知能 (GenAI) は技術革新の最前線にあり、さまざまな業界の変革と発展に新たな可能性を...