優れた機械学習論文を書くにはどうすればいいでしょうか?

[[417825]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

まだ教育段階にある大学院生や新しい実践者は、機械学習の研究において回り道を避けたいと考えているのでしょうか?

おそらく次の論文が役に立つでしょう:

機械学習研究における落とし穴を避けるにはどうすればよいでしょうか?学術研究者のためのガイド

著者は、英国ヘリオットワット大学の数学およびコンピュータサイエンス学部の准教授であり、エディンバラロボティクスセンターのメンバーです。彼は 10 年以上前に博士号を取得しました。この 17 ページの論文では、主に機械学習の学術研究でよくある間違いとその回避方法について紹介しています。

このガイドでは、機械学習プロセスの 5 つの主要な側面、つまりモデリング前の準備方法、信頼性の高いモデルの構築方法、モデルを堅牢に評価する方法、モデルを公平に比較する方法、結果を報告する方法について説明します。

すでに活躍している機械学習の研究者は、博士課程や仕事の中で、論文で言及されている間違いに何度も遭遇したため、この論文は価値があると賞賛した。彼は、これから採用される新人エンジニア全員にそれをよく見てもらうつもりだ。

ガイドラインの意見の多くは、実験を複数回繰り返すことや、厳密な比較のために平均値と分散を報告することなど、研究者が知っておくべき基本的な常識であるにもかかわらず、研究者は利便性のため、あるいはデータをより良く見せるためにそれを無視することを選択するため、人気がないのではないかと考える人が多い。

著者が言及しているよくある間違いを詳しく見てみましょう。

モデリング前の準備

目的に合ったモデルを取得し、論文を無事に発表するためには、モデリング前に以下の 6 つの準備を行う必要があります。

1. 使用するデータセットの調査に時間をかけて、信頼できるソースからのものであり、品質が保証されていることを確認してください。

2. ただし、最終的なモデルの一般化可能性が低下する可能性がある、自分の仮定に基づいて特定の仮定を立てることを避けるために、テストデータを参照しないでください。

3. データの量が十分であることを確認します。もちろん、保証できないこともよくあります。解決策は次のとおりです。

たとえば、モデルを評価するときには、クロス検証データとデータ拡張手法が使用されます(これは、データセット内に特定のタイプのデータが十分にない場合にも使用できます)。

しかし、一般的に、データが不十分な場合、モデルをあまり複雑に設計することはできません。そうしないと、数分で過剰適合してしまいます。

4. 研究が現実とかけ離れることのないように、その分野の専門家に相談してください。専門家は、最も適切なジャーナルや読者層に論文を発表する手助けもしてくれます。

5. 関連文献を検索します。他の人がすでに研究を行っていることがわかったらイライラしますが、論文を書くときに同じ分野を扱いたい理由をどのように説明すればよいでしょうか。

6. モデルの展開の問題を事前に必ず考慮してください。ほとんどの学術研究は最終的には実践されることになりますよね?モデルを設計するときは、実装シナリオのリソースと時間の制約を慎重に考慮してください。

信頼できるモデルを構築する方法

1. テストデータがトレーニングプロセスに参加できないようにします (これは以前に強調しました)。

2. さまざまな ML モデルを試してください。単にコピーして貼り付けるのではなく、特定の問題を分析して、問題に最適なモデルを見つけてください。

「間に合わせる」例としては、数値特徴からなるデータセットにカテゴリ特徴を期待するモデルを適用すること、変数間に依存関係がないことを前提とするモデルを時系列データに適用すること、最新のモデルのみを信頼すること（古いモデルが必ずしも不適切というわけではありません）などが挙げられます。

3. モデルのハイパーパラメータを必ず最適化してください。論文を書きやすくするために、何らかのハイパーパラメータ最適化戦略を使用することをお勧めします。データマイニングの実践に加えて、AutoML テクニックを使用して、モデルとそのハイパーパラメータの構成を最適化できます。

4. ハイパーパラメータの最適化と特徴選択を実行するときは注意してください。テストセットの「漏れ」を防ぎ、モデルのトレーニングが始まる前にデータセット全体に対して特徴選択を実行しないでください。理想的には、モデルのトレーニングに使用されたものとまったく同じデータを使用する必要があります。

これを実現するための一般的な手法は、ネストされたクロス検証（二重クロス検証とも呼ばれます）です。

モデルを堅牢に評価する方法

モデルの不公平な評価は、学術研究の状況を混乱させる可能性があります。

著者は合計5つの点を述べています。

1. トレーニングセットでのモデルのパフォーマンスはほとんど意味がないため、テストセットとトレーニングセット間の独立性が保証されます。

2. 複数のモデルを継続的に反復し、以前のデータを使用して次の構成をガイドする場合は、検証セットを使用し、テストセットは使用しないでください。検証セットに対してモデルを測定できます。スコアが低下し始めたら、モデルが過剰適合し始めていることを示しているため、トレーニングを停止します。

3. パフォーマンスの過小評価や過大評価を防ぐために、モデルを複数回評価します。 10 倍交差検証は最も標準的なアプローチであり、非常に小さなデータクラスを階層化することが重要です。複数の評価の平均と標準偏差を報告する必要があります。また、後で統計テストを使用してモデルを比較する場合に備えて、個々のスコアを記録しておくことも推奨されます。

4.最終的なモデルインスタンスを公平に評価するために、いくつかのテストデータを予約します。

5. 不均衡なデータセットでは精度メトリックを使用しないでください。この指標は分類モデルでよく使用されます。不均衡なデータセットでは、カッパ係数またはマシューズ相関係数 (MCC) 指標を使用する必要があります。

モデルを公平に比較する方法

これは非常に重要なステップですが、意外にも多くの人がこれを正しく行えていません。著者は、同じ環境で異なるモデルを評価し、複数の視点を探求し、統計テストを正しく使用するように注意するよう述べています。

1. 数字が大きいほどモデルが優れているというわけではありません。各モデルは同程度に最適化され、複数回評価され、統計テストを使用してパフォーマンスの違いが有意かどうかを判断する必要があります。

2. モデルが優れていると人々に信じてもらいたい場合は、統計的テストを行う必要があります。

3. 多重比較を修正する: 95% の信頼度レベルで 20 回のペアワイズテストを実行すると、そのうちの 1 つで間違った答えが出る可能性があります。これを多重度効果と呼びます。最も一般的な解はBonferroni 補正です。

4.公開ベンチマークの結果を必ずしも信頼しないでください。

新しい ML モデルを評価するためにベンチマークデータセットを使用することは一般的になっています。これにより結果がより透明になると思われるかもしれませんが、現実には次のようになります。

テストセットへのアクセスが制限されていない場合、トレーニング中に他のユーザーがテストセットを使用していないことを保証できません。何度も使用される公開テストセット上の多くのモデルがテストセットに過剰適合する可能性があり、最終的には楽観的な結果につながります。

5. 組み合わせモデルを検討します。

結果の報告方法

学術研究の目的は自我の拡大ではなく、知識を貢献する機会を得ることです。自分のアイデアを効果的に提供するには、何がうまくいったか、何がうまくいかなかったかを含め、研究の全体像を示す必要があります。

1. 自分の仕事や発見について透明性を保ちましょう。こうすることで、他の人があなたの仕事についてさらに詳しく知ることが容易になります。コードを共有すると、コーディングの際の真剣度も高まります。

2. 複数のテストセットに関するレポートを提供し、各データセットの複数のメトリックを報告します (F 値を報告する場合は、これが F1 スコアなのか、精度と再現率の間の他のバランスなのかを明確にしてください。AUC を報告する場合は、これが ROC 曲線の下の領域なのか PR なのかを示してください)。

3.結果を超えて一般化したり、誇張したりせず、データの限界を認識してください。

4. 統計的有意性を報告するときは注意が必要です。統計学者は、閾値を使用せず、p 値のみを報告して読者に解釈させる方がよいと考えるようになってきています。

統計的有意性に加えて、考慮すべきもう 1 つの点は、2 つのモデル間の違いが実際に重要であるかどうかです。

5. 最後に、モデルを全体的に確認します。パフォーマンスメトリックを報告するだけでなく、モデルが実際に解決できる問題の数を確認します。

今のところはこれですべてです。著者は、一部の意見は物議を醸す可能性があり、テキストは網羅的ではないため、さらなる参考のために多くの参考リンクが提供されていることに留意しています。

さらに、理論は常に実践に遅れをとっています。今日正しいと思ったことが、明日は正しくないかもしれません。したがって、誰もが機械学習にオープンな心で向き合い、最新の技術進歩に遅れずについていき、新しい知識を謙虚に受け入れるべきです。

さらなるご意見はコメント欄に追加していただければ幸いです。

ガイドアドレス:
https://arxiv.org/abs/2108.02497

<<: NLP とは異なり、データ駆動型手法と機械学習は、次の 3 つの理由により NLU に勝てません。

>>: マイクロソフトは1350億のパラメータを持つスパースニューラルネットワークを使用して、各特徴を2値化することで検索結果を改善している。