ディープラーニングは錬金術のようなものです。どんな迷信的な習慣がありますか?ユーザー: ランダムシード=42 は良い結果をもたらします

[[441423]]

機械学習分野の研究者は皆、パラメータ調整という課題に直面していますが、言うほど簡単ではありません。パラメータ調整には、徹夜の論文研究や GitHub 検索が必要になることが多く、多数の実験が必要になります。これは時間がかかり、多くの計算能力を消費するだけでなく、多くのエンジニアの頭を悩ませます。

[[441424]]

次のような疑問を抱かずにはいられない人もいるでしょう。「パラメータ調整は形而上学なのでしょうか？モデルは明らかに適切に調整されているのに、なぜ効果はいつも私の想像とは多少異なるのでしょうか？」

最近、reddit の投稿がネットユーザーの間で「機械学習のパラメータ調整の分野には、どのような迷信的な見解や慣習があるのか」という白熱した議論を巻き起こしました。

元の投稿アドレス:

https://www.reddit.com/r/MachineLearning/comments/rkewa3/d_what_are_your_machine_learning_superstitions/?sort=confidence

パラメータ調整の「秘密」について

機械学習では、ハイパーパラメータの調整は必須のスキルです。トレーニングプロセス中に損失や精度などの監視指標を観察することで、モデルの現在のトレーニング状態を判断できます。ハイパーパラメータをタイムリーに調整してモデルをより科学的にトレーニングすると、リソースの使用率が向上します。

誰もが自分の実際の経験に基づいてモデルのパラメータを調整するでしょう。最終的に、ほとんどの研究者が到達する経験は次のようになります。

ランダムシード = 0 では悪い結果になる
ランダムシード = 42 で良い結果が得られます
k-Meansにおける偶数値k = 洞察力のあるセグメンテーション

この経験の要約を、ML のいわゆる「迷信的な実践」と見なす人もいますが、実際にはそうではなく、ほとんどすべての学者がこれを行っています。

しかし、一部のネットユーザーはこの経験の要約に懐疑的です。ネットユーザーの@SlashSeroは、このような状況が非常に有名な科学出版物でさえ発生していること、特にクロスバリデーションが実行不可能であるか、他のパラメータ選択の影響を受けやすいためハイパーパラメータ最適化(HPO)が実行不可能な機械学習アプリケーションで発生していることを残念に思っています。 NeurIPS の論文のどれだけが、非常に透明なコードベースと、簡単に再現可能なクロス検証研究を備えており、その研究によって昨年より 0.5 ～ 1% パフォーマンスが向上したことを証明しているかを見てください。

さらに、多くの場合、研究者への信頼が原因で、新しいディープラーニングモデルは実際には従来のモデルよりも大幅に優れたパフォーマンスを発揮しません。コミュニティの現状として、モデルが実際に示すパフォーマンスを実現し、再現性と透明性を確保するために多くの時間を費やす必要があるが、これは報われない仕事であるということを認識する必要があります。コンピューティングリソースが消費されるだけでなく、急速に発展している分野で論文を発表したり認知されたりする機会を失うことにもなりかねません。

モデルの最高のパフォーマンスを実現するために、ネットユーザーは錬金術における自身の経験を共有しました。一部のネットユーザーは、ランダムシードは10の倍数、できれば1000でなければならないと考えています（ただし、この答えは他の人によって反論されました）。

ランダムシード設定に加えて、一部の研究者は独自の科学的研究のヒントをいくつか共有しました。

モデルのトレーニングプロセスはほぼブラックボックスです。プロセス中にプログラムエラーが発生した場合、検出が困難です。一部のネットユーザーは、いつでもどこでも「印刷」することを良い習慣だと提案しています。プログラムを初めて実行するときは、可能な限りすべてを印刷してください。「印刷」により、プログラムがどのステップにあるか、無限ループに陥っているかどうかがわかります... 実際、ほとんどのプログラマーはこれを行います。

「印刷」に加えて、ログ記録も非常に必要だと言う人もいます。実験室で科学研究を行う場合、プログラムを実行するのに数日かかることもありますが、長時間電源を入れたままにしていた実験室で突然停電したり、サーバーがクラッシュしたりするなど、常に問題が発生することがあります。そのため、いつでもどこでもログを保存することも、すべてのプログラマーにとって必須です。ログ記録を確認することで、プログラムがどこで実行されているかを確認し、モデルのパフォーマンスを大まかに推定し、エラーをチェックすることができます。

一部のネットユーザーも自身の脱落体験を共有し、脱落率が20％を超えるとモデルの回復は困難になると考えている。しかし、これはあくまでもこのネットユーザーの経験です。90%ドロップアウトを使用したところ、モデルのパフォーマンスが最高だったという人もいます。

さらに、一部のネットユーザーは、バッチサイズは 2 の累乗であるべきだと結論付けました。

上記はネットユーザーによってまとめられた ML 錬金術のヒントです。

形而上学の論文は再現が難しい

パラメータ調整は有用だが、ネットユーザーの@ostrich-scalpは「ほとんどの論文の結果はナンセンスだ。キャリアをかけてこれらの研究を実装し、実稼働で使用できる適切なモデルを作成できると期待するのは大きな間違いだ」と厳しく反論した。

上記の @SlashSero は続けて、「ACM、IEEE、IAAA、NeurIPS で、著者への信頼だけで出版されている論文がどれだけあるかは驚くべきことです。今では、すべての有名なジャーナルやカンファレンスが著者にオープンソース化とコードの再現を求めていると思われるかもしれませんが、これは例外です。」

明らかに、機械学習はテクノロジーです。ニューラルネットワークのブラックボックスの性質により解釈可能性は制限されますが、私たちが直面している問題には高いレベルで経験的に対処できます。データの読み込み、フレームワークの構築、システムの稼働、メトリックの設定、パラメータの調整とエラーの分析、特徴エンジニアリングの実行、結果の視覚化などを行う必要があります。最終的に、数回の反復の後、推論の精度は向上しなくなります。

では、なぜさまざまな形而上学的現象が現れ続け、私たちの魂を苦しめるのでしょうか? 私たちはこの主題について十分に理解していないようです。

しかし、NIPS 2017 カンファレンスのチューリング賞受賞者である Judea Pearl 氏の基調講演の最後のページを思い出してください。

データサイエンスは、データの合理的な解釈を促進する場合にのみ科学と呼ぶことができます。

しかし、心配しないでください。ディープラーニングのパラメータ調整には常にいくつかのヒントがあり、大まかに次のようにまとめることができます。これらは迷信的な慣習ではなく、参考のみを目的としています。

適切な学習率を見つける。非常に重要なパラメータとして、学習率の最も適切な値は、さまざまなスケール、さまざまなバッチサイズ、さまざまな最適化方法、さまざまなデータセットに対して不確実です。私たちにできる唯一のことは、トレーニング中に現在の状態に最も適した学習率を探し続けることです。

重みの初期化。他のトリックに比べると、あまり頻繁には使用されません。事前トレーニング済みモデルのないフィールドのみが重み自体を初期化するか、モデル内のニューラルネットワークの最後のいくつかの完全接続層の重みを初期化します。一般的な重み初期化アルゴリズムは「kaiming_normal」または「xavier_normal」です。

データセット処理、主にデータのスクリーニングとデータの強化。

マルチモデル融合は、論文の結果を改善するための究極の武器です。ディープラーニングでは、異なる初期化方法で同じパラメータを使用する、クロス検証を通じてさまざまなパラメータの最適なグループを選択する、RNN や従来のモデルなどの異なるモデルを線形融合するなど、一般的にこれを実現する方法はいくつかあります。

コサインアニーリングとウォームリスタートによる確率的勾配降下法。コサインアニーリングとは、学習率がコサイン関数のようにゆっくり減少することを意味し、ホットリスタートとは、学習プロセス中に学習率がゆっくり減少し、その後突然回復（再起動）し、その後ゆっくりと減少し続けることを意味します。

小さなデータセットをオーバーフィットしてみます。正規化/ドロップアウト/データ拡張をオフにし、トレーニングセットのごく一部を使用して、ニューラルネットワークを数エポックトレーニングします。損失ゼロを達成できることを確認してください。そうでない場合は、何か問題がある可能性があります。

パラメータを調整する方法は人それぞれですので、自分に合ったものを選択してください。

最後にお聞きしたいのですが、錬金術におけるあなた独自の秘密は何ですか?

参考リンク:

https://www.jiqizhixin.com/articles/2020-10-21-3
https://picture.iczhiku.com/weixin/message1609136710592.html

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: インドのチームが人間のように考えることができる自動運転アルゴリズムを開発

>>: 人工知能は「絶滅危惧」言語の保護に大きな役割を果たすかもしれません！

ディープラーニングは錬金術のようなものです。どんな迷信的な習慣がありますか?ユーザー: ランダムシード=42 は良い結果をもたらします

パラメータ調整の「秘密」について

形而上学の論文は再現が難しい

AES と RSA 暗号化アルゴリズムの違いと適用可能なシナリオの簡単な分析

では、「ジェミニ・キラー」が興行的に失敗したとしても、どうだろう？アン・リーのAIによる顔修正技術は、肌を滑らかにしたり顔を変えたりする映画よりもはるかに優れている

掃除機はいくらかかりますか？掃除ロボットの原理とハードウェア構成の詳細な説明

人間と機械のコラボレーション: セキュリティ業務における人工知能

5Gは医療業界に革命を起こす

ホスピタリティ業界における職場の変革 - 人間と機械の関係

2015年9月のプログラミング言語ランキング: 新しいインデックスアルゴリズムにより急上昇が解消

推薦する

5年後、農業ロボットの市場価値は引き続き増加し、約880億ドルに達するだろう。

10年間で47億ドルを費やしたEUの「ヒューマン・ブレイン・プロジェクト」は失敗したのか？人間の脳を再構築するアルゴリズムは手の届かないところにあり、結果は断片的である

北京の平昌冬季オリンピック閉会式にAIとモバイクの自転車シェアリングが8分間強制的に介入

ITリーダーが避けるべき6つのGenAIの落とし穴

2018 年の AI における画期的なテクノロジーのトップ 10 をご紹介します。いくつご存知ですか?

90%が赤字、中国の人工知能企業は破産の波に直面する可能性

顔認識にもマスターキーはあるのでしょうか？

JD.comクラウドファンディング599元、業界最安値を突破、Nokelock X1セルフパワースマートドアロックがイノベーション革命をリード

最初の機械学習APIをデプロイする

問題が VPN の問題であることを証明するにはどうすればよいですか?コンピュータ科学者は簡単な方法を発見した

同社はコストバランスに苦戦しており、AI部門で猛烈な採用を行い、他の部門では人員削減を行っている。

パスワード危機: ディープラーニングがパスワードクラッキングを加速!

TensorRT が顔認識を高速化する方法