機械学習分野の研究者は皆、パラメータ調整という課題に直面していますが、言うほど簡単ではありません。パラメータ調整には、徹夜の論文研究や GitHub 検索が必要になることが多く、多数の実験が必要になります。これは時間がかかり、多くの計算能力を消費するだけでなく、多くのエンジニアの頭を悩ませます。
次のような疑問を抱かずにはいられない人もいるでしょう。「パラメータ調整は形而上学なのでしょうか?モデルは明らかに適切に調整されているのに、なぜ効果はいつも私の想像とは多少異なるのでしょうか?」 最近、reddit の投稿がネットユーザーの間で「機械学習のパラメータ調整の分野には、どのような迷信的な見解や慣習があるのか」という白熱した議論を巻き起こしました。 元の投稿アドレス: https://www.reddit.com/r/MachineLearning/comments/rkewa3/d_what_are_your_machine_learning_superstitions/?sort=confidence パラメータ調整の「秘密」について機械学習では、ハイパーパラメータの調整は必須のスキルです。トレーニングプロセス中に損失や精度などの監視指標を観察することで、モデルの現在のトレーニング状態を判断できます。ハイパーパラメータをタイムリーに調整してモデルをより科学的にトレーニングすると、リソースの使用率が向上します。 誰もが自分の実際の経験に基づいてモデルのパラメータを調整するでしょう。最終的に、ほとんどの研究者が到達する経験は次のようになります。
この経験の要約を、ML のいわゆる「迷信的な実践」と見なす人もいますが、実際にはそうではなく、ほとんどすべての学者がこれを行っています。 しかし、一部のネットユーザーはこの経験の要約に懐疑的です。ネットユーザーの@SlashSeroは、このような状況が非常に有名な科学出版物でさえ発生していること、特にクロスバリデーションが実行不可能であるか、他のパラメータ選択の影響を受けやすいためハイパーパラメータ最適化(HPO)が実行不可能な機械学習アプリケーションで発生していることを残念に思っています。 NeurIPS の論文のどれだけが、非常に透明なコード ベースと、簡単に再現可能なクロス検証研究を備えており、その研究によって昨年より 0.5 ~ 1% パフォーマンスが向上したことを証明しているかを見てください。 さらに、多くの場合、研究者への信頼が原因で、新しいディープラーニング モデルは実際には従来のモデルよりも大幅に優れたパフォーマンスを発揮しません。コミュニティの現状として、モデルが実際に示すパフォーマンスを実現し、再現性と透明性を確保するために多くの時間を費やす必要があるが、これは報われない仕事であるということを認識する必要があります。コンピューティング リソースが消費されるだけでなく、急速に発展している分野で論文を発表したり認知されたりする機会を失うことにもなりかねません。 モデルの最高のパフォーマンスを実現するために、ネットユーザーは錬金術における自身の経験を共有しました。一部のネットユーザーは、ランダムシードは10の倍数、できれば1000でなければならないと考えています(ただし、この答えは他の人によって反論されました)。 ランダムシード設定に加えて、一部の研究者は独自の科学的研究のヒントをいくつか共有しました。 モデルのトレーニング プロセスはほぼブラック ボックスです。プロセス中にプログラム エラーが発生した場合、検出が困難です。一部のネットユーザーは、いつでもどこでも「印刷」することを良い習慣だと提案しています。プログラムを初めて実行するときは、可能な限りすべてを印刷してください。「印刷」により、プログラムがどのステップにあるか、無限ループに陥っているかどうかがわかります... 実際、ほとんどのプログラマーはこれを行います。 「印刷」に加えて、ログ記録も非常に必要だと言う人もいます。実験室で科学研究を行う場合、プログラムを実行するのに数日かかることもありますが、長時間電源を入れたままにしていた実験室で突然停電したり、サーバーがクラッシュしたりするなど、常に問題が発生することがあります。そのため、いつでもどこでもログを保存することも、すべてのプログラマーにとって必須です。ログ記録を確認することで、プログラムがどこで実行されているかを確認し、モデルのパフォーマンスを大まかに推定し、エラーをチェックすることができます。 一部のネットユーザーも自身の脱落体験を共有し、脱落率が20%を超えるとモデルの回復は困難になると考えている。しかし、これはあくまでもこのネットユーザーの経験です。90%ドロップアウトを使用したところ、モデルのパフォーマンスが最高だったという人もいます。 さらに、一部のネットユーザーは、バッチサイズは 2 の累乗であるべきだと結論付けました。 上記はネットユーザーによってまとめられた ML 錬金術のヒントです。 形而上学の論文は再現が難しいパラメータ調整は有用だが、ネットユーザーの@ostrich-scalpは「ほとんどの論文の結果はナンセンスだ。キャリアをかけてこれらの研究を実装し、実稼働で使用できる適切なモデルを作成できると期待するのは大きな間違いだ」と厳しく反論した。 上記の @SlashSero は続けて、「ACM、IEEE、IAAA、NeurIPS で、著者への信頼だけで出版されている論文がどれだけあるかは驚くべきことです。今では、すべての有名なジャーナルやカンファレンスが著者にオープンソース化とコードの再現を求めていると思われるかもしれませんが、これは例外です。」 明らかに、機械学習はテクノロジーです。ニューラル ネットワークのブラック ボックスの性質により解釈可能性は制限されますが、私たちが直面している問題には高いレベルで経験的に対処できます。データの読み込み、フレームワークの構築、システムの稼働、メトリックの設定、パラメータの調整とエラーの分析、特徴エンジニアリングの実行、結果の視覚化などを行う必要があります。最終的に、数回の反復の後、推論の精度は向上しなくなります。 では、なぜさまざまな形而上学的現象が現れ続け、私たちの魂を苦しめるのでしょうか? 私たちはこの主題について十分に理解していないようです。 しかし、NIPS 2017 カンファレンスのチューリング賞受賞者である Judea Pearl 氏の基調講演の最後のページを思い出してください。 データ サイエンスは、データの合理的な解釈を促進する場合にのみ科学と呼ぶことができます。 しかし、心配しないでください。ディープラーニングのパラメータ調整には常にいくつかのヒントがあり、大まかに次のようにまとめることができます。これらは迷信的な慣習ではなく、参考のみを目的としています。
パラメータを調整する方法は人それぞれですので、自分に合ったものを選択してください。 最後にお聞きしたいのですが、錬金術におけるあなた独自の秘密は何ですか? 参考リンク:
[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です] この著者の他の記事を読むにはここをクリックしてください |
<<: インドのチームが人間のように考えることができる自動運転アルゴリズムを開発
>>: 人工知能は「絶滅危惧」言語の保護に大きな役割を果たすかもしれません!
2月8日、ホワイトハウス大統領府は最新の改訂版「重要かつ新興の技術」リスト(CETリスト)を発表しま...
市場調査会社リサーチ・アンド・マーケッツが最近発表したレポートによると、人工知能の世界のヘルスケア市...
夏が来ると、人類の最大の敵の一つである蚊が活発になります。彼らは2~3匹で「家に侵入」し、「ブンブン...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
近年、画像生成技術は多くの重要な進歩を遂げました。特に、DALLE2やStable Diffusio...
ChatGPT のバイラルな成功により、テクノロジー企業間で AI 製品を市場に投入するための激しい...
Transformerモデルは2017年の誕生以来、自然言語処理やコンピュータービジョンなど多くの分...
多くの組織と連携する顧客関係管理 (CRM) コンサルタントとして、AI を主要な検討テーマとして見...