機械学習の7つの大罪：信頼性に影響を与える7つのよくある間違い

機械学習は私たちの世界を変える素晴らしいツールです。機械学習（特にディープラーニング）が従来の方法よりはるかに優れている優れたアプリケーションは数多くあります。画像分類用の Alex-Net から画像セグメンテーション用の U-Net まで、コンピュータービジョンと医療画像処理の分野で大きな成功を収めてきました。

[[328746]]

最近、機械学習の専門家である Andreas Maier 氏が、機械学習に関してよくある 7 つの間違いを記事で挙げました。

これらの問題は深刻で、誤った結論につながる可能性があり、機械学習の専門家でさえ仕事でそのような間違いを犯します。これらのエラーの多くは、コードと実験のセットアップを詳細に調べて解明する必要があるため、専門家であっても見つけるのが困難です。これらの誤りに陥っていないことを完全に確信した場合にのみ、作業を進めたり、作業を公表したりしてください。

間違い1: データとモデルの誤用

初心者はデータやモデルを誤用するという間違いを犯しがちです。よくあるケースでは、トレーニングデータをテストデータとして使用するなど、実験設計に欠陥があります。単純な分類器を使用することで、ほとんどの質問に対して 100% の認識率が得られました。より複雑で深いモデルでは、精度は 100% ではなく、98～99% になる可能性があります。

したがって、最初の写真でこのような高い認識率が得られた場合は、実験の設定を慎重に確認する必要があります。ただし、新しいデータが使用されると、モデルは完全に崩壊し、ランダムな推測よりも悪い結果、つまり精度が 1/K 未満 (K はクラス数) になり、たとえば 2 クラスの問題の場合は 50% 未満になる可能性があります。

同様に、パラメータの数を増やしてトレーニングデータセットを完全に記憶することで、モデルを簡単に過剰適合させることもできます。もう 1 つのバリエーションは、小さすぎてアプリケーションを代表しないトレーニングセットを使用することです。これらのモデルはすべて、新しいデータ、つまり実際のアプリケーションシナリオで使用すると機能しなくなる可能性があります。

間違い2: 不公平な比較

機械学習の専門家でさえもこの間違いを犯します。これは通常、新しい方法が最先端の方法よりも優れていることを実証したい場合に提出されます。特に研究論文では、自らのアプローチの優位性を査読者に納得させるために、これに屈することがよくあります。

最も単純なケースでは、公開リポジトリからモデルをダウンロードし、そのモデルを微調整したり適切なハイパーパラメータ検索を行ったりせずに使用します。このモデルは、現在の問題のために開発されており、テストデータで良好なパフォーマンスを得るためにすべてのパラメータを調整します。

このエラーの最近の例としては、Isensee らによる論文が挙げられます。この論文では、オリジナルの U-net が 10 の異なる問題で 2015 年以降に提案された方法のほぼすべての改良よりも優れていることが示されています。

したがって、新しく提案された方法を適用するときは、常に新しいモデルに対して同じ量のパラメータ調整を実行する必要があります。

間違い3: 小さな進歩を遂げる

すべての実験を行った後、最先端のモデルよりも優れた結果を生み出すモデルをようやく見つけました。ただし、この時点ではまだ完了ではありません。機械学習におけるすべては不正確です。

さらに、学習プロセスは確率的な性質を持つため、実験は多くのランダムな要因の影響を受けます。このランダム性を考慮するには、統計テストを実行する必要があります。

これは通常、異なるランダムシードを使用して実験を複数回実行することによって実行されます。

この方法では、すべての実験にわたる平均パフォーマンスと標準偏差を報告できます。 t 検定などの有意性検定を使用すると、改善は単なる偶然に対する確率であることが分かります。

結果が有意義なものになるためには、この確率は少なくとも 5% または 1% 未満である必要があります。これを行うのに統計の専門家である必要はありません。

認識率の比較や相関関係の比較などを計算するオンラインツールがあります。反復を実行する場合は、必ず Bonferroni 補正を適用してください。これは、希望する有意水準を同じデータの反復回数で割るものです。

間違い4: 難読化と誤ったデータ

データ品質は機械学習の最大の落とし穴の 1 つです。これは、AI に深刻な偏見や人種差別的傾向をもたらす可能性があります。しかし、問題はトレーニングアルゴリズムではなく、データ自体にあります。

間違い5: 不適切なラベル付け

プロタゴラスはかつて「万物の尺度は人間である」と言いました。これは、多くの分類問題のラベルや真実にも当てはまります。

私たちは、人間が生成したカテゴリを反映するように機械学習モデルをトレーニングします。多くの問題では、クラスを定義するとクラスは明確になると考えます。しかし、データを見ると、曖昧さが含まれていることがよくあることがわかります。

間違い6: クロスバリデーションの混乱

これはエラー 1 とほぼ同じですが、偽装されたエラーです。

したがって、専門家であってもこのような間違いを犯す可能性があります。一般的なセットアップでは、最初のステップでモデル、アーキテクチャ、または機能を選択する必要があります。データサンプルが少数しかないため、クロス検証を使用して各ステップを評価することにしました。

したがって、データを N 個のフォールドに分割し、N-1 個のフォールドを持つ機能/モデルを選択し、N 番目のフォールドで評価することができます。これを N 回繰り返すと、平均パフォーマンスを計算し、パフォーマンスの良い機能を選択できます。

優れた特徴がどのようなものかがわかったので、クロス検証を使用して機械学習モデルに最適なパラメータを選択しましょう。これは正しいように思えますが、最初のステップですでにすべてのテストデータを確認し、すべての観測値を平均化しているため、欠陥があります。

この方法では、データ内のすべての情報が次のステップに引き継がれ、完全にランダムなデータからでも良い結果を得ることができます。

これを回避するには、最初のステップが 2 番目のクロス検証ループ内にネストされているネストされた手順に従う必要があります。もちろん、これは非常に高価であり、多数の実験を実行することになります。この場合、同じデータに対して多くの実験を行っただけで、偶然にも良い結果が得られる可能性があることに注意してください。

したがって、統計的検定と Bonferroni 補正も必須です (エラー 3 を参照)。私は通常、大規模なクロス検証実験を避け、トレーニング/検証/テストを分割できるように、より多くのデータを取得するように努めます。

間違い7: 結果を過剰に解釈する

これまでのすべての間違いに加えて、現段階で機械学習でよく犯す最大の間違いは、結果を過剰に解釈し、誇張することだと思います。

もちろん、機械学習によって作成されたソリューションには誰もが満足しており、それを誇りに思う権利があります。ただし、目に見えないデータや状態に基づいて結果を推測することは避けるべきです。

発言には注意する必要があり、すべての主張は事実に基づく必要があります。

議論の中で、その方法の一般的な適用可能性を推測に基づいて想定していることを明確にすることはできますが、実際にそれについて主張するには、実験的または理論的な証拠を提示する必要があります。最近では、自分のアプローチにふさわしい注目度を与えることが難しくなっています。重要な点を指摘することは役立ちますが、冷静になって事実に忠実に従うことをお勧めします。

<<: 仕事と生産を再開、「新しいインフラ」が人工知能の能力を加速させる

>>: 生体認証ウェアラブルでCOVID-19の発生を予測できると研究で判明