エントロピーを理解する: 機械学習のゴールドスタンダード

[[335033]]

決定木からニューラルネットワークへ

TL;DR: エントロピーはシステム内の混沌の尺度です。エントロピーは、精度や平均二乗誤差などの他のより厳密な指標よりも動的であるため、決定木からディープニューラルネットワークに至るまでのアルゴリズムを最適化するためにエントロピーを使用すると、速度とパフォーマンスが向上することが示されています。

エントロピーは機械学習のいたるところに存在し、決定木の構築からディープニューラルネットワークのトレーニングまで、機械学習における重要な指標です。

エントロピーは物理学に由来しており、システム内の無秩序性や予測不可能性を表す尺度です。たとえば、箱の中に 2 つのガスが入っているとします。最初は、2 つのガスは完全に分離可能なので、システムのエントロピーは低くなります。しかし、しばらくするとガスが混ざり合い、システムのエントロピーが増加します。孤立したシステムではエントロピーは決して減少せず、外部からの力がなければ混沌は減少しないと主張する人もいます。

たとえば、コイントスを考えてみましょう。コインを 4 回投げて、[裏、表、表、裏] という事象が発生した場合です。あなた (または機械学習アルゴリズム) が次のコイン投げを予測するとしたら、システムには高いエントロピーが含まれているため、確実に結果を予測できます。一方、[表、表、裏、裏] という事象を伴う重み付けされたコインはエントロピーが極めて低く、現在の情報に基づくと、次の結果はほぼ確実に表になると言えます。

データサイエンスに当てはまるほとんどの状況は、天文学的に高いエントロピーと極めて低いエントロピーの間のどこかに当てはまります。エントロピーが高いということは情報利得が低いことを意味し、エントロピーが低いということは情報利得が高いことを意味します。情報取得は、システム内の純度、つまりシステム内で利用可能な純粋な知識の量と考えることができます。

決定木は、その構築にエントロピーを使用します。一連の条件にわたる入力をできるだけ効率的に正しい結果に導くために、エントロピーが低い (情報ゲインが高い) 特徴分割 (条件) がツリーの上位に配置されます。

低エントロピー条件と高エントロピー条件の概念を説明するために、クラスが色 (赤または青) でマークされ、分割が垂直の破線でマークされている仮想クラス機能を検討します。

決定木は特徴のエントロピーを計算し、モデル全体のエントロピーが最小化されるように（そして情報ゲインが最大化されるように）それらを配置します。数学的には、これはエントロピーが最も低い条件を一番上に置くことで、その下にある分割ノードのエントロピーを減らすことができることを意味します。

決定木のトレーニングで使用される情報ゲインと相対エントロピーは、2 つの確率質量分布 p(x) と q(x) 間の「距離」として定義されます。これは、Kullback-Leibler (KL) ダイバージェンスまたは Earth Mover の距離とも呼ばれ、敵対的ネットワークのトレーニングで使用され、生成された画像のパフォーマンスを元のデータセットの画像と比較して評価します。

ニューラルネットワークでよく使用される損失関数の 1 つはクロスエントロピーです。カテゴリ、スパース、バイナリのクロスエントロピーのいずれであっても、このメトリックは高性能ニューラルネットワークのデフォルトの損失関数の 1 つです。また、ロジスティック回帰など、ほぼすべての分類アルゴリズムの最適化にも使用できます。エントロピーの他の応用 (結合エントロピーや条件付きエントロピーなど) と同様に、クロスエントロピーは、エントロピーの厳密な定義のさまざまなバリエーションの 1 つであり、特定の応用に適しています。

カルバック・リーバー・ダイバージェンス (KLD) と同様に、クロスエントロピーも 2 つの分布 p と q の関係を扱い、それぞれ真の分布 p と近似分布 q を表します。ただし、KLD は 2 つの分布間の相対エントロピーを測定しますが、クロスエントロピーは 2 つの分布間の「合計エントロピー」を測定します。

このメトリックは、モデル分布 q を使用して分布 p を持つソースからのデータをエンコードするために必要な平均ビット数として定義されます。ターゲット分布 p と近似値 q を考えるとき、p の代わりに q を使用してイベントを表すために必要なビット数を削減したいと考えます。一方、相対エントロピー (KLD) は、分布 q 内の p からのイベントを表すために必要な追加ビットの数を測定します。

クロスエントロピーはモデルのパフォーマンスを測定するための回りくどい方法のように思えるかもしれませんが、いくつかの利点があります。

精度/エラーベースのメトリックには、トレーニングデータの順序に対する極端な敏感さ、信頼性を考慮していないこと、誤った結果につながる可能性のあるさまざまなデータプロパティに対する堅牢性の欠如など、複数の問題があります。これらはパフォーマンスの非常に大まかな指標です (少なくともトレーニング中は)。
クロスエントロピーは情報コンテンツを測定するため、すべてのボックスをチェックすることを単純に重視するメトリックよりも動的で信頼性があります。予測とターゲットは、回答を待つ質問のリストではなく、分布として表示されます。
これは確率の特性と密接に関連しており、シグモイドおよびソフトマックス活性化（最後のニューロンにのみ使用される場合でも）で特に役立ち、消失勾配問題を軽減するのに役立ちます。ロジスティック回帰は、バイナリクロスエントロピーの一種として考えることができます。

エントロピーは常に最適な損失関数であるとは限りませんが (特に目的関数 p が適切に定義されていない場合)、エントロピーはパフォーマンスを向上させるように見えることが多く、これはエントロピーがあらゆる場所に存在することを示しています。

機械学習でエントロピーを使用すると、クロスエントロピー、相対エントロピー、情報ゲインなどの概念を通じて、その中核となるコンポーネント (不確実性と確率) を適切に捉えることができます。エントロピーは、モデル構築に非常に必要とされる未知の値の処理に特化しています。モデルがエントロピーを最適化すると、強化された知識と目的意識を持って予測不可能な平原をさまようことができるようになります。

<<: 人工知能は法曹界に新たな形を与えています。法務テクノロジー企業はどのようにしてクライアントにグローバルなサービスを提供できるのでしょうか?

>>: エッジウェアハウジング: 9 つの新しいウェアハウジング技術