エントロピーを理解する: 機械学習のゴールドスタンダード

エントロピーを理解する: 機械学習のゴールドスタンダード

[[335033]]

決定木からニューラルネットワークへ

TL;DR: エントロピーはシステム内の混沌の尺度です。 エントロピーは、精度や平均二乗誤差などの他のより厳密な指標よりも動的であるため、決定木からディープ ニューラル ネットワークに至るまでのアルゴリズムを最適化するためにエントロピーを使用すると、速度とパフォーマンスが向上することが示されています。

エントロピーは機械学習のいたるところに存在し、決定木の構築からディープニューラルネットワークのトレーニングまで、機械学習における重要な指標です。

エントロピーは物理学に由来しており、システム内の無秩序性や予測不可能性を表す尺度です。 たとえば、箱の中に 2 つのガスが入っているとします。最初は、2 つのガスは完全に分離可能なので、システムのエントロピーは低くなります。 しかし、しばらくするとガスが混ざり合い、システムのエントロピーが増加します。 孤立したシステムではエントロピーは決して減少せず、外部からの力がなければ混沌は減少しないと主張する人もいます。

たとえば、コイントスを考えてみましょう。コインを 4 回投げて、[裏、表、表、裏] という事象が発生した場合です。 あなた (または機械学習アルゴリズム) が次のコイン投げを予測するとしたら、システムには高いエントロピーが含まれているため、確実に結果を予測できます。 一方、[表、表、裏、裏] という事象を伴う重み付けされたコインはエントロピーが極めて低く、現在の情報に基づくと、次の結果はほぼ確実に表になると言えます。

データ サイエンスに当てはまるほとんどの状況は、天文学的に高いエントロピーと極めて低いエントロピーの間のどこかに当てはまります。 エントロピーが高いということは情報利得が低いことを意味し、エントロピーが低いということは情報利得が高いことを意味します。 情報取得は、システム内の純度、つまりシステム内で利用可能な純粋な知識の量と考えることができます。

決定木は、その構築にエントロピーを使用します。一連の条件にわたる入力をできるだけ効率的に正しい結果に導くために、エントロピーが低い (情報ゲインが高い) 特徴分割 (条件) がツリーの上位に配置されます。

低エントロピー条件と高エントロピー条件の概念を説明するために、クラスが色 (赤または青) でマークされ、分割が垂直の破線でマークされている仮想クラス機能を検討します。

決定木は特徴のエントロピーを計算し、モデル全体のエントロピーが最小化されるように(そして情報ゲインが最大化されるように)それらを配置します。 数学的には、これはエントロピーが最も低い条件を一番上に置くことで、その下にある分割ノードのエントロピーを減らすことができることを意味します。

決定木のトレーニングで使用される情報ゲインと相対エントロピーは、2 つの確率質量分布 p(x) と q(x) 間の「距離」として定義されます。 これは、Kullback-Leibler (KL) ダイバージェンスまたは Earth Mover の距離とも呼ばれ、敵対的ネットワークのトレーニングで使用され、生成された画像のパフォーマンスを元のデータセットの画像と比較して評価します。

ニューラル ネットワークでよく使用される損失関数の 1 つはクロス エントロピーです。 カテゴリ、スパース、バイナリのクロスエントロピーのいずれであっても、このメトリックは高性能ニューラル ネットワークのデフォルトの損失関数の 1 つです。 また、ロジスティック回帰など、ほぼすべての分類アルゴリズムの最適化にも使用できます。 エントロピーの他の応用 (結合エントロピーや条件付きエントロピーなど) と同様に、クロス エントロピーは、エントロピーの厳密な定義のさまざまなバリエーションの 1 つであり、特定の応用に適しています。

カルバック・リーバー・ダイバージェンス (KLD) と同様に、クロスエントロピーも 2 つの分布 p と q の関係を扱い、それぞれ真の分布 p と近似分布 q を表します。 ただし、KLD は 2 つの分布間の相対エントロピーを測定しますが、クロス エントロピーは 2 つの分布間の「合計エントロピー」を測定します。

このメトリックは、モデル分布 q を使用して分布 p を持つソースからのデータをエンコードするために必要な平均ビット数として定義されます。 ターゲット分布 p と近似値 q を考えるとき、p の代わりに q を使用してイベントを表すために必要なビット数を削減したいと考えます。 一方、相対エントロピー (KLD) は、分布 q 内の p からのイベントを表すために必要な追加ビットの数を測定します。

クロスエントロピーはモデルのパフォーマンスを測定するための回りくどい方法のように思えるかもしれませんが、いくつかの利点があります。

  • 精度/エラーベースのメトリックには、トレーニング データの順序に対する極端な敏感さ、信頼性を考慮していないこと、誤った結果につながる可能性のあるさまざまなデータ プロパティに対する堅牢性の欠如など、複数の問題があります。 これらはパフォーマンスの非常に大まかな指標です (少なくともトレーニング中は)。
  • クロスエントロピーは情報コンテンツを測定するため、すべてのボックスをチェックすることを単純に重視するメトリックよりも動的で信頼性があります。 予測とターゲットは、回答を待つ質問のリストではなく、分布として表示されます。
  • これは確率の特性と密接に関連しており、シグモイドおよびソフトマックス活性化(最後のニューロンにのみ使用される場合でも)で特に役立ち、消失勾配問題を軽減するのに役立ちます。 ロジスティック回帰は、バイナリクロスエントロピーの一種として考えることができます。

エントロピーは常に最適な損失関数であるとは限りませんが (特に目的関数 p が適切に定義されていない場合)、エントロピーはパフォーマンスを向上させるように見えることが多く、これはエントロピーがあらゆる場所に存在することを示しています。

機械学習でエントロピーを使用すると、クロスエントロピー、相対エントロピー、情報ゲインなどの概念を通じて、その中核となるコンポーネント (不確実性と確率) を適切に捉えることができます。 エントロピーは、モデル構築に非常に必要とされる未知の値の処理に特化しています。 モデルがエントロピーを最適化すると、強化された知識と目的意識を持って予測不可能な平原をさまようことができるようになります。

<<:  人工知能は法曹界に新たな形を与えています。法務テクノロジー企業はどのようにしてクライアントにグローバルなサービスを提供できるのでしょうか?

>>:  エッジウェアハウジング: 9 つの新しいウェアハウジング技術

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

人工知能は大腸がんを診断できる:精度は86%にも達する

AIは心臓病の予測やアルツハイマー病の検出など、医療分野で幅広い応用が期待されています。新たな研究に...

AIの力を活用してITを進化させる

[[436560]]世界中の IT プロフェッショナルは、膨大なデータに圧倒され、本当に重要な洞察を...

ガートナー: 人工知能に関するよくある誤解5つ

[[259329]] 2018年上半期現在、中国には922社の人工知能企業があり、そのうち97%は今...

産業用AIが製造業に革命を起こす5つの方法

人工知能 (AI) は、製造業において総合設備効率 (OEE) と生産時の初回歩留まりを向上させるた...

2つのAIデートがネットワーク全体の注目を集めました。アルゴリズムがどれだけ強力であっても、失敗は免れません

この世界では、AI チャットボットを扱ったことがある人は、いつかは自分の言葉によって大人としての尊厳...

知らないうちにAIを構築しているかもしれない

[[189866]]私たちは皆、検証コードに精通しています。reCAPTCHA は、人間と機械を区別...

...

人工知能は伝染病との戦いにおいてどのような役割を果たすのでしょうか?

新型コロナウイルスは間違いなく2020年で最もホットな話題であり、流行の防止はすべての国にとって最優...

コンテナで AI アプリケーションを実行する際に知っておくべき 6 つの原則

現在、IT 開発の 2 つの中核トレンドとして、AI/ML とコンテナが企業で広く利用されています。...

アルゴリズムのインテリジェントなアップグレードにより、将来のデジタルライフはより明るくなります

[[120716]]研究者たちは現在、検索結果の改善、自動運転車、スマート携帯電話のアップグレード、...

...

脳コンピューターインターフェース技術における大きな進歩!麻痺した男性が初めて運動と触覚を取り戻す

[[324403]]図1:2010年に重度の脊髄損傷を負った後、バークハートは運動皮質にマイクロチッ...