機械学習の一般的な概念を普及させる

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

機械学習の日常生活: モデリング中またはモデリング途中。

モデリングのプロセス中、錬金術愛好家が「なぜまた過剰適合しているのか」とつぶやいたり、「バイアスと分散のバランスを見つけることが成功の秘訣だ」と自らを慰めたりする声が聞こえてきます。

そこで、専門家ではない人でも楽しく学べるように、今日は機械学習の一般的な概念をいくつか紹介します。

一般化

毎日練習している高校のクラスの成績をどのように評価しますか?

彼を試験に連れて行ってください。

では、機械学習の分野における新しいアルゴリズムが優れているかどうかをどのように判断するのでしょうか?

新しいデータを見てみましょう。

トレーニングセット外のデータを適切に判断したり、適切な出力を取得したりする能力は、機械学習モデルの一般化能力と呼ばれます。

さらに、モデルの一般化能力が弱いと言う方法はたくさんあります。

過剰適合と不足適合

一部のモデルは、データの特徴を抽出するステップで直接失敗します。

トレーニングセットはデータに完全には適合せず、実際のサンプルでのパフォーマンスにも大きな誤差があります。

それは、毎日テスト問題を練習しているのに、問題の答え方のパターンが見つからない高校生のようなものです。試験どころか、模擬テストでも成績が悪いのです。

トレーニングセットとテストセット (実際のサンプル) の両方でモデルのパフォーマンスが低下する状況を、アンダーフィッティングと呼びます。

これは通常、モデルの複雑性が低いこと (単純に悪い) が原因で発生します。

いくつかのモデルはトレーニング中に優れたパフォーマンスを発揮します。

しかし、実際の戦闘になると失敗します。

モデルがトレーニングセットではうまく機能するが、テストセットではうまく機能しないという状況を、オーバーフィッティングと呼びます。

サンプルが不十分であったり、トレーニングデータにノイズ (干渉データ) が多すぎるなど、トレーニングセットの品質が高くない場合は、オーバーフィッティングが発生する可能性があります。

また、モデルの複雑さが実際の問題よりも高く、トレーニングデータの情報を記憶するだけで、見たことのない新しいデータに一般化することがまったくできない可能性もあります。

調理方法がいくつあっても、機械モデルの場合、実際のアプリケーションでは常にパフォーマンスが低下し、一般化エラーが発生します。

このエラーはさらに 2 つの側面に分類できます。

誤差 = バイアス + 分散

バイアスと分散

機械学習の分野では、バイアスとはモデルの予測が実際の結果からどの程度逸脱するかを指します。

△ ここで、f(x)は予測関数、yはサンプルデータの真の値である。

分散は真の値とは関係なく、モデルによって得られた予測値の分布のみを表します。

モデルの場合、バイアスはモデル自体の精度を反映し、分散はモデルの安定性を測定します。

モデルが単純すぎてパラメータが少ない場合、バイアスが高く分散が低くなり、適合不足につながる可能性があります。

一方、モデルが複雑でパラメータの数が多い場合は、分散が高くバイアスが低いという特性を持ち、過剰適合が発生します。

良いマシンモデルとは、バイアスと分散を同時に低くすることを追求することのようです。

しかし、実際のアプリケーションでは、バイアスと分散が同時に達成されないことがよくあります。

バイアスと分散のトレードオフ

まず、次の 2 つのモデルを見てみましょう。

右側のモデルは明らかに左側のモデルよりもはるかに複雑であり、そのため左側のモデルとは逆に、バイアスが低く分散が高くなっています。

このバイアスと分散の間の矛盾がバイアスと分散のジレンマです。

アルゴリズムを改善する場合、バイアスを減らすと分散が増加し、逆もまた同様です。

したがって、高い偏差によるアンダーフィッティングも、高い分散によるオーバーフィッティングも引き起こさない適切なバランスポイントを見つける必要があります。

このバイアスと分散のトレードオフは、実際にはモデルの複雑さのトレードオフです。

なぜこれらの概念が提案されたのでしょうか?

簡単に言えば、コンピューターが人間の一般化能力を学習できるようにするためです。

たとえば、ある場所の住宅面積と住宅価格の関係を利用して、住宅販売者がより適切な販売価格を選択できるようにしたい場合、次の機能のうちどれが最適ですか?

△赤は事前に与えられたサンプルデータ

最初のものは明らかに適合不足です。与えられたデータからは、新しい住宅価格帯に対応する販売可能な価格を予測する機能はおろか、一般的なルールも見つかりませんでした。

3つ目は、過剰適合です。関数パラメータが多すぎるため、すべての変化を捉えようとすると、モデルの汎用性が低下し、予測効果が大幅に低下します。

2 番目の関数は基本的にサンプルデータに適合し、一般的なルールを形成し、新しいデータを予測する機能も確保します。

膨大なデータから一般的なルールを見つけることができるのが、モデルの一般化能力です。

モデルの一般化能力が高ければ高いほど、その汎用性は高まり、完了できるタスクの範囲が広くなります。

しかし、ANN (人工ニューラルネットワーク) などの優れた機械学習モデルであっても、バイアスと分散のトレードオフによって制限されます。

アルゴリズムエンジニアは、モデルが古いデータをより適切に要約し、新しいデータを予測できるようにするために、正則化、バギング、ベイズ法などのさまざまな方法を提案してきました。

そして私たちは、最終的に、現在利用可能な最も強力な汎用モデルである人間の脳に限りなく近い機能を備えた機械学習モデルを構築したいと考えています。

<<: OpenAIは、歪んだ見解なしにAIが話すようにするために、わずか80のテキストを使用している

>>: AIはたった1語で手書きを真似できる、ディープフェイクテキスト版が登場、ネットユーザー「すごくリアル」

Raft アルゴリズムの原理と CMQ への応用 (パート 1)

ブログ

サプライチェーン管理における自動化の重要性

ブログ

Pythonを使用して機械学習モデルを作成する方法

ブログ

分裂の統一へ！ OMG-Seg: すべてのセグメンテーションタスクに対応する 1 つのモデル

ブログ

2019 年に知っておくべき機械学習向け Python ライブラリトップ 10

ブログ

AR テクノロジーは自動車メーカーにとって次の焦点となるのでしょうか?

ブログ

説明書不要で様々な家具や家電製品に使用できる初の具現化3Dグラフィックモデルシステム

ブログ

人工知能のルーツを解読する

ブログ

機械学習を活用して人事部門の時間を節約する方法

ブログ

機械学習の一般的な概念を普及させる

一般化

過剰適合と不足適合

バイアスと分散

バイアスと分散のトレードオフ

なぜこれらの概念が提案されたのでしょうか?

Raft アルゴリズムの原理と CMQ への応用 (パート 1)

サプライチェーン管理における自動化の重要性

Pythonを使用して機械学習モデルを作成する方法

分裂の統一へ！ OMG-Seg: すべてのセグメンテーションタスクに対応する 1 つのモデル

2019 年に知っておくべき機械学習向け Python ライブラリトップ 10

AR テクノロジーは自動車メーカーにとって次の焦点となるのでしょうか?

説明書不要で様々な家具や家電製品に使用できる初の具現化3Dグラフィックモデルシステム

人工知能のルーツを解読する

機械学習を活用して人事部門の時間を節約する方法

推薦する

人工知能が建設業界にもたらす変化

百度の于有平氏：すべての開発者が平等かつ便利にAI機能にアクセスできるようにする

CityDreamer: ワンクリックで境界のない 3D 都市を生成

OpenAIは、かつてAGIロボットの開発に取り組んだロボット工学チームを解散。創設者：最良の決断

FPGA と GPU を使用したニューラルネットワークの作成

ビジネス界におけるAIと自動化の変革的役割

メタバースがますます熱を帯びる中、開発者はどのような主要テクノロジーを掘り下げていくべきでしょうか?