ディープラーニング システムは、新しいデータに対してどの程度のパフォーマンス (一般化) を発揮しますか? パフォーマンスはどの程度ですか? AI システムの信頼性と信頼性を確立するには、アルゴリズムの一般化能力を評価する必要があります。
AI は信頼できるのでしょうか? AI は人間がお酒を飲むときと同じように無謀になるのでしょうか? AI が起動すると、世界を破壊するのでしょうか? 統計学習理論の重要性は何ですか? AI システムは、AI が起動されたときにアルゴリズムが期待どおりに機能できるように、安全で信頼できるものでなければなりません。 AIアルゴリズムが適切に機能することを保証することは、AIの採用と信頼を高めるために不可欠です[5]。 また、欧州委員会が発行した「信頼できるAIのための倫理ガイドライン」では、意思決定者はアルゴリズムの一般化能力を理解する必要があると明記されている。 しかし、モデルの一般化(一般化理論)の研究分野への投資は依然として不十分です。現在実行可能で実現可能な唯一の標準的なアプローチは、データ分割、検証セット、テスト セットを用意することです。しかし、アルゴリズムの一般化能力を定量化できない場合にテスト(ホールドアウト)セットで推定することは理にかなっていますが、このプロセスは非常にトリッキーで、データ漏洩のリスクがあり、追加の独立性仮定(独立性検証のパラメータはホールドアウトセットとは別に選択される)が必要であり、pハッキング[20]などの手法と混同される可能性があります。 一般化とは何ですか? 上記の研究の主な前提は、データが潜在的な未知の分布 D によって生成されるということです。統計学習では分布に直接アクセスするのではなく、トレーニング サンプル S が与えられ、S の各要素が D によって生成され、独立して同一に分布していることを前提とします。学習アルゴリズムは、関数(仮説のクラス)の空間 H から関数(仮説 h)を選択します。ここで、H = {f(x, α)} であり、α はパラメータ ベクトルです。 したがって、仮説hの一般化誤差は、分布Dから選択されたサンプルxの期待誤差と経験的損失(与えられたサンプルSの損失)との差として定義することができます[4,11]。 私たちの仕事は、一般化誤差の上限を設定し、一般化誤差がどれほど深刻になるかを確認することです。 従来のアプローチ: モデル機能 従来の一般化理論では、仮説クラス H の複雑さ (容量) に基づいて一般化能力モデルが確立されます。簡単に言えば、クラスの「容量」は、そのクラスに適合できるデータセットの数によって決まります。クラスの容量が大きいほど、クラスの柔軟性は高まりますが、過剰適合が発生する可能性も高くなります。 [..] 容量制御では、より柔軟なモデルを使用して良好な適合性を得、過剰適合する非常に柔軟なモデルを破棄します。[8] 仮説クラス H の複雑性をどのように定義するのでしょうか? 従来の一般化理論の概念には、VC 次元、Rademacher 複雑性、PAC-Bayes 境界が含まれます。 VC の維持と死滅するニューロン VC (Vapnik-Chervonenkis) 次元は、関数の曲率を評価することで関数クラスの複雑さを測定する方法です。クラス H の VC 次元は、H によって分割できるサンプル ポイントの最大数です。関数によってサンプル ポイントのグループを分割できる場合、グループ内のすべてのサンプル ポイントにどのようなバイナリ ラベルが割り当てられていても、このタイプのサンプルは完全に分離できます。 [5] Zhangらによる実験[7]によると、実際のデータで訓練された深層ネットワークの真の「パラメータ複雑度」は現在のところ不明であり、20年以上前のBartlettのVC計算(#ノード*#レイヤー)は大まかな上限にすぎないことが示されています[2]。 驚くべきことではないかもしれないが、死にゆくニューロンに関する実験データは、ネットワークが十分に大きく、非線形活性化関数ReLUを使用すると、多くの重みがゼロになることを示しています[13]。 では、モデルの VC 次元をどのように推定するのでしょうか? PAC の学習可能性と Rademacher の複雑性 PAC (Probably Approximately Correct) 学習可能性の定義は、あらゆる分布 D および Є、δ>0 に対して、確率 1-δ で「Є 最適」仮説を見つけるアルゴリズムが存在するというだけです。分布ごとに 1 つのアルゴリズムを持つべきだという強い議論があります。つまり、代わりに Rademacher 複雑度は特定の未知の分布 D に対して定義されます。 [23]に基づくラデマッハ複雑性の概略導出 つまり、Rademacher 複雑度は、仮説クラス H がランダムな ±1 バイナリ ラベルに対応する能力を測定します。 VC 次元とは対照的に、Rademacher 複雑度は分布に依存し、実数値関数の任意のクラス (離散値関数だけでなく) に使用できます。 Bartlett の VC 次元計算と同様に、Rademacher 複雑性にはディープラーニングの有効な一般化境界がありません。実際、実験テストでは、多くのニューラル ネットワークが任意のラベルでトレーニング セットに完全に適合することが示されているため、対応するモデル H の Rademacher 複雑度も完璧であることが期待されます。もちろん、これはラデマッハ複雑度の単純な上限に過ぎず、現実世界の設定では有用な一般化境界をもたらさない[7]。 つまり、理論的な研究はまだ有効な成果を生み出しておらず、解決策は「錬金術」やいくつかのベストプラクティスからしか見つけることができません。実践により、Rademacher のような複雑な学習アーキテクチャの場合、複雑さを本当に軽減する唯一の方法は、トレーニング済みの分類器を使用し、ホールドアウト セットを通じて欠落している一般化を検出することであることがわかっています。実際、世界中の実践者は誰でも、無意識のうちにこれを行っています。 Zhangら([7])の研究で導き出された結論は、この分野では超えるものはなく、広く認められている。 新しいアプローチ 今日の機械学習モデルは比較的複雑であり、古典的な一般化理論を使用して計算することは困難であり、学習システムの設計を導くことは困難である[2]。一般化理論に対する古典的なアプローチは記述的なものに過ぎない。言い換えれば、一般化が起こらない場合は複雑性尺度(VC次元とラデマッハー)を使用して証明できるが、実践を導く規範的な原則は存在しない[2]。 さらに、実験テストでは、ほぼ無限の容量を持つ仮説のクラスが実際にはうまく機能する可能性があることが示されています。これはディープラーニング モデルだけでなく、他の機械学習手法にも当てはまります。たとえば、カーネル (ラジアル ベース関数など) を持つ一部のサポート ベクター マシン (SVM) には、無限の VC 次元があります。より単純な線形モデルは、私たちを欺くことさえあります。過剰パラメータ化された線形モデルの仮説空間は、任意のトレーニングデータを記憶することができ、パラメータのノルムが任意に大きくなるにつれて、この空間は、パラメータが真のパラメータから任意に離れていても、トレーニングおよびテストエラーを任意にゼロに近づけることができます(ゼロを含む)。[12]ディープラーニングは、従来の一般化理論手法を非常に重視しています。過剰パラメータ化が非常に高い場合や容量が大きい場合(ランダムにラベル付けされたデータのトレーニングエラーがゼロ)でも[1]、ディープネットワークの主な問題は、オーバーフィッティングの欠如です。 現在、人々は複雑さの全体的な考え方を再検討しています。ディープラーニングに関しては、多くの新しい一般化手法も登場しています。 規範に基づく能力測定 容量メトリックを計算する 1 つの方法は、容量メトリックを、マージンによって正規化された重みマトリックスのノルム メトリックとして見ることです。データ サンプルの出力クラス マージンは、モデルによって正しいクラスに割り当てられた値と、他のすべてのクラスの最大値を引いた差です。 規範ベースの尺度はモデル内のパラメータの数だけに依存するわけではないため、その容量の潜在能力をよりよく表すことができる可能性がある[14]。ランダムラベルで訓練されたモデルは真のラベルで訓練されたモデルよりも常に複雑であり、したがって後者の一般化能力はより有利であるため、ノルムベースのメトリクスはディープニューラルネットワーク(DNN)の一般化を説明できます[14]。 上の図は、ランダム ラベルを使用してモデルを学習する複雑さが、実際のラベルを使用してモデルを学習する複雑さよりも常に高いため、これらの尺度によって一般化を説明できることを示しています。さらに、トレーニングセットのサイズが大きくなるにつれて[22]、2つの複雑さの間のギャップも大きくなります。 容量の関連する別の尺度は、ネットワークのリプシッツ定数です。リプシッツ定数は、重み行列のスペクトルノルムの積です。スペクトルノルムは行列の最大の特異値であり、行列はベクトルを伸ばすことができます[9]。 リプシッツ定数は過剰リスク(テスト誤差からトレーニング誤差を引いたもの)に関連しています。しかし、過剰リスクにもかかわらず、この指標は時間の経過とともに増加します[4]。その増加はリプシッツ定数の間隔によって相殺され、相殺を繰り返すことで増加が正常化されます(図4を参照)。 圧縮方法 一般化の基本定理によれば、トレーニングセットにm個の例がある場合、トレーニングデータとテストデータの誤差の差として定義される一般化誤差はsqrt(N'/m)のオーダーとなり、N'はネットワークの有効パラメータ数(または複雑さの尺度)である[23,24]。 N個の訓練可能なパラメータを持つ行列Cを取り、それをより少ないパラメータ(N')でCとほぼ同じ訓練誤差を持つ別のC'に圧縮してみます。一般化定理によれば、訓練例の数がN'を超える限り、C'(圧縮されたネット!)はうまく一般化します[23,24]。 圧縮アプローチは非常に魅力的です。一方では、DNN の一般化境界を決定することができます。その一方で、実用的かつ運用上の幅広い利点も得られます。
「宝くじチケット方式」以外にも、興味深いネットワーク圧縮方式は数多くあります。非常に魅力的なアイデアの1つはTensorNetworksに触発されたものです。DNNの完全に接続された層の重み行列を表示する「Tensor Train」の概念は、有望な実験結果を示しています[17]。 このような圧縮には通常、圧縮されたネットワークの再トレーニングが必要ですが、[25]では、[23,24]が提供する圧縮の基本定理と一般化理論に基づく方法では考慮されていないネットワーク圧縮方法の調査が行われています。 結論は ディープラーニングアルゴリズムの信頼性を確保するには、効果的な(厳密な)一般化境界を導出する必要があります。従来の方法 (VC 次元、Rademacher) ではこの問題に対する答えが得られず、新しい方法はまだ研究されていません。 |
<<: Logreduce: Python と機械学習でログノイズを除去する
>>: 彼の人工知能ツールは生きた細胞の内部を覗くことができる
最も注目されているテクノロジー企業OpenAIと世界一の富豪マスク氏との壮大な戦いは新たなレベルに達...
これまで、多くのメディアがニューラルネットワークの「ブラックボックス」問題について熱く議論してきまし...
最近、数年間業界で働いているスタンフォード大学の AI 卒業生が、AI と機械学習のキャリアのために...
AIと機械学習はデータセンターをよりスマートにする上でますます重要な役割を果たしている今日の企業では...
コンピューター ビジョン モデルのパフォーマンスが低下する理由は、アーキテクチャ設計上の欠陥、代表的...
ガートナーが発表した2017年の「技術成熟度レポート」によると、5G、人工汎用知能、ディープラーニン...
この論文では、ビデオゲームをプレイするためのディープラーニングアルゴリズムをレビューし、さまざまな種...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
自動車のインテリジェンスの急速な発展に伴い、新たなスマートな運転体験を実現し、スマートな移動を再定義...
30年以上沈黙していた「人工知能」という言葉は、ここ2年で非常に人気が高まり、テクノロジー企業の主...
今週、Meta のオープンソース Llama2 が AI コミュニティ全体で人気を博しました。その結...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...