機械学習に関する7つの誤解

ディープラーニングを学ぶ過程では、私たちが当たり前だと思っているさまざまな噂やさまざまな「こだわり」に遭遇することがよくあります。この記事では、機械学習研究におけるよくある 7 つの噂をまとめています。その多くは以前から私たちが抱いていた概念ですが、最近の新しい研究によって疑問視されています。したがって、機械学習を進めていく際には、次の 7 つの誤解を確認してください。

では、次の 7 つの質問はあなたの「こだわり」ですか?

TensorFlow はテンソル演算ライブラリですか?
いずれにしても、モデルをデバッグするにはテストセットを使用する必要があります...
トレーニングデータは、モデルのトレーニングに役立つ可能性があります。
バッチ正規化 (BN) なしで超深層残差ネットワークをトレーニングするにはどうすればよいでしょうか?
注意メカニズムは畳み込みネットワークの代替ではないでしょうか?
いずれにしても、画像データセットは実際の分布に近いものになるはずです。
ローカル入力が分類を左右するというのは、まさにニューラルネットワークの目的ではないでしょうか。

誤解1: TensorFlowはテンソル演算ライブラリである

実は、TensorFlow はテンソル演算ライブラリではなく行列演算ライブラリであり、両者の違いは非常に大きいです。

NeurIPS 2018 の論文「行列とテンソル式の高次導関数の計算」で、研究者らは、テンソル計算に基づく新しい自動微分ライブラリが、大幅にコンパクトな式ツリーを持つことを示しました。これは、テンソル計算ではインデックス表記法が使用されるため、順方向モードと逆方向モードが同じように処理されるためです。

対照的に、行列計算では表記上の便宜のためにインデックスが隠蔽されるため、自動微分化のための式ツリーが過度に複雑になることがよくあります。

行列乗算演算がある場合: C=AB。前進モードではあり、後進モードではあります。掛け算を正しく行うには、掛け算の順序と転置の使用に注意する必要があります。機械学習開発者にとっては、これは単なる表記上の混乱ですが、プログラムにとっては計算上のオーバーヘッドになります。

ここに、間違いなくもっと意味のある別の例があります。行列式 c=det(A) を見つける例です。前進モードではあり、後進モードではあります。ここでは、両方のパターンが異なる演算で構成されているため、同じ式ツリーを使用して両方のパターンを表すことはできないことは明らかです。

一般に、TensorFlow やその他のライブラリ (Mathematica、Maple、Sage、SimPy、ADOL-C、TAPENADE、TensorFlow、Theano、PyTorch、HIPS autograd など) に実装されている自動微分化法では、順方向モードと逆方向モードで異なる非効率的な式ツリーが生成されます。テンソル計算では、乗算の可換性はインデックス表記によって維持されるため、これらの問題を簡単に回避できます（具体的な実装原理については、元の論文をお読みください）。

研究者らは、バックプロパゲーションを通じて3つの異なる問題で新しい逆モード自動微分法のパフォーマンスをテストし、ヘッセ行列の計算にかかる時間を測定しました。

最初の問題は、xAx 形式の二次関数を最適化すること、2 番目の問題はロジスティック回帰を解くこと、3 番目の問題は行列分解を解くことです。

CPU 上では、新しい方法は、TensorFlow、Theano、PyTorch、HIPS autograd などの一般的な自動微分ライブラリよりも 2 桁高速です。

研究者らは、GPU では新しい方法による高速化がさらに顕著であり、一般的なライブラリよりも約 3 桁も優れていることを発見しました。

重要性: 現在のディープラーニングライブラリを使用して 2 次関数または高次関数を導出すると、必要以上にコストがかかります。これには、ヘッセ行列などの一般的な 4 次テンソルの計算 (例: MAML、および 2 次ニュートン法) が含まれます。幸いなことに、2 次関数は「ディープ」学習では一般的ではありません。しかし、「従来の」機械学習では、SVM 双対問題、最小二乗回帰、LASSO、ガウス過程などが広く使用されています。

誤解2: 機械学習の研究者は検証にテストセットを使用しない

最初の機械学習コースでは、データセットをトレーニングセット、検証セット、テストセットに分割する方法を学習します。モデルはトレーニングセットでトレーニングされ、その効果は検証セットで評価されます。得られた効果は、実際のシナリオで非常に優れた効果を持つモデルを得るために、開発者がモデルを調整するためのガイドとして使用されます。モデルが適切に調整され、実際のシナリオでモデルが実際にどのように動作するかを偏りなく推定できるようになるまで、テストセットは使用しないでください。開発者がトレーニングまたは検証中にテストセットを使用して「不正行為」をすると、モデルがデータセット内のバイアスに過剰適合するリスクが発生する可能性があります。このタイプの偏った情報は、データセットの外部では一般化できません。

競争の激しい機械学習研究の環境では、新しいアルゴリズムやモデルは通常、テストセットでのパフォーマンスによって評価されます。したがって、研究者がテストセットのパフォーマンスが SOTA ではない論文を書いたり提出したりする理由はありません。これは、機械学習研究の分野では、一般的に、検証にテストセットを使用することが一般的な現象であることを示しています。

この「不正行為」行為はどのような影響を及ぼすのでしょうか?

「CIFAR-10 分類器は CIFAR-10 に一般化できるか?」という論文で、研究者は CIFAR-10 の新しいテストセットを作成してこの問題を研究しました。これを実現するために、研究者たちは、初期のデータ収集プロセスで行ったのと同じように、Tiny Images ライブラリから画像を解析し、注釈を付けました。

一般的なテストセットは過剰適合につながりますか? テストセットに基づいてパラメーターを調整することを本当に制御できますか?

研究者らが CIFAR-10 を選んだのは、それが機械学習コミュニティで最も広く使用されているデータセットの 1 つであり、NeurIPS 2017 で 2 番目に人気のあるデータセット (MNIST に次ぐ) だったためです。 CIFAR-10 データセットの作成プロセスも十分に文書化されており、公開されています。巨大な Tiny Images ライブラリには、十分な粒度の細かいラベル付きデータも含まれているため、分布の変化を最小限に抑えてテストセットを再構築できます。

研究者らは、多くのニューラルネットワークモデルで、元のテストセットから新しいテストセットに切り替えると、精度が大幅に低下することを発見しました (4% - 15%)。ただし、各モデルの相対的な順位は比較的安定しています。

一般的に、パフォーマンスの優れたモデルの精度は、パフォーマンスの劣るモデルの精度よりも低下が少なくなりました。これは嬉しいニュースです。なぜなら、少なくとも CIFAR-10 では、研究コミュニティがより優れた機械学習モデルや手法を発明するにつれて、「不正行為」による一般化の損失が軽減されつつあるからです。

誤解 3: ニューラルネットワークのトレーニングプロセスでは、トレーニングセット内のすべてのデータポイントが使用されます。

データは新しい原油（富）であるとよく言われますが、データが多いほど、比較的データが少なく、過剰にパラメータ化されたディープラーニングモデルをより適切にトレーニングできるようになります。

ICLR 2019 の論文「ディープニューラルネットワーク学習中の例の忘却に関する実証的研究」で、研究者らは、いくつかの一般的な小規模画像データセットに重大な冗長性があることを示しました。驚くべきことに、CIFAR-10 では、テストセットの精度に大きな影響を与えることなく、データポイントの 30% を削除できます。

ニューラルネットワークが t+1 の時点で誤分類を行い、t の時点で正確な分類を行った場合、これを忘却イベントと呼びます。ここで、「回」は、ネットワークのトレーニングに使用される確率的勾配降下法 (SGD) の更新回数を指します。忘却イベントの記録を可能にするために、研究者らは、データセットの個々の例ではなく、一度に SGD 更新を完了するために使用される少量のデータバッチのみでニューラルネットワークを実行しました。忘却イベントを経験しないサンプルは、忘れられないサンプルと呼ばれます。

研究者らは、MNIST のデータの 91.7%、permutedMNIST のデータの 75.3%、CIFAR-10 のデータの 31.3%、CIFAR-100 のデータの 7.62% が忘れられないサンプルであることを発見しました。これは直感的に理解できます。画像データセットの多様性と複雑さが増すにつれて、ニューラルネットワークはより多くの例を忘れることになるからです。

忘れられないサンプルと比較すると、忘れられやすいサンプルはより珍しい、ユニークな特徴を示すようです。研究者は、決定境界を区切るように見えることから、これを SVM のサポートベクトルに例えています。

対照的に、忘れられないサンプルは冗長な情報のほとんどをエンコードします。サンプルが忘れ難さによってソートされている場合、忘れ難いサンプルのほとんどを削除することでデータセットを圧縮できます。

CIFAR-10 では、テストセットの精度に影響を与えずに 30% のデータを削除できますが、35% のデータを削除すると、テストの精度がわずか 0.2% 低下します。削除されるデータの 30% が、忘却可能性に基づいてではなくランダムに選択された場合、約 1% の大幅な低下が発生します。

同様に、CIFAR-100 では、テストセットの精度に影響を与えずに 8% のデータを削除できます。

これらの調査結果は、SVM のトレーニングと同様に、ニューラルネットワークのトレーニングには大きなデータ冗長性があり、サポートベクターではないデータはモデルの決定に影響を与えることなく削除できることを示唆しています。

意義: トレーニングを開始する前にどのサンプルが忘れられないかを判断できれば、これらのデータを削除することでストレージスペースとトレーニング時間を節約できます。

誤解 4: 非常に深い残差ネットワークをトレーニングするにはバッチ正規化が必要です。

長い間、「ランダムな初期パラメータ値と勾配降下法を使用して、教師あり目的関数（正しい分類の対数確率など）を直接最適化することでディープネットワークをトレーニングしても、うまく機能しない」と考えられてきました。

それ以来、勾配降下法を使用してディープニューラルネットワークをトレーニングしやすくするための、巧妙なランダム初期化方法、活性化関数、最適化方法、残差接続などのその他の構造上の革新が数多く登場しました。

しかし、本当のブレークスルーはバッチ正規化（およびその後の他の正規化手法）の導入によってもたらされました。バッチ正規化により、ディープネットワークの各層のアクティブ化値のスケールを制限することで、勾配消失や爆発などの問題が軽減されました。

今年の論文「Fixup Initialization: Residual Learning Without Normalization」では、正規化手法を導入せずにバニラ SGD を使用して 10,000 層のディープネットワークを効果的にトレーニングできることが示されたことは注目に値します。

研究者らは、CIFAR-10 で異なる深さの残差ネットワークの 1 エポックのトレーニング結果を比較しました。そして、標準的な初期化方法は 100 層のネットワークでは失敗しましたが、Fixup とバッチ正規化はどちらも 10,000 層のネットワークでは成功したことがわかりました。

研究者らは理論分析を通じて、「特定のニューラル層の勾配ノルムは、ネットワークの深さとともに増加する下限値を持つと予想される」こと、つまり勾配爆発問題を証明した。

この問題を回避するために、Fixup の中心的な考え方は、L と m の両方に依存する係数を使用して、L 個の残差ブランチのそれぞれにある m 個のニューラル層の重みを調整することです。「

Fixup を使用すると、高い学習率で CIFAR-10 上の 110 層の深層残差ネットワークをトレーニングでき、バッチ正規化でトレーニングされた同じアーキテクチャのネットワークに匹敵するテストセットのパフォーマンスを実現できます。

研究者らはさらに、正規化を行わなくても、Fixup に基づくニューラルネットワークが ImageNet データセットと英語 - ドイツ語の機械翻訳タスクで同等のテスト結果を達成したことを実証しました。

神話5: 注意 > 畳み込み

機械学習の分野では、注目メカニズムが畳み込みよりも優れた代替手段であるというコンセンサスが高まっています。重要なのは、Vaswani らが「分離可能な畳み込みの計算コストは、ポイントごとのフィードフォワード層と組み合わせた自己注意層の計算コストとほぼ同じである」と指摘していることです。

新しい GAN ネットワークでも、自己注意は標準的な畳み込みよりも長期のマルチスケール依存関係をモデル化するのに適していることが示されています。

ICLR 2019 の論文「軽量で動的な畳み込みによる注意の軽減」で、研究者らは、長期依存関係をモデル化する際の自己注意メカニズムのパラメータの有効性と効率性に疑問を投げかけ、自己注意にヒントを得た畳み込みバリアントの方がパラメータ効率が高いことを示しました。

軽量畳み込みは深さ方向に分離可能で、時間次元でソフトマックス正規化を実行し、チャネル次元で重みを共有し、各時間ステップで同じ重みを再利用します (RNN ネットワークと同様)。動的畳み込みは、各タイムステップで異なる重みを使用する軽量畳み込みです。

これらの技術により、軽量畳み込みと動的畳み込みは、従来の分離不可能な畳み込みよりも数桁効率的になります。

研究者らはまた、これらの新しい畳み込みが、同等かそれより少ない数のパラメータを使用して、機械翻訳、言語モデル化、抽象要約などのタスクにおいて自己注意ベースのベースライン結果を達成または上回ることができることを実証しました。

誤解6: 画像データセットは自然界における実際の画像の分布を反映している

今日のニューラルネットワークは、物体認識タスクにおいてすでに実際の人間よりも優れていると考えるかもしれません。これは正しくありません。 ImageNet などの選択された画像データセットでは、そのパフォーマンスは実際の人間のパフォーマンスよりも優れている可能性があります。しかし、自然界の実際の画像に関しては、物体認識において彼らは普通の大人より優れていることは決してありません。これは、現在の画像データセットから抽出された画像が、現実世界全体から抽出された画像と同じではなく、両者の分布が同じではないためです。

こちらは 2011 年の古い論文「Unbiased Look at Dataset Bias」です。この論文では、研究者が 12 の一般的な画像データセットに基づいて特定の画像がどのデータセットからのものかを判断する分類器をトレーニングすることで、データセットバイアスがあるかどうかを調査しようとしました。

ランダム推測の精度は 1/12 = 8% になるはずですが、実験結果の精度は 75% を超えています。

研究者らは、HOG 特徴に基づいて SVM をトレーニングし、その精度が 39% に達し、ランダムな推測よりも高いことを発見しました。現在、高度な CNN を使用してこの実験を再現すると、より優れた分類器が得られる可能性が高くなります。

画像データセットが自然界の実際の画像を真に表現している場合、特定の画像がどのデータセットからのものかを判断することはできないはずです。

しかし、データ内の偏りにより、各データセットは識別可能になります。たとえば、ImageNet には「レースカー」がたくさん存在しますが、これは通常の意味での「車」の理想的な概念を表しているとは言えません。

研究者はデータセット上で分類器をトレーニングし、他のデータセット上でそのパフォーマンスを評価して、データセットの価値をさらに測定します。この指標によると、LabelMe と ImageNet はバイアスが最も少ないデータセットであり、「通貨バスケット」のスコアは 0.58 です。すべてのデータセットのスコアは 1 未満であり、他のデータセットでトレーニングされたモデルの精度が低いことを示しています。データセットの偏りがない理想的な状況では、1 を超えるスコアがいくつかあるはずです。

誤解 7: サリエンシーマップはニューラルネットワークを解釈するための堅牢な方法です。

ニューラルネットワークはブラックボックスモデルと見なされることが多いですが、その解釈については多くの調査が行われてきました。顕著性マップ、または特徴やトレーニング例に重要度スコアを割り当てる他の同様の方法は、このための非常に一般的な形式です。

画像が特定の方法で分類される理由と、画像の特定の部分がモデルの意思決定プロセスで果たした役割を要約できることは、非常に魅力的なトピックです。顕著性マップを計算するための既存のいくつかの方法は、通常、特定の画像上のニューラルネットワークのアクティブ化と、ネットワーク内で伝播される勾配に基づいています。

AAAI 2019 で発表された論文「ニューラルネットワークの解釈は脆弱である」の中で、研究者らは、知覚できない外乱を導入することで特定の画像の顕著性マップを破損する可能性があることを示しました。

「オオカバマダラがオオカバマダラとして分類されるのは、羽の模様のためではなく、背景にある目立たない緑の葉のためである。」

高次元画像は通常、ディープニューラルネットワークによって確立された決定境界の近くにあるため、敵対的攻撃に対して脆弱です。敵対的攻撃は画像を決定境界の反対側に移動しますが、敵対的解釈攻撃は画像を同じ決定領域内の決定境界の輪郭に沿って移動します。

この攻撃を実行するために研究者が使用した基本的な方法は、Goodfellow が提案した FGSM (高速勾配符号法) 法の変形であり、これは効果的な反撃を実現するために導入された最も初期の方法の 1 つです。これは、ニューラルネットワークの解釈可能性を攻撃するために、他のより最近の洗練された敵対的攻撃も使用できることを示唆しています。

重要性: 医療画像処理などの重要なシナリオでディープラーニングが普及するにつれて、ニューラルネットワークによって導き出された結論をどのように解釈できるかを理解することがますます重要になります。たとえば、CNN ネットワークが MRI 画像上の小さな斑点を悪性の癌性腫瘍として識別することは素晴らしいことですが、非常に脆弱な解釈方法に基づいている場合は、これをあまり真剣に受け止めるべきではありません。

オリジナルリンク: https://crazyoscarchang.github.io/2019/02/16/seven-myths-in-machine-learning-research/

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: 元従業員が内部事情を暴露: 10年経っても、なぜGoogleはナレッジグラフを解明できないのか?

>>: 20年後、AIはデータセンターアーキテクチャを再び分裂に引きずり込むのでしょうか?

機械学習に関する7つの誤解

自動運転事故の安全問題をどう解決するか？

人工知能がクラウド業界を変える5つの方法

自動運転はどこまで徹底できるのか？運転席をなくすことさえできる。

DeepMind のニューラルネットワーク記憶研究を分析: 動物の脳をシミュレートして継続的な学習を実現する

ベイジアンディープラーニングと大規模ベースモデルの融合: 効率的で説明可能な AI のための戦略

AIプロジェクトの失敗はもはや人材不足のせいにはされない

自動運転分野でファーウェイの「異常運転行動」関連特許が認可：認識精度向上が可能

自動化はウエスタン証券のデジタル従業員にとっての出発点

推薦する

現在、CIOは企業におけるGenAIの応用価値を慎重に検討している。

エンドツーエンドの自動運転までどれくらい遠いのでしょうか?

人工知能を活用して顧客サービスを向上させる方法

Pytorch フレームワークを使用するよりも 200 倍高速です。 0.76秒後、ラップトップ上のCNNはMNISTを解いた。

自動運転ソリューションプロバイダーは高精度マップをどのように活用するのでしょうか?

スタートアップ企業がAIと患者チップを組み合わせて医薬品開発を加速

HKU Alibabaの「Visual AI Anywhere Door」は、ワンクリックでオブジェクトをあらゆるシーンにシームレスに転送できる

AIは消費者行動にどのような影響を与えるのでしょうか?

2024年にAIが顧客体験に与える影響

安定性AIの今年最初の大きなモデル：特別に書かれたコード、18のプログラミング言語をサポート、10万のコンテキストを持ち、Appleのラップトップでオフラインで実行可能

ユニバーサルミュージックは、著作権問題でOpenAIの創設者が所有するAI企業Anthropicを訴えた。