Huaweiは封鎖を突破し、GoogleのDropout特許をベンチマークし、独自のアルゴリズムDisoutをオープンソース化

Huaweiは封鎖を突破し、GoogleのDropout特許をベンチマークし、独自のアルゴリズムDisoutをオープンソース化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

米国による封鎖が続いているにもかかわらず、ファーウェイの独自開発技術はすでに基礎となるAIアルゴリズムレベルにまで浸透しており、研究成果を業界にオープンソース化し始めている。

ちょうど今、Huawei Noah Lab は、Google が特許を取得したDropout アルゴリズムを直接ターゲットとする Disout アルゴリズム (アドレスは記事の最後にあります) をオープンソース化しました。

さらに、Huawei の新しいアルゴリズムは、多くのタスクで Dropout を上回ります。たとえば、ImageNet でトレーニングされた ResNet-50 は 78.76% の精度を達成できますが、Google の Dropout シリーズの方法では 76.8% に過ぎません。

このアルゴリズムの基礎となる論文は AAAI 2020 に掲載され、公開されました。 Huaweiが提案するDisoutが具体的にどのようなものなのかについても紹介されています。

ファーウェイが自社開発したDisout:複数のAIタスクがDropoutを上回る

特許を申請する際、Google は Dropout を「ニューラル ネットワークの過剰適合に対処するためのシステムと方法」と定義しました。

核となるアイデアは、ニューラル ネットワークをトレーニングする順方向伝播プロセス中に、Dropout によって、ニューロンの活性化値が一定の確率 p で動作を停止するようにすることができ、これを「ドロップ」と呼びます。これにより、モデルの安定性が向上し、過剰適合現象が軽減されます。

Disout は特徴マップの摂動を研究することでディープ ニューラル ネットワークの一般化能力を高める方法として提案された新しい代替手段です。

簡単に言えば、ネットワークの中間層の Rademacher 複雑度 (ERC) に基づいて、特定のディープ ニューラル ネットワークの一般化誤差の上限を決定することです。

また、特徴マップに摂動が導入され、ネットワークの Rademacher 複雑度が低減され、一般化能力が向上します。

それらの違いは以下の図に示されています。つまり、出力機能は破棄されるのではなく、変化します。

それに比べると、Huawei のアプローチはより効果的です。

Disout は、従来の視覚タスクで優れたパフォーマンスを発揮し、Google Dropout のパフォーマンスを上回るだけでなく、NLP タスクや音声処理タスクでも効果的です。

次に、さまざまなデータ セットでの Disout と Dropout シリーズのメソッドの比較を見てみましょう。

まず、CIFAR-10 データと CIFAR-100 データのテスト精度を比較します。

完全接続層実験では、Huaweiが提案した特徴マップ摂動法でCNNをトレーニングし、85.24%の精度を達成しました。最新のRDdrop法と比較すると、CIFAR-10データセットとCIFAR-100データセットでそれぞれテスト精度が2.13%と1.58%向上しました。

ファーウェイの研究者らは、彼らが提案したDisout法は、モデルの表現能力を維持しながら経験的ラデマッハーの複雑さを効果的に軽減し、より優れたテスト性能を実現できると述べた。

畳み込み層の実験では、Huawei の手法を畳み込み層に適用することでディープ ニューラル ネットワークのパフォーマンスを向上させることができ、DropBlock 手法よりも優れており、それぞれ 0.32% と 0.63% のパフォーマンス向上が見られました。

ImageNetデータセット実験の結果は、Huaweiが提案した特徴摂動法が従来のドロップアウト法に取って代わり、ディープニューラルネットワークのパフォーマンスを向上させるだけでなく、最近提案されたDropblock法のパフォーマンスも向上させることを示しています。

従来のドロップアウト方式と比較して、Disout は精度を 76.80% から 77.71% に向上させ、Block Disout 方式は 78.76% のトップ 1 精度を達成し、他の既存のテクノロジーを上回ります。

ファーウェイの研究者らは、このアプローチにより一般化能力が向上し、元の特徴から有用な情報が保存されるようになると述べている。

さらに、テキストデータセット IMDB と音声データセット UrbanSound8k でも実験を行いました。結果は次のとおりです (上がテキスト、下が音声)。

コアブレイクスルー: 出力機能を破棄するのではなく、混乱させる

では、具体的にはどのように行うのでしょうか?一般化理論を見てみましょう。

一般化理論は、期待されるリスクと経験的リスクの関係を研究します。

画像分類タスクを例にとると、全体的な期待リスクR(fL)とトレーニングセットの経験的リスクは

はい:

ラデマッハ経験的複雑性 (ERC) は、期待リスクと経験的リスクのギャップを定量化するために広く使用されています。その定義は定義 1 に示されています。

定義 1 : 分布 Q からのインスタンス D = {(x,y)} のトレーニング データセットが与えられた場合、ネットワークの経験的 Rademacher 複雑度は次のように定義されます。

ここで、Rademacher変数は{-1, +1}の範囲の独立した一様確率変数です。

経験的ラデマッハ複雑性とマディアミッド不等式を使用すると、定理 1 を通じて期待リスクの上限を導くことができます。

定理1 : >0が与えられた場合、任意の>0に対して、少なくとも1−の確率で、すべての∈に対して、

定理 1 に基づいて、研究者らは、予想されるリスクと経験的リスクのギャップは、特定のニューラル ネットワークとデータセットにおける経験的 Rademacher 複雑度によって制限できることを発見しました。

ERC を直接計算することは難しいため、より一般化されたモデルを得るために、トレーニング フェーズでは通常、ERC の上限または近似値が使用されます。

一般化理論を理解した後、特徴マップの摂動について見てみましょう。

研究者たちは、摂動値を固定するのではなく、ネットワークの ERC を減らすことによって特徴マップの摂動値を学習します

一般に、入力データxiを持つl番目の層の出力特徴fL(xi)に適用される干渉演算は次のように表される。

このうち、εli は特徴マップ上の摂動です。

上記の式における摂動の形式は、ERC のガイダンスの下で自動的に学習されます。 ERC はネットワークの最後の層の出力を介して計算されるため、それを直接使用して摂動を誘導することは非常に困難です。

そのため、研究者たちは次の定理を使用して、ネットワークの中間層の出力を通じてネットワークの ERC を間接的に表現しました。

定理2 : Kl[k;:]は重み行列Klのk行目を表すものとする。||・||pはベクトルのpノルムである。 || Kl[k;:] ||p ≤ Blと仮定すると、ネットワーク出力のERCは中間特徴のERCによって制約される。

o と f はそれぞれ活性化関数の前後の特徴マップです。作る:

しかし:

次に、次の式を解くことで最適な摂動を得ることができます。

直感的に言えば、摂動が大きすぎると元の特徴が破壊され、ネットワークの表現能力が低下しますが、摂動が小さすぎると適切な正規化効果が得られません。

アルゴリズムは次のとおりです。

Huawei Noah Labが制作したインターンによる初の作品

この論文には北京大学、Huawei Noah、シドニー大学から合計 7 人の研究者が参加しており、コア チームは Huawei Noah Lab のメンバーです。

第一著者は北京大学のTang Yehui氏です。彼はHuawei Noah Labでのインターンシップ中にこの研究を完了しました。

2人目の著者は、ファーウェイのノアの方舟研究所の技術専門家であり、インターンシップ中のタン・イエフイの指導者でもあるワン・ユンヘ氏です。

北京大学を卒業し、NeurIPS、ICML、CVPR、ICCV、TPAMI、AAAI、IJCAIなど関連分野で40本以上の学術論文を発表しています。

エッジコンピューティングの分野でアルゴリズム開発とエンジニアリング実装に主に携わっています。研究分野には、モデルのプルーニング、量子化、蒸留、ディープニューラルネットワークの自動検索などがあります。

他の著者には、Huawei Noah LabのXu Yixing氏とXu Chunjing氏、北京大学のXu Chao氏が含まれます。

この研究に興味がある場合は、ポータルを保存してください。

オープンソースリンク: https://github.com/huawei-noah/Disout

<<:  Baidu CTO 王海峰氏:PaddlePaddle ディープラーニング プラットフォームは新しいインフラストラクチャの重要な部分です

>>:  人工知能の未来は必ずしも明るいとは限らない

ブログ    

推薦する

ゼロから始める: すぐに使えるニューラルネットワークを作成することもできます

何か新しいことを受け入れたり、始めたりするのは決して簡単なことではありません。機械学習は、新しいプロ...

iSoftStoneはインテリジェントな顧客サービス市場に参入し、専門性と専門知識で地位を確立しました。

今日、カスタマー サービス ロボットは私たちにとって馴染み深い存在です。電話料金、住所、登録、ビジネ...

...

...

ナレッジグラフと AIGC を組み合わせるにはどうすればよいでしょうか? JD.comがやっていること

I.はじめにまず、JD.com による電子商取引シナリオにおける AIGC の調査について紹介します...

Linux サーバー管理のヒント: 効率とセキュリティを向上させる

Linux サーバー管理は、サーバーの安全、安定、効率的な運用を確保するための重要なタスクです。以下...

産業用ロボットの開発状況と技術動向を明らかにする

近年、人件費の継続的な上昇に伴い、産業分野では「機械が人に取って代わる」という現象が一般的になり、産...

...

...

機械学習がデータセンター管理をどう変えるか

機械学習はデータセンターの経済性を劇的に変え、将来の改善への道を開きます。機械学習と人工知能がデータ...

自動運転の利点は明らかだ。政治協商会議委員の李延宏氏:大規模な商業利用には政策革新が必要

[[385597]]中国時報(www.chinatimes.net.cn)記者の翟延安が北京から報告...

校内暴力を予防し解決するために、AIは子どもたちのために何ができるでしょうか?

[[228688]]あなたはキャンパスライフに満足していますか?多くの人が「はい」と答えると思いま...

...

人間の脳をインターネットに接続するときは注意してください

[[264958]]将来、道を歩いていて急にお腹が空いたとき、今のように検索エンジンを使って検索する...

...