Huaweiは封鎖を突破し、GoogleのDropout特許をベンチマークし、独自のアルゴリズムDisoutをオープンソース化

Huaweiは封鎖を突破し、GoogleのDropout特許をベンチマークし、独自のアルゴリズムDisoutをオープンソース化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

米国による封鎖が続いているにもかかわらず、ファーウェイの独自開発技術はすでに基礎となるAIアルゴリズムレベルにまで浸透しており、研究成果を業界にオープンソース化し始めている。

ちょうど今、Huawei Noah Lab は、Google が特許を取得したDropout アルゴリズムを直接ターゲットとする Disout アルゴリズム (アドレスは記事の最後にあります) をオープンソース化しました。

さらに、Huawei の新しいアルゴリズムは、多くのタスクで Dropout を上回ります。たとえば、ImageNet でトレーニングされた ResNet-50 は 78.76% の精度を達成できますが、Google の Dropout シリーズの方法では 76.8% に過ぎません。

このアルゴリズムの基礎となる論文は AAAI 2020 に掲載され、公開されました。 Huaweiが提案するDisoutが具体的にどのようなものなのかについても紹介されています。

ファーウェイが自社開発したDisout:複数のAIタスクがDropoutを上回る

特許を申請する際、Google は Dropout を「ニューラル ネットワークの過剰適合に対処するためのシステムと方法」と定義しました。

核となるアイデアは、ニューラル ネットワークをトレーニングする順方向伝播プロセス中に、Dropout によって、ニューロンの活性化値が一定の確率 p で動作を停止するようにすることができ、これを「ドロップ」と呼びます。これにより、モデルの安定性が向上し、過剰適合現象が軽減されます。

Disout は特徴マップの摂動を研究することでディープ ニューラル ネットワークの一般化能力を高める方法として提案された新しい代替手段です。

簡単に言えば、ネットワークの中間層の Rademacher 複雑度 (ERC) に基づいて、特定のディープ ニューラル ネットワークの一般化誤差の上限を決定することです。

また、特徴マップに摂動が導入され、ネットワークの Rademacher 複雑度が低減され、一般化能力が向上します。

それらの違いは以下の図に示されています。つまり、出力機能は破棄されるのではなく、変化します。

それに比べると、Huawei のアプローチはより効果的です。

Disout は、従来の視覚タスクで優れたパフォーマンスを発揮し、Google Dropout のパフォーマンスを上回るだけでなく、NLP タスクや音声処理タスクでも効果的です。

次に、さまざまなデータ セットでの Disout と Dropout シリーズのメソッドの比較を見てみましょう。

まず、CIFAR-10 データと CIFAR-100 データのテスト精度を比較します。

完全接続層実験では、Huaweiが提案した特徴マップ摂動法でCNNをトレーニングし、85.24%の精度を達成しました。最新のRDdrop法と比較すると、CIFAR-10データセットとCIFAR-100データセットでそれぞれテスト精度が2.13%と1.58%向上しました。

ファーウェイの研究者らは、彼らが提案したDisout法は、モデルの表現能力を維持しながら経験的ラデマッハーの複雑さを効果的に軽減し、より優れたテスト性能を実現できると述べた。

畳み込み層の実験では、Huawei の手法を畳み込み層に適用することでディープ ニューラル ネットワークのパフォーマンスを向上させることができ、DropBlock 手法よりも優れており、それぞれ 0.32% と 0.63% のパフォーマンス向上が見られました。

ImageNetデータセット実験の結果は、Huaweiが提案した特徴摂動法が従来のドロップアウト法に取って代わり、ディープニューラルネットワークのパフォーマンスを向上させるだけでなく、最近提案されたDropblock法のパフォーマンスも向上させることを示しています。

従来のドロップアウト方式と比較して、Disout は精度を 76.80% から 77.71% に向上させ、Block Disout 方式は 78.76% のトップ 1 精度を達成し、他の既存のテクノロジーを上回ります。

ファーウェイの研究者らは、このアプローチにより一般化能力が向上し、元の特徴から有用な情報が保存されるようになると述べている。

さらに、テキストデータセット IMDB と音声データセット UrbanSound8k でも実験を行いました。結果は次のとおりです (上がテキスト、下が音声)。

コアブレイクスルー: 出力機能を破棄するのではなく、混乱させる

では、具体的にはどのように行うのでしょうか?一般化理論を見てみましょう。

一般化理論は、期待されるリスクと経験的リスクの関係を研究します。

画像分類タスクを例にとると、全体的な期待リスクR(fL)とトレーニングセットの経験的リスクは

はい:

ラデマッハ経験的複雑性 (ERC) は、期待リスクと経験的リスクのギャップを定量化するために広く使用されています。その定義は定義 1 に示されています。

定義 1 : 分布 Q からのインスタンス D = {(x,y)} のトレーニング データセットが与えられた場合、ネットワークの経験的 Rademacher 複雑度は次のように定義されます。

ここで、Rademacher変数は{-1, +1}の範囲の独立した一様確率変数です。

経験的ラデマッハ複雑性とマディアミッド不等式を使用すると、定理 1 を通じて期待リスクの上限を導くことができます。

定理1 : >0が与えられた場合、任意の>0に対して、少なくとも1−の確率で、すべての∈に対して、

定理 1 に基づいて、研究者らは、予想されるリスクと経験的リスクのギャップは、特定のニューラル ネットワークとデータセットにおける経験的 Rademacher 複雑度によって制限できることを発見しました。

ERC を直接計算することは難しいため、より一般化されたモデルを得るために、トレーニング フェーズでは通常、ERC の上限または近似値が使用されます。

一般化理論を理解した後、特徴マップの摂動について見てみましょう。

研究者たちは、摂動値を固定するのではなく、ネットワークの ERC を減らすことによって特徴マップの摂動値を学習します

一般に、入力データxiを持つl番目の層の出力特徴fL(xi)に適用される干渉演算は次のように表される。

このうち、εli は特徴マップ上の摂動です。

上記の式における摂動の形式は、ERC のガイダンスの下で自動的に学習されます。 ERC はネットワークの最後の層の出力を介して計算されるため、それを直接使用して摂動を誘導することは非常に困難です。

そのため、研究者たちは次の定理を使用して、ネットワークの中間層の出力を通じてネットワークの ERC を間接的に表現しました。

定理2 : Kl[k;:]は重み行列Klのk行目を表すものとする。||・||pはベクトルのpノルムである。 || Kl[k;:] ||p ≤ Blと仮定すると、ネットワーク出力のERCは中間特徴のERCによって制約される。

o と f はそれぞれ活性化関数の前後の特徴マップです。作る:

しかし:

次に、次の式を解くことで最適な摂動を得ることができます。

直感的に言えば、摂動が大きすぎると元の特徴が破壊され、ネットワークの表現能力が低下しますが、摂動が小さすぎると適切な正規化効果が得られません。

アルゴリズムは次のとおりです。

Huawei Noah Labが制作したインターンによる初の作品

この論文には北京大学、Huawei Noah、シドニー大学から合計 7 人の研究者が参加しており、コア チームは Huawei Noah Lab のメンバーです。

第一著者は北京大学のTang Yehui氏です。彼はHuawei Noah Labでのインターンシップ中にこの研究を完了しました。

2人目の著者は、ファーウェイのノアの方舟研究所の技術専門家であり、インターンシップ中のタン・イエフイの指導者でもあるワン・ユンヘ氏です。

北京大学を卒業し、NeurIPS、ICML、CVPR、ICCV、TPAMI、AAAI、IJCAIなど関連分野で40本以上の学術論文を発表しています。

エッジコンピューティングの分野でアルゴリズム開発とエンジニアリング実装に主に携わっています。研究分野には、モデルのプルーニング、量子化、蒸留、ディープニューラルネットワークの自動検索などがあります。

他の著者には、Huawei Noah LabのXu Yixing氏とXu Chunjing氏、北京大学のXu Chao氏が含まれます。

この研究に興味がある場合は、ポータルを保存してください。

オープンソースリンク: https://github.com/huawei-noah/Disout

<<:  Baidu CTO 王海峰氏:PaddlePaddle ディープラーニング プラットフォームは新しいインフラストラクチャの重要な部分です

>>:  人工知能の未来は必ずしも明るいとは限らない

ブログ    
ブログ    
ブログ    

推薦する

...

ChatGPT 素晴らしいアップデート! @300万GPTをあなたのために働かせましょう

一部の(Grayscale)ユーザーは次のようなプロンプトを受け取りました:グループ チャットで誰か...

ロボット工学の可能性を解き放つ:産業に革命を起こし、人々の生活を向上させる

ロボット工学は、SF の世界の概念から、あらゆる分野を変え、人間の生活を向上させる現実のものへと進化...

OpenAI が 10 億ドルで Microsoft に売却された後、汎用人工知能にはまだ希望があるのでしょうか?

[[422423]]お金が手に入ったとき、あなたはまだ当初の意図を貫くことができますか? OpenA...

ちょうど今、人工知能に関する大きなニュースが発表されました

中国における人工知能熱の高まりは、テクノロジーとビジネスによって推進されているだけでなく、政府の推進...

Javaの組み込みソートアルゴリズムをどうやって克服したか

Java 8 では、組み込みのソート アルゴリズムが大幅に最適化されました。整数やその他のプリミティ...

マルチモーダル LLM 幻覚問題が 30% 減少しました!業界初の「キツツキ」無重力トレーニング法が誕生

大規模なマルチモーダル モデルの「幻覚」問題を解決するために、まだ命令の微調整を使用していますか?例...

人工知能端末チップ研究レポート

1. 人工知能とディープラーニング2016年、AlphaGoとイ・セドルの囲碁対決は間違いなく、人工...

Google、AIコードエディタIDXをリリース:クラウド仮想マシンで開発環境の構成を簡素化

Googleは8月9日、「Project IDX」プロジェクトを公開し、AI技術を統合したコードエデ...

自動車業界における人工知能の5つの主要な応用

[51CTO.com からのオリジナル記事] 自動車業界における人工知能の応用を考えるとき、最初に思...

ハーバード大学の新しい研究がサイエンス誌の表紙を飾る:この機械式外骨格は「軽量」なショートパンツだ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

いくつかの特徴選択方法を比較すると、どれが優れているでしょうか?

[[403820]]この記事はWeChat公式アカウント「DATA STUDIO」から転載したもの...

推奨システムの結果の品質を評価する方法

推奨システムは、インターネットの発展において最も一般的かつ重要な技術の 1 つです。今日では、あらゆ...

ユニバーサルデータ拡張技術、ランダム量子化はあらゆるデータモダリティに適用可能

自己教師あり学習アルゴリズムは、自然言語処理やコンピュータービジョンなどの分野で大きな進歩を遂げまし...

...