ディープラーニングの次の段階:ニューラルアーキテクチャの自己学習により、優れたコンピュータビジョンモデルが実現

ディープラーニングの次の段階:ニューラルアーキテクチャの自己学習により、優れたコンピュータビジョンモデルが実現

[[275255]]

ディープラーニングは人工知能モデルの先駆けです。画像認識、音声認識、テキスト理解、さらには自動運転に至るまで、ディープラーニングの登場により、AI の可能性に対する私たちの想像力は大きく豊かになりました。

では、なぜディープラーニングはこれほど成功しているのでしょうか?

主流の考え方では、ディープラーニングが成功した重要な理由は、データの特徴(視覚、テキスト、音声など)を構築または表現するために人間の直感に頼るのではなく、これらの特徴を自律的に学習するニューラル ネットワーク アーキテクチャを構築することであると考えられています。

キーワードは機能です。特徴エンジニアリングから特徴検索、特徴学習まで、各段階での進歩によりパフォーマンスが大幅に向上します。

機能」についてはやるべきことがたくさんあるので、「ネットワーク構造」についても同じ経験を生かせるでしょうか?

はい、できます!

この斬新なアイデアは、アレンAI研究所の新しい研究によって裏付けられています。最新の研究によると、コンピューターは人間が設計したものよりもニューラル ネットワーク アーキテクチャをよりよく学習できることがわかりました。

トレーニング中、ネットワークはネットワーク アーキテクチャを柔軟に変更でき、ネットワーク パラメータと構造自体の両方を学習します。学習されたアーキテクチャは本質的に非常にスパースであるため、計算操作の点でははるかに小さなモデルでありながら、高い精度を実現します。

効率的なスパースコンピューティングハードウェアが開発されている環境において、これはディープラーニングモデルの進化の次の段階への重要なきっかけとなる可能性があります。

彼らの最新の成果を知る前に、まずは 20 年前からディープラーニング時代の始まりまでのコンピューター ビジョン技術分野における AI モデルの主要な開発段階を振り返ってみましょう。同じ傾向は他のディープラーニング分野にも反映されています。

コンピュータビジョン開発の3つの段階

機能エンジニアリングフェーズ

画像セマンティクスを持つ画像内の高次元ベクトルを手動で見つけてみます。成功例としては、SIFT、HOG、ShapeContext、RBF、Intersection Kernel などがあります。これらの特徴と機能は、人間の視覚認識プロセスのシミュレーションに基づいています。これは当時のコンピュータービジョン技術の基礎科学でした。数年にわたる直感主導の研究を経ても、コンピュータービジョンの科学者は新しい機能を開発することができず、この分野は第2段階に突入しました。

最適なコンピュータビジョンモデル

特徴エンジニアリングは、ディープラーニングが登場する前のコンピュータービジョンの基礎科学でした。

機能検索フェーズ

自動検索プロセスとも呼ばれ、さまざまな可能な機能またはカーネル関数を組み合わせて、特定のアプリケーション (オブジェクト分類など) の精度を向上させます。成功した方法には、特徴選択法や複数カーネル モデルなどがあります。これらのプロセスは計算集約的ですが、コンピューター ビジョン モデルの精度を向上させることができます。もう 1 つの大きな制限は、検索空間の構成要素 (特徴関数) が、視覚認識に関する人間の直感に基づいて手動で設計されることです。しかし、ある研究では、人間が物体のカテゴリーを区別する方法を正確に説明できない可能性があることが示唆されています。

たとえば、犬の写真と猫の写真をどのように区別するか説明できますか?選択した特徴(耳の鮮明さ、目の形や色など)は猫と犬の両方に共通していますが、写真を見るとそれが犬か猫かがすぐにわかります。このため、一部の科学者は、特徴駆動型コンピューター ビジョン モデルを設計するための従来のボトムアップ アプローチを放棄し、コンピューター自身に特徴認識を設計させる方向へと移行しました。

最適なコンピュータビジョンモデル

特徴の組み合わせとマルチコアモデル(Kavak et al. ISACS 2013 の画像)

機能学習フェーズ

これは、高次元ベクトル空間から視覚的特徴を自動的に決定する段階であり、画像の内容を解釈することで、コンピューターがオブジェクトの分類などの特定のタスクを実行できるようにするプロセスです。この機能は、深層畳み込みニューラル ネットワーク アーキテクチャ (CNN) の開発によって可能になりました。機能を設計するプロセスに人間の介入がないため、このアルゴリズムはエンドツーエンド モデルとも呼ばれます。実際、このプロセスは計算負荷が非常に高く、基礎となるニューラル ネットワークをトレーニングするために膨大な量のデータが必要となるため、その構造の特徴を人間が解釈することはほぼ不可能です。並列プロセッサ ハードウェア (GPU や TPU など) の進歩と大規模データセットの利用可能性により、これが可能になり、成功しました。

最適なコンピュータビジョンモデル

ディープニューラルネットワークによる特徴学習

素晴らしい!ディープラーニングは独立して動作できるようです。では、コンピュータービジョン科学者はどのような役割を果たす必要があるのでしょうか? !

将来に向けて

「機能」という言葉を「アーキテクチャ」に置き換えて、上記の 3 つの段階を組み合わせると、ディープラーニングの将来の発展の傾向を説明できる可能性があります。

建築工学

これは「機能学習」フェーズとほぼ同じです。畳み込みニューラル ネットワーク アーキテクチャは、特定のタスクに合わせて手動で設計する必要があります。主な原則は、シンプルだがより深い(つまり、より多くのレイヤー)アーキテクチャにより、より高い精度を実現できるということです。この段階では、アーキテクチャの設計とトレーニング (ネットワーク最適化) 手法が、コンピューター ビジョン (および他の多くの DCNN アプリケーション) の主な目標です。これらのネットワーク設計は、人間自身の視覚認識システムに関する知識に基づいています。成功したアーキテクチャ設計には、AlexNet、VGGNet、GoogleNet、ResNet などがあります。これらのモデルの主な制限は、計算の複雑さです。多くの場合、1 つの画像を処理するために数十億の算術演算 (浮動小数点演算) を実行する必要があります。実際には、モデルを十分な速度で実行するには、GPU を使用して大量の電力を消費する必要があることがよくあります。したがって、最新の AI モデルは主に強力なクラウド サーバーを通じて実装されます。

このため、科学者はエッジデバイス上で実行できる、より効率的な AI モデルを設計するようになりました。成功したモデルとしては、Xnor-net、Mobilenet、Shufflenet などがあります。 「特徴エンジニアリング」フェーズと同様に、数年後、アイデアが枯渇した研究者は「検索」フェーズに移行します。

最適なコンピュータビジョンモデル

ディープラーニングの出現後、コンピュータビジョンの基礎科学はネットワークアーキテクチャ設計になりました(画像提供:Joseph Cohen)

スキーマ検索

これは現在最も先進的な AI モデルです。主な原則は、以前の成功したアーキテクチャのビルディング ブロックを使用し、これらのブロックの組み合わせを自動的に検索して、新しいニューラル ネットワーク アーキテクチャを構築することです。主な目標は、計算量が少なく、高精度なアーキテクチャを作成することです。成功したニューラル アーキテクチャ検索方法には、NASNet、MNASNet、FBNet などがあります。可能な組み合わせの検索空間が非常に大きいため、これらのモデルをトレーニングするには、標準的なディープラーニング モデルよりも多くの計算とデータが必要です。 「特徴検索」段階と同様に、これらのモデルも、人間の直感に基づいて構成要素を手動で設計することによって制約されます。これまでの経験に基づくと、人間はニューラル アーキテクチャの設計方法についてコンピューターほど優れた直感を持っていません。新しい研究によると、ランダムに接続されたニューラル ネットワークは、いくつかの手作業で設計されたアーキテクチャよりも優れたパフォーマンスを発揮します。

まとめると、ディープラーニングの次の段階では、コンピューターに独自のアーキテクチャを設計させることになることは明らかです。

最適なコンピュータビジョンモデル

より優れたCNNモデルを構築するために、CNNのさまざまな構成要素の組み合わせを探す

アーキテクチャ学習フェーズ

私たちは最近、Xnor.ai と Allen Institute for AI で、データから直接ニューラル ネットワーク アーキテクチャを自動的に学習する「Discovering Neural Wirings」という新しいモデルを構築しました。このモデルでは、ニューラル ネットワークを制約のないグラフとして設定し、レイヤーの概念を緩和して、ノード (画像のチャネルなど) が互いに独立した接続を形成できるようにします。これにより、ネットワークスペースの使用可能範囲が広がります。トレーニング中、ネットワークのアーキテクチャは固定されず、ネットワーク パラメータと構造自体の両方が学習されます。ネットワーク構造にはグラフ内にループを含めることができ、これがメモリ構造の概念を形成します。学習されたアーキテクチャは非常にスパースであるため、算術演算の点では、高い精度を達成しながらもはるかに小さなモデルになります。

コード:

https://github.com/allenai/dnw

もちろん、「特徴学習」段階と同様に、このディープラーニング段階では、大規模なグラフを処理するためにトレーニング中に大量の計算が必要となり、大量のデータが必要になります。スパースグラフコンピューティングに特化したハードウェアの開発により、最適なネットワークアーキテクチャを自動的に発見する技術がますます成熟し、高精度で効率的なエッジAIモデルの実現が間近に迫っていると私たちは確信しています。

最適なコンピュータビジョンモデル

ニューラルアーキテクチャ学習のプロセス:データから完全なニューラルグラフ内のニューロン間の最小接続を発見する

リンク:

https://medium.com/xnor-ai/the-next-phase-of-deep-learning-neural-architecture-learning-automatic-discovering-of-neural-d08fc9a6065d

<<:  自動運転のベテラン、UberのためにGoogleの機密文書14,000件を盗んだとして訴えられる

>>:  業界の開発者にとって朗報です! Baidu PaddlePaddle のディープラーニング機能が Inspur AI サーバーに導入

ブログ    
ブログ    

推薦する

ディープラーニングに関しては、こちらをお読みください

編集者注: この記事の著者は、USTC のジュニアクラスの卒業生で投資家の Wang Chuan で...

ビジネスコミュニケーションで機械学習を活用する9つの方法

人工知能 (AI) と機械学習 (ML) は、職場でも家庭でも、私たちの生活に欠かせないものになりつ...

チップ大手がCESで新年の幕開けを飾る戦いを繰り広げる! AMD、インテル、NVIDIA、クアルコムの衝撃的な対決

毎年恒例のテクノロジー業界のオープニングショー「CES」が現在、米国ラスベガスで開催されています。 ...

ChatGPT がまたトラブルに巻き込まれました! OpenAI が初の AI 名誉毀損訴訟に直面!

51CTOウェブサイトコンテンツ調査に参加するにはクリックしてください著者: 徐潔成ChatGPT...

2020 年に役に立つ機械学習ツール

TL;DR — 優れた機械学習アプリケーションを構築することは、ミシュランの星を獲得した料理を作るよ...

このロボットはアリよりも小さく、電気なしで動くことができる

アリは小さくても、集団で行動すると侮れません。『アントマン』を観たことがある人なら分かると思います。...

機械学習ガバナンスとは何ですか?

なぜ組織は機械学習のガバナンスに苦労するのでしょうか? 組織の機械学習ガバナンスに取り組もうとすると...

魅力的な勾配フリーニューラルネットワーク最適化手法

[[336078]]勾配降下法は、機械学習における最も重要なアイデアの 1 つです。最小化すべきコス...

データ分析に人工知能を取り入れる方法

生成型 AI の台頭は、インターネットの誕生と同様の影響を及ぼしています。新しいテクノロジーが私たち...

...

杜暁曼自動機械学習プラットフォームの実践

1. 機械学習プラットフォームまず、Du Xiaomanの機械学習プラットフォームの背景、開発プロセ...

深層強化学習の謎を解く

【51CTO.com クイック翻訳】 深層強化学習は、人工知能の最も興味深い分野の 1 つです。ボー...

機械学習を簡単に理解!クラスタリング、回帰、分類アルゴリズムを説明する 3 つのケース

機械はどのように学習し、何を学ぶのでしょうか?人間はどうやって機械に学習を教えるのでしょうか?この記...

Facebook のインタラクティブ ニューラル ネットワーク可視化システム ActiVis がニューラル ネットワークの「ブラック ボックス」を公開

これまで、多くのメディアがニューラルネットワークの「ブラックボックス」問題について熱く議論してきまし...