ディープラーニングの次に来るものは何でしょうか?

ディープラーニングの次に来るものは何でしょうか?

[[343995]]

ビッグデータダイジェスト制作

出典: datasciencecentral

編集者: ミン

私たちは行き詰まっている、あるいは少なくとも停滞している。アルゴリズム、チップ、データ処理において、注目すべき大きな進歩がなかった年がいつだったか覚えている人はいますか? 数週間前に開催された Strata San Jose カンファレンスに行って、目を引くような新しい開発が見られなかったのは珍しいことでした。

以前にも報告したように、私たちは成熟段階に入ったようで、現在私たちの主な焦点は、すべての強力な新技術がうまく連携すること(コンバージェンス プラットフォーム)を確保すること、または大規模な VC 投資から同じ収益を上げることです。

[[343996]]

これに気づいたのは私だけではない。何人かの参加者と出展者も私に非常に似たようなことを言いました。そしてつい先日、さまざまな高度な分析プラットフォームの相対的なメリットを評価し、報告する価値のある違いはないという結論に達した著名な研究者のチームからメモを受け取りました。

なぜ、どこで私たちは困っているのでしょうか?

私たちが今いる場所は、実のところ悪くありません。過去 2 ~ 3 年間の当社の進歩は、ディープラーニングと強化学習の分野でした。ディープラーニングにより、音声、テキスト、画像、ビデオの処理において驚くべき能力がもたらされました。強化学習と組み合わせることで、ゲームプレイ、自律走行車、ロボット工学などにおいて大きな進歩を遂げました。

私たちは、チャットボットによる顧客とのやり取りによる大幅な節約、パーソナルアシスタントやAlexaなどの新しい個人用便利アプリケーション、アダプティブクルーズコントロール、事故回避ブレーキ、車線維持などの個人用自動車のレベル2自動化などに基づく商業的爆発の初期段階にあります。

Tensorflow、Keras、その他のディープラーニング プラットフォームはこれまで以上にアクセスしやすくなり、GPU のおかげでこれまで以上に効率的になりました。

ただし、既知の欠陥のリストにはまったく対処されていません。

  • ラベル付けされたトレーニング データが多すぎます。
  • モデルのトレーニングに時間がかかりすぎたり、高価なリソースが多すぎたり、あるいはまったくトレーニングできない可能性があります。
  • ハイパーパラメータ、特にノードとレイヤーを囲むハイパーパラメータは、依然として謎に包まれています。自動化や、受け入れられている経験則さえも、依然として不明瞭です。
  • 転移学習とは、複雑なものから単純なものへのみを意味し、ある論理システムから別の論理システムへ転移学習することではありません。

もっと長いリストを作ることもできると思います。私たちが問題に直面したのは、これらの大きな欠点に対処する際にでした。

何が私たちを止めるのでしょうか?

ディープ ニューラル ネットワークでは、努力と投資を続ければ、これらの欠陥は克服できるというのが常識です。たとえば、80 年代や 00 年代から、ディープ ニューラル ネットワークを機能させる方法はわかっていましたが、ハードウェアがなかっただけです。それが追いつけば、ディープ ニューラル ネットワークと新しいオープン ソースの精神が組み合わさって、この新しい分野が開拓されるでしょう。

あらゆる種類の研究には独自のダイナミクスがあります。特に、特定の方向に多くの時間とお金を投資すると、常にその方向に進んでいくことになります。それらのスキルの専門知識を培うために何年も費やしてきたなら、転職する気はないでしょう。

方向がどこであるべきか完全にはわからなくても、方向を変えてください。

時には、新しい方向が正確に何であるかがわからなくても、方向を変える必要があります。最近、カナダとアメリカの一流の AI 研究者がまさにそれを実行しました。彼らは騙されたと思って、基本的に最初からやり直す必要があると考えています。

この洞察は、1980年代後半にニューラルネットワークに関する研究の主流を立ち上げる上で重要な役割を果たしたジェフリー・ヒントン氏によって昨年秋に口頭で表明された。現在トロント大学名誉教授でグーグルの研究員でもあるヒントン氏は、DNNの中核となる手法であるバックプロパゲーションに対して「深い懐疑心」を抱いていると語った。ヒントン氏は、人間の脳が結論に達するのにラベル付けされたデータすべては必要ないと考え、「私の考えでは、このデータをすべて捨てて、もう一度やり直すべきだ」と述べた。

それを念頭に置いて、ここでは、確実に達成可能とほとんど達成不可能の間に位置するが、私たちが知っているディープ ニューラル ネットワークの漸進的な改善ではない新しい方向性について簡単に説明します。

これらの説明は意図的に簡潔になっており、完全に理解するためには間違いなくさらに読み進めることになるでしょう。

DNNのように見えるがそうではないもの

Hinton のバックプロパゲーションに密接に関連する研究の 1 つでは、ノードとレイヤーの基本構造は有用であるが、接続と計算方法には大幅な変更が必要であると主張しています。

まず、ヒントン氏自身の新しい研究分野である CapsNet から始めるのが適切でしょう。これは、畳み込みニューラル ネットワークによる画像分類に関連しています。簡単に言えば、問題は、畳み込みニューラル ネットワークがオブジェクトの姿勢に敏感ではないことです。つまり、同じオブジェクトを認識したいが、位置、サイズ、向き、変形、速度、反射率、色相、テクスチャなどに違いがある場合は、それぞれの状況に応じたトレーニング データを追加する必要があります。

畳み込みニューラル ネットワークでは、この問題はトレーニング データを大幅に増やしたり、最大プーリング層を追加したりすることで対処されますが、これにより一般化が可能になりますが、実際の情報が犠牲になります。

以下の説明は、Hackernoon による CapsNet に関する数多くの優れた技術的説明の 1 つです。

カプセルはネストされたニューラル層のセットです。通常のニューラル ネットワークでは、レイヤーを追加し続けます。 CapsNet では、単一のレイヤー内にさらにレイヤーを追加します。言い換えると、1 つのニューラル レイヤーを別のニューラル レイヤー内にネストします。カプセル内のニューロンの状態は、画像内のエンティティの上記特性を捉えることができます。カプセルは、エンティティの存在を表すベクトルを出力します。ベクトルの方向はエンティティのプロパティを表します。このベクトルは、ニューラル ネットワーク内のすべての可能な親に送信されます。予測ベクトルは、それ自身の重みと重み行列の乗算に基づいて計算されます。スカラー予測ベクトル積が最大となる親は、カプセルの結合度合いを高めます。残った親は結合度合いを減らします。このプロトコルを介したルーティング方法は、現在の最大プーリング メカニズムよりも優れています。

CapsNet は必要なトレーニング データを大幅に削減し、初期テストでは優れた画像分類パフォーマンスを示しました。

多粒度カスケードフォレスト

2 月に、南京大学の新ソフトウェア技術国家重点研究室の Zhihua Zhou 氏と Ji Feng 氏による、Multi-Grained Cascade Forests と呼ばれる手法を実証した研究を取り上げました。彼らの研究論文によると、多粒度カスケードフォレストは、テキスト分類と画像分類の両方において、畳み込みニューラルネットワークや再帰型ニューラルネットワークよりも優れていることが多いことが示されています。メリットはかなり大きいです。

  • 必要なのはトレーニング データのごく一部だけです。
  • デスクトップ CPU デバイス上で実行され、GPU は必要ありません。
  • トレーニングも同様に高速で、多くの場合さらに高速であるため、分散処理に適しています。
  • ハイパーパラメータがはるかに少なく、デフォルト設定で良好なパフォーマンスを発揮します。
  • 完全に不透明なディープ ニューラル ネットの代わりに、わかりやすいランダム フォレストを活用します。

簡単に言うと、gcForest (Multi-Grained Cascade Forest) は、ディープ ネットのカスケード構造が保持され、不透明なエッジ ニューロンとノード ニューロンが、完全にランダムなツリー グローブとペアになったランダム フォレストのグループに置き換えられた決定木アンサンブル メソッドです。 gcForest の詳細については、当社のオリジナル記事をご覧ください。

パイロとエドワード

Pyro と Edward は、ディープラーニング フレームワークと確率的プログラミングを融合した 2 つの新しいプログラミング言語です。 Pyro は Uber と Google の共同作業ですが、Edward はコロンビア大学出身で DARPA の資金提供を受けています。その結果、ディープラーニング システムが予測や決定に対する信頼性を測定できるフレームワークが実現しました。

従来の予測分析では、ログ損失を適合度関数として使用し、自信はあるが間違った予測 (偽陽性) にペナルティを課すことで、この問題に対処する場合があります。今のところ、ディープラーニングに類似するものは存在しません。

たとえば、これを使用できるのは自動運転の車や飛行機で、これにより、制御は重大な決定や致命的な大惨事を引き起こす決定を下す前に、ある程度の自信や疑いを持つことができます。これは確かに、車に乗る前に自動運転の Uber が知っていてほしいことです。

Pyro と Edward はどちらも開発の初期段階にあります。

ディープウェブ方式とは異なり

私は、プラットフォームの中核に非常に珍しいアルゴリズムを持つ中小企業によく出会います。私が彼らに圧力をかけたほとんどの場合、彼らはあなたに何が起こっているのかを説明するのに十分な詳細を提供しようとしませんでした。この秘密性によってその有用性が無効になるわけではありませんが、ベンチマークや詳細が提供されるまで、内部で何が起こっているのかは正確にはわかりません。これらが最終的に公開されたら、私たちの将来の作業台になると考えてください。

現在、私が調査した最先端の非DNNアルゴリズムとプラットフォームは次のとおりです。

階層的時間記憶 (HTM)

階層的時間記憶 (HTM) は、スパース分散表現 (SDR) を使用して脳内のニューロンをモデル化し、スカラー予測 (商品、エネルギー、株価などの将来の値) と異常検出において CNN や RNN よりも優れた計算を実行します。

これは、Palm Pilot の伝説的人物である Jeff Hawkins 氏が彼の会社 Numenta に捧げたものです。ホーキンス氏は、DNN のようにレイヤーやノードで構造化するのではなく、脳機能に関する基礎研究に基づいた強力な AI モデルを追求しています。

HTM の特徴は、わずか 1,000 回の観測で非常に迅速にパターンを見つけられることです。これは、CNN または RNN をトレーニングするために必要な数十万または数百万の観測と比較すると大きな違いです。

さらに、パターン認識は教師なしであり、入力の変化に基づいてパターンの変化を識別し、一般化することができます。これにより、システムのトレーニングが非常に高速になるだけでなく、自己学習と適応も可能になり、データの変更やノイズによって混乱することがなくなります。

いくつかの注目すべき漸進的な改善

私たちは本当のゲームチェンジャーに焦点を当て始めていますが、言及する価値のある漸進的な改善の例が少なくとも 2 つあります。これらは明らかに、バックプロパゲーションの要素を備えた従来の CNN と RNN ですが、はるかに優れた機能を備えています。

(1)Google Cloud AutoMLを使用したネットワークプルーニング

Google と Nvidia の研究者は、ネットワーク プルーニングと呼ばれるプロセスを使用して、出力に直接貢献しないニューロンを削除することで、ニューラル ネットワークをより小さく、より効率的にしました。この進歩は、Google の新しい AutoML プラットフォームのパフォーマンスの大幅な改善として最近導入されました。

(2)トランスフォーマー

Transformer は、従来は CNN、RNN、LSTM の領域であった言語間翻訳などの言語処理に元々役立つ新しいアプローチです。このツールは、昨年の夏の終わりに Google Brain とトロント大学の研究者によってリリースされ、この英語/ドイツ語翻訳テストを含むさまざまなテストで劇的な精度の向上を示しました。

RNN の順次的な性質により、順次処理よりも並列処理に優れている GPU などの最新の高速コンピューティング デバイスを十分に活用することが難しくなります。 CNN は RNN よりも連続性が低くなりますが、CNN アーキテクチャでは、距離が増加するにつれて、入力の離れた部分からの情報を結合するために必要なステップ数も増加します。

精度の飛躍的進歩は、ステップ数を小さな一定数に大幅に削減する「自己注意機能」の開発によってもたらされました。各ステップで、自己注意メカニズムを適用して、それぞれの位置に関係なく、文内のすべての単語間の関係を直接モデル化します。

VC が言ったように、趣味を変える時期なのかもしれません。

関連レポート: https://www.datasciencecentral.com/profiles/blogs/what-c ​​omes-after-deep-learning

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  MLタスクを効率的、迅速、正確に完了するにはどうすればよいでしょうか? 4つのAutoMLライブラリについて学びましょう

>>:  ポートレート効果はこのように使用できますか? Baidu Brain Open Day が 4 つのシナリオで AI ポートレート特殊効果機能を公開

ブログ    

推薦する

Linux の割り込み処理メカニズムを使用してシステムパフォーマンスを向上させる

Linux 割り込み処理メカニズムを使用すると、システム パフォーマンスが大幅に向上します。割り込み...

AIはデジタル変革の失敗から学ぶ必要がある

1 月に IBM は、デジタル トランスフォーメーションが予測された 150% ではなく -5% ~...

気温を下げて干ばつを緩和するブラックテクノロジーが多数存在します。人工降雨の謎とは?

​最近、浙江省の高温が話題になっています。継続的な高温と干ばつの悪影響を緩和するために、浙江省の多く...

...

...

200日!上海の18歳の高校生が、250行のPythonコードで「魂を注入」したロボットを自作した。

以前、22歳の何さんは卒業プロジェクトで「理工系男子の究極のロマンス」を解釈しました。ハードコアな卒...

...

10億枚の画像で訓練されたFacebookの新しいAIモデルは、コンピュータービジョンに革命を起こす可能性がある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

限られたデータでモデルのパフォーマンスを最大化するにはどうすればよいですか? Baidu のエンジニアがデータ拡張サービスを構築

AI モデルの開発プロセスでは、トレーニング データが不十分なためにモデルのパフォーマンス向上が妨げ...

DAMOアカデミーAIが中国科学技術博物館に展示され、AIが認識した初のCOVID-19 CTスキャンが科学技術による防疫努力の歴史的証人となる

5月29日、全国科学技術労働者の日が近づく中、アリババDAMOアカデミーのAIによって識別されラベル...

アルゴリズムを知的財産として保護する方法

Ogilvy は、ロボティック プロセス オートメーションと Microsoft のビジュアル AI...

...

新しいモデルは99%の精度で、ChatGPTによって生成されたテキストコンテンツを認識できます。

IT Homeは11月8日、sciencedirectに掲載された最新の論文によると、科学者は20...

携帯電話で AI を使用するにはどうすればいいですか?写真を撮るのは本当にハイテクです

AI、つまり人工知能は、携帯電話で長い間使用されてきました。たとえば、最も一般的な音声アシスタントは...

敵対的サンプルとディープニューラルネットワークの学習

概要過去 6 か月間で、人工知能の分野は科学技術分野で最も頻繁に言及される用語の 1 つになりました...