2018年、ACM(米国計算機協会)は、コンピュータディープラーニング分野への貢献を称え、ヨシュア・ベンジオ、ヤン・ルカン、ジェフリー・ヒントンの3人にコンピュータ分野の最高賞であるチューリング賞を授与することを決定しました。
チューリング賞が3人の受賞者に同時に授与されるのは今回で3度目となる。 コンピュータのディープラーニングのための人工ニューラル ネットワークは 1980 年代に提案されましたが、当時は理論的サポートが不足し、計算能力が限られていたため、科学研究コミュニティでは十分な注目を集めませんでした。 これら3つの巨人は、ディープラーニング手法の使用にこだわり、関連分野で徹底的な研究を行っています。実験を通じて多くの驚くべき結果が発見され、ディープニューラルネットワークの実用的な利点を実証することに貢献しました。 彼らはディープラーニングの父であると言っても過言ではありません。 AIの世界では、ヨシュア・ベンジオ、ヤン・ルカン、ジェフリー・ヒントンが同時に登場すれば、何か大きなことが起こるに違いない。 最近、ディープラーニングの三大巨頭が ACM Communications 誌の招待を受け、ディープラーニングのテーマについて詳細なインタビューを行い、ディープラーニングの基本概念、最新の進歩、将来の課題について振り返りました。 AI 開発者の皆さん、専門家からのアドバイスを読んで、将来についてより明確なイメージを持てるようになりましたか?彼らが何について話したか見てみましょう。 ディープラーニングの台頭2000 年代初頭、ディープラーニングによって、より深いネットワークのトレーニングを容易にする要素が導入され、ニューラル ネットワークの研究が再活性化しました。 GPU と大規模なデータセットの可用性はディープラーニングの重要な要素であり、自動微分化機能を備えたオープンソースの柔軟なソフトウェア プラットフォーム (Theano、Torch、Caffe、TensorFlow など) によって強化されます。また、複雑なディープ ネットワークをトレーニングし、最新のモデルとその構成要素を再利用することも容易になります。より多くのネットワーク層を組み合わせることで、より複雑な非線形性が可能になり、知覚タスクで予期しない結果が達成されます。 ディープラーニングをディープにするものは何か?より深いニューラル ネットワークの方が強力である可能性があるという考えは、現代のディープラーニング技術の出現以前から存在していました。しかし、このアイデアはアーキテクチャとトレーニング手順の進歩に触発されたものであり、ディープラーニングの台頭に伴う大きな進歩につながりました。 より深いネットワークは「入出力関係の種類」をより適切に一般化できますが、これは単にパラメータの数が多いからというだけではありません。一般的に、深いネットワークは、同じ数のパラメータを持つ浅いネットワークよりも一般化が優れています。たとえば、コンピューター ビジョンの畳み込みネットワーク アーキテクチャの一般的なカテゴリは ResNet シリーズであり、その中で最も一般的なのは 50 層の ResNet-50 です。 画像出典: Zhihu @Stinky Salted Fish ディープ ネットワークが際立っているのは、あるレイヤーの機能がさまざまな方法で組み合わされ、次のレイヤーでより抽象的な機能を作成するという、特定の形式の構成性を活用している点です。 教師なしの事前トレーニング。ラベル付けされたトレーニング例の数が少なく、タスクを実行するために必要なニューラル ネットワークの複雑さも小さい場合は、他の情報源を使用して特徴検出器のレイヤーを作成し、限られたラベルでこれらの特徴検出器を微調整することが可能です。転移学習では、情報ソースは多数のラベルを持つ別の教師あり学習タスクです。ただし、ラベルを使用せずにオートエンコーダーを積み重ねることで、複数層の特徴検出器を作成することも可能です。 リニア整流ユニットの成功の秘密。ディープ ネットワークの初期の成功は、ロジスティック シグモイド非線形関数または密接に関連する双曲正接関数を使用して、隠れ層の教師なし事前トレーニングを実行したことによるものです。 整流線形ユニットは神経科学において長い間仮説が立てられており、RBM や畳み込みニューラル ネットワークのいくつかのバリエーションで使用されてきました。予想外にも、バックプロパゲーションと確率的勾配降下法による非線形整流化により、レイヤーごとの事前トレーニングを必要とせずにディープネットワークのトレーニングがより便利になることがわかり、人々は嬉しい驚きを覚えました。これは、ディープラーニングが従来の物体認識方法よりも優れている技術的な進歩の 1 つです。 音声認識と物体認識におけるブレークスルー。音響モデルは、音波を音素セグメント上の確率分布に変換します。ロビンソン氏とモーガン氏らはそれぞれトランスポンダーと DSP チップを使用し、その試みはすべて、十分な処理能力があればニューラル ネットワークが最先端の音響モデリング技術と競合できることを示しました。 2009 年、2 人の大学院生が NVIDIA GPU を使用して、TIMIT データセットで事前トレーニング済みのディープ ニューラル ネットワークが SOTA よりもわずかに優れたパフォーマンスを発揮することを実証しました。この結果は、ニューラル ネットワークを扱ういくつかの主要な音声認識グループの間で関心を再燃させました。 2010 年には、本質的に同一のディープ ネットワークが、話者トレーニングに頼ることなく、大語彙の音声認識で SOTA に勝利しました。 2012 年に、Google は Android での音声検索を大幅に改善しました。これはディープラーニングの破壊力の早期実証でした。 同じ頃、ディープラーニングは 2012 年の ImageNet コンテストで劇的な勝利を収め、自然画像内の 1,000 種類の異なるオブジェクト クラスを識別する際のエラー率をほぼ半減しました。この勝利の鍵となったのは、Fei-Fei Li 氏とその協力者によるトレーニング セット用の 100 万枚を超えるラベル付き画像の収集と、Alex Krizhevsky 氏による複数の GPU の効率的な使用でした。 深層畳み込みニューラル ネットワークには、学習を高速化する ReLU や過剰適合を防ぐドロップアウトなどの新しい機能がありますが、基本的には Yann LeCun 氏とその協力者が長年研究してきたフィードフォワード畳み込みニューラル ネットワークにすぎません。 この画期的な進歩に対するコンピューター ビジョン コミュニティの反応は称賛に値するものでした。畳み込みニューラル ネットワークの優位性を示す証拠は明白であり、コミュニティはすぐに以前の手作業で設計された方法を放棄し、ディープラーニングを採用しました。 ディープラーニングにおける最近の主な成果3 人の専門家は、ソフト アテンションやトランスフォーマー アーキテクチャなど、ディープラーニングの最新の進歩のいくつかについて選択的に議論しました。 ディープラーニング、特にシーケンシャル処理における大きな進歩は、特にソフトアテンションの形での乗法的な相互作用の使用です。これは、ニューラル ネットワークを純粋なベクトル変換マシンから、どの入力を操作するかを動的に選択し、その情報を連想メモリに保存できるアーキテクチャに変換するため、ニューラル ネットワーク ツールボックスへの革新的な追加機能です。このようなアーキテクチャの主な特性は、さまざまな種類のデータ構造を効率的に操作できることです。 ソフト アテンションは、特定のレイヤーのモジュールで使用して、前のレイヤーからどのベクトルを組み合わせて出力を計算するかを動的に選択できます。これにより、出力を入力の提示順序から独立させたり(入力をセットとして扱う)、異なる入力間の関係を活用したり(入力をグラフとして扱う)することができます。 Transformer アーキテクチャは、多くのアプリケーションで主流のアーキテクチャとなり、多くのレイヤーの「自己注意」モジュールを積み重ねています。同じレイヤー内の各モジュールに対してスカラー積を使用して、そのクエリ ベクトルとレイヤー内の他のモジュールのキー ベクトル間の一致を計算します。一致は合計が 1 になるように正規化され、結果のスカラー係数は、前のレイヤーの他のモジュールによって生成された値ベクトルの凸結合を形成するために使用されます。結果のベクトルは、次の計算段階のモジュールへの入力を形成します。 モジュールは多方向にすることができるため、各モジュールは複数の異なるクエリ、キー、および値のベクトルを計算し、各モジュールが複数の異なる入力を持つことが可能になり、それぞれが前のステージのモジュールから異なる方法で選択されます。この操作では、モジュールの順序と数は重要ではないため、従来のニューラル ネットワークのように単一のベクトルではなく、ベクトルのセットに対して操作を行うことができます。たとえば、言語翻訳システムは、テキスト内の位置に関係なく、出力文で単語を生成するときに、入力文内の対応する単語のセットに焦点を当てることを選択できます。 今後の課題ディープラーニングの重要性と応用性は継続的に検証されており、ますます多くの分野で採用されています。ディープラーニングの場合、パフォーマンスを向上させるシンプルで直接的な方法は、モデルのサイズを増やすことです。 データと計算が増えると、一般的にはよりスマートになります。たとえば、1,750 億のパラメータ (人間の脳のシナプスと比較するとまだ少数) を持つ GPT-3 モデルは、わずか 15 億のパラメータを持つ GPT-2 モデルに比べて大幅な改善を達成しました。 しかし、三大巨頭は議論の中で、パラメータモデルや計算の改善では解決できないディープラーニングの欠陥がまだあることも明らかにした。 たとえば、人間の学習プロセスと比較すると、今日の機械学習では、以下の分野でまだブレークスルーが必要です。 1. 教師あり学習では大量のデータ注釈が必要になり、モデルフリー強化学習では大量の試行錯誤が必要になります。人間の場合、スキルを習得するのにそれほど多くの練習は必要ありません。 2. 今日のシステムは、分布の変化に対して人間よりもはるかに耐性が低いです。人間は、同様の変化に素早く適応するために、ほんの数例しか必要としません。 3. 現在、ディープラーニングは、いわゆるシステム 1 タスクである知覚において間違いなく最も成功しています。ディープラーニングを通じてシステム 2 タスクを実行するには、慎重な一般的な手順が必要です。この分野の研究は興味深いです。 初期の機械学習理論家は、テスト モデルがトレーニング モデルと同じ分布に従うという独立した類似分布の仮定に焦点を当てていました。残念ながら、この仮定は現実の世界では当てはまりません。たとえば、さまざまなエージェントの行動によってもたらされる変化は不安定性を引き起こす可能性があります。また、常に新しいことを学習して発見する学習エージェントの場合、その知能の限界は常に拡大しています。 したがって、現実には、今日最も強力な人工知能であっても、研究室から実際の応用に移されると、そのパフォーマンスは大幅に低下することになります。 そのため、ディープラーニングの将来に対する三大神の重要な期待の一つは、分布が変化した際に素早く適応し、堅牢性を向上させること(分布に依存しないいわゆる汎化学習)により、新たな学習課題に直面した際にサンプル数を削減できることである。 今日の教師あり学習システムでは、新しいことを学習するために人間よりもはるかに多くの例が必要ですが、モデルフリー強化学習の場合は、ラベル付けされたデータと比較して報酬メカニズムが提供できるフィードバックが少なすぎるため、状況はさらに悪くなります。 では、分布の変化に適応できる新しい機械学習システムをどのように設計すればよいのでしょうか? 均質な層から実体を表すニューロンのグループへ 現在、隣接するニューロンのグループが、スカラー量だけでなく座標値のセットも伝達できる、より高レベルのベクトル単位を表す可能性があることを示す証拠があります。この考え方はカプセル アーキテクチャの中核であり、セル内の要素は、キー ベクトル、値ベクトル (場合によってはクエリ ベクトル) を読み取ることができるベクトルに関連付けられます。 複数の時間スケールへの適応 ほとんどのニューラル ネットワークには 2 つの時間スケールしかありません。重みは多くの例に対して非常にゆっくりと適応しますが、動作は新しい入力ごとに変化に非常に速く適応します。素早く適応し、素早く減衰する「高速重み」のオーバーレイを追加することで、コンピューターに非常に興味深い新しい機能が提供されます。 特に、高容量の短期メモリを作成し、ニューラル ネットワークが真の再帰を実行できるようにします。これにより、高レベルの呼び出しでのアクティビティ ベクトルを高速重みの情報を使用して後で再構築できるため、同じニューロンを再帰呼び出しで再利用できるようになります。 複数の時間スケールに適応する能力は、メタ学習に徐々に取り入れられつつあります。 より高いレベルの認知 交通ルールが異なる都市での運転や、月面での車両の運転を想像するなど、新しいタスクを検討する場合、私たちはすでに持っている知識と一般的なスキルを活用して、それらを新しい方法で動的に再結合することができます。 しかし、既知の知識を使って新しい環境に適応する場合、既知の知識が新しいタスクにもたらすノイズ干渉をどのように回避すればよいのでしょうか?開始ステップでは、Transformer アーキテクチャと再帰的な独立メカニズムを使用できます。 システム 1 の処理能力により、計画や推測を行う際に潜在的な利点や危険性を推測することができます。しかし、より高度なシステムレベルでは、AlphaGo のモンテカルロ木探索の価値関数が必要になる場合があります。 機械学習は、帰納的バイアス、つまり過去の経験に依存して、世界についての仮定と一致する方向への学習を促進します。システム 2 処理の性質と認知の神経科学理論は、より斬新なディープラーニング システムを設計するために使用できる、そのような帰納的バイアスとアーキテクチャをいくつか示唆しています。では、世界の潜在的な因果特性のいくつかを発見するために、ニューラル ネットワークをどのようにトレーニングするのでしょうか? 20 世紀に提案されたいくつかの代表的な AI 研究プロジェクトは、どのような研究の方向性を示しているのでしょうか。明らかに、これらの AI プロジェクトはすべて、推論能力、知識を単純なコンピューター操作に素早く分解する能力、抽象的な変数や例を制御する能力など、システム 2 の機能を実現することを目指しています。これは、AI 技術の将来の進歩にとっても重要な方向性です。 3 人の講演者の議論を聞いて、 AI への道のりには明るい未来があると思いますか? |
<<: 人体の中で自由に動くロボット:柔軟でしなやか、毛細血管まで
>>: AIが生成した小説が静かに人気を集めている。人間ならではの創造性がAIにコピーされてしまったのだろうか?
マクロ的な視点で見ると、人工知能(AI)は労働力を補完する存在です。AIはデータに基づく意思決定のツ...
ニュージーランド政府は、政府機関がアルゴリズムを使用する方法のガイドとなることを目的とした一連の標準...
最近、人工知能の開発はますます激しくなってきています。ますます多くの新製品が私たちの生活に入ってきて...
翻訳者 |ブガッティレビュー | Chonglou ChatGPTの最大のセールスポイントの 1 つ...
AI ツールが合法化され、職場に導入されるようになると、人々は当然、その使用例や AI ツールに依存...
[[402555]]はじめに: 機械学習は学術界と産業界の両方でますます重要な役割を果たしています...
自然言語処理 (NLP) により、チャットボットは会話のメッセージを理解してそれに応じて応答できるよ...
近年、人工知能は急速に発展し、新たな科学技術革命と産業変革を主導する中核的な原動力となり、人類の生産...
PHP はまだ比較的よく使用されているので、PHP の再帰アルゴリズムを研究し、皆さんのお役に立てれ...
AI は、正確なバイヤーペルソナをターゲットにすることで、パーソナライゼーションを迅速かつ簡単に実現...
この号では、Kuaishouがコミュニティサイエンスラインで独自開発した論文「TWIN:Kuaish...
頭に貼るビジョンプロは人から人へと広がっています。これがロンドンの街の最新風景です。 「刺激が欲しけ...
[[260361]]新華社によると、ビル&メリンダ・ゲイツ財団の共同議長ビル・ゲイツ氏は最近スタンフ...