この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 過去 10 年間で、機械学習は確かに大きな進歩を遂げ、コンピューター ビジョンや言語処理の分野で世界を変える重要なアプリケーションが数多く登場しました。しかし、この「春風」は知能ロボットの分野には吹きませんでした。 ロボット学習が直面するボトルネックに対応して、MITのロボット工学専門家レスリー・パック・ケーブリング氏は「効率的なロボット学習の基礎」と題する記事をサイエンス誌に発表した。この現象の重要な要因は、ロボット学習のためのデータが現実世界での運用を通じてのみ取得可能であり、非常にコストがかかることだと彼女は考えています。 そのため、レスリー教授は、次世代のロボット学習における技術革新を実現するには、新しいアルゴリズムの適用、自然システムからのインスピレーションの引き出し、複数の機械学習技術の柔軟な使用が必要であると提案しました。 1. 強化学習は本当に効果的ですか?教師あり学習は多くの重要な成果を達成していますが、ロボットは人間の世界でさまざまなタスクを実行する必要があるため、ロボット学習の分野では強化学習 (RL) が有利です。 教師あり学習では、学習アルゴリズムに入力と望ましい出力のペアの例が与えられ、入力と望ましい出力を関連付けることを学習します。強化学習では、インテリジェントエージェントは、事前に設定された報酬信号に基づいてパフォーマンスが優れているか劣っているかを判断し、適切な行動方針を選択できるため、ロボットが使用される複雑な環境に役立ちます。簡単に言えば、教師あり学習と強化学習の本質的な違いは、強化学習ではエージェントの行動がデータに大きな影響を与え、エージェント自身の学習探索を制御できるため、全体的な成功に非常に重要であるということです。 当初、RL は報酬と罰のメカニズムを通じて動物の行動を学習するモデルでした。そして、RL を現実世界の問題に適用する場合、膨大な入力とアクションの空間を処理し、主要なアクションを正常に実行した後に報酬が遅延した場合でも正常な動作を維持できるように拡張する必要があります。このとき、深層強化学習(DRL)方式が登場しました。 DRL はニューラル ネットワークを使用して上記の現実世界の問題を解決し、ロボットがチェスや囲碁をプレイしたり、ロボット アームを使用してルービック キューブを 3 秒で解いたりするなど、驚くべきパフォーマンスを発揮しました。さらに、RL は、インストールされたコンピューターのエネルギー効率の向上など、多くの実用的なアプリケーションをもたらします。
これらのロボットの成功例を見ると、当然人々は疑問に思うでしょう。物理的な世界では、RL はこれまでロボットやその他の複雑な動作システムで使用されてきた従来のエンジニアリング手法を完全に置き換えるのでしょうか? 技術的な観点から見ると、このアイデアは不合理です。 高齢者の家事の手伝いに特化したロボットを想像してみましょう。ロボットは「仕事」を始める前に、まず多くの知識と能力を身につけていなければならず、また職場で新しい知識を学び、継続的に仕事の経験を積む必要もあります。後者の学習は、サンプル効率(比較的少ないトレーニング例が必要)、一般化可能(特定の学習コンテキストを超えた状況に適用可能)、構成可能(以前の知識と組み合わせることができる)、および増分的(時間の経過とともに新しい知識と機能を追加できる)である必要があります。 しかし、既存の DRL 方式には上記のような特徴がありません。彼らは多くの驚くべき新しいスキルを習得できますが、一般的に、蓄積した経験を他の側面にうまく一般化することができず、トレーニングと実行のプロセスは単調で、たとえば、新しい知識を得ることも、過去の経験を組み合わせることもありません。 インテリジェント システムは、サンプル効率、一般化可能性、組み合わせ可能性、増分性を同時に実現するにはどうすればよいでしょうか?現代のニューラル ネットワークは、補間問題を効果的に処理できることが示されています。 多数のパラメータを使用すると、ニューラル ネットワークはトレーニング データを記憶し、類似の例に対して信頼性の高い予測を行うことができます。学習アルゴリズムに、組み込みの知識や構造の形で「帰納的バイアス」を与えることで、一般化機能を獲得できます。たとえば、誘導バイアスを備えた自動運転システムでは、システムのブレーキ計画は、指定された距離範囲内にある他の車両の位置を参照するだけで済みます。観測されたデータに適合する利用可能なソリューションが限られているため、システムの知識は比較的少数の例から取得できます。 全体的に、誘導バイアスはサンプル効率と一般化能力を向上させることができます。組み合わせ性と増分性は、学習を通じて獲得した「知識」を独立した意味を持つ要素に分解し、それらを組み合わせて多数の新しい問題を解決できる、特定の構造を持つ帰納的バイアス モデルを構築することで実現できます。 2. 誘導バイアスを巧みに確立するにはどうすればよいでしょうか?事前の知識や構造に基づく意見は、必ずしも「真の洞察」とは限りません。 強化学習分野の先駆者であるリチャード・サットンは、人間は学習システムに事前の知識を取り入れるべきではないと固く信じています。なぜなら、歴史を通じて、これはしばしば間違いだったからです。リチャード・サットン氏の記事は大きな反響を呼び、学習システムの設計における重要な問題を指摘しました。それは、システムが不正確なデータや過度に制約されたデータによって失敗することなく、大量のデータから一般化可能な知識を学習できるようにするには、学習システムにどのような帰納的バイアスを確立する必要があるか、という問題です。 適切なバイアスを設定するには 2 つの方法があります。これら 2 つのアプローチは首尾一貫していますが、時間範囲とトレードオフが異なり、学習エージェントに必要な強力で柔軟な事前構造を見つけるために同時に適用できます。 アプローチ1: 機械学習技術を「メタ」レベルで使用する このアプローチは、システム設計フェーズ中に機械学習技術をオフラインで使用して、インテリジェント エージェントのオンライン学習の効率を向上できる構造、アルゴリズム、事前知識を発見することを指します。 メタ学習の基本概念は、少なくとも 1980 年代から機械学習と統計学に登場しています。基本的な考え方は、システム設計フェーズで、メタ学習プロセスが、オンライン学習中にシステムが直面する可能性のある多くの潜在的なタスクや環境のサンプルにアクセスできるというものです。 メタ学習者の目的は、単一の環境に適した複数の戦略や、すべての環境に適用できる単一の戦略を習得することではなく、オンライン学習中に新しいタスクや新しい環境に直面したときに、可能な限り効率的に学習できるアルゴリズムを習得することです。この目標は、トレーニング タスク間の共通性を誘導し、これらの共通性を使用して強力な事前確率または誘導バイアスを形成し、オンライン学習エージェントがトレーニング タスクと区別される新しいタスクの側面のみを学習するようにすることで達成できます。 メタ学習は、一種の階層的ベイズ(確率的)推論として非常にエレガントに形式化できます。この形式の推論では、トレーニング タスクは、オンラインで学習したタスクがどのように実行されるかについての証拠を提供し、この証拠に基づいて、オンライン学習によって取得されたデータを有効に活用するものと見なすことができます。ただし、ベイズの定式化は、システム設計フェーズで発生する多数のタスク (オンライン学習の実際のタスクも含まれる場合があります) について推論するために使用されるため、実装が計算的に困難になる可能性があります。 アプローチ2: メタ学習を2つのネストされた最適化問題として明示的に定式化する 内部最適化は、エージェントがシステム設計フェーズ中に生成された一連の仮説からオンライン学習データ内で最も「スコア」の高い仮説を見つけようとするときにオンラインで実行されます。内部最適化には、仮説空間、スコアリング基準、および最適な仮説を検索するために使用されるコンピューター アルゴリズムが含まれます。従来の機械学習では、これらの要素は人間のエンジニアによって提供されます。 しかし、メタ学習では、少なくともその一部は、システム設計フェーズ中に実行される外部の「メタ」最適化プロセスによって提供されます。メタ最適化は、内部学習プロセス自体のパラメータを見つけようとします。これらのパラメータにより、メタ学習された環境(同じ分布から派生)に類似した新しい環境での学習が可能になります。 最近の研究では、モデルに依存しないメタ学習 (MAML) と呼ばれる新しい形式のメタ学習が導入されました。 MAML はネストされた最適化フレームワークであり、外部の最適化によって内部のニューラル ネットワークの重みの初期値が選択され、オンライン学習用の標準的な勾配降下法の最適化方法を使用してさらに調整できます。 RL2 アルゴリズムは、システム設計段階で DRL を使用して、オンライン学習によって実行される小さな一般的なプログラムを学習しますが、これらの小さなプログラムは必ずしも機械学習プログラムの形式を持っているわけではありません。別のバリエーションでは、システム設計フェーズ中に、オンライン学習で発生する問題を解決するために組み合わせることができるモジュール式のビルディング ブロック (小さなニューラル ネットワークなど) を発見しようとします。 自然界における進化のプロセスは、メタ学習の極端な形として考えることができます。自然の進化において、自然は潜在的な学習アルゴリズムを含む、動物のための極めて制限のない空間を求めています。 (もちろん、エージェントの生理学的状態も本質的に変化します。) ロボットのライフサイクル全体にわたって内部最適化問題を処理する際の柔軟性を高めるには、システム設計フェーズでのサンプル環境、オンライン学習用のパフォーマンスの低いロボット、両方のフェーズで動作する計算能力など、堅牢性のためのより多くのリソースが必要です。 この時点で、元の問題に戻ります。標準的な強化学習方法は、一般的な学習方法ではありますが、大量のオンライン学習経験を必要とするため、使用されません。ただし、メタ強化学習 (meta-RL) には広範なシステム設計経験が必要であり、開発プロセスがわかりにくくなり、時間がかかり、コストがかかる可能性があります。したがって、メタ学習も良い解決策ではないかもしれません。 それで解決策は何でしょうか?人間による指導、他のロボットとの共同学習、ロボットのハードウェアとソフトウェアの変更など、探求できる方向性は数多くあります。これらすべてのケースにおいて重要なステップは、ロボット ソフトウェアを開発するための効果的な方法を考案することです。コンピュータサイエンスとエンジニアリングからの洞察、および認知神経科学からのインスピレーションを適用することで、学習エージェントに組み込むことができるアルゴリズムと構造を見つけ、システム設計段階とオンラインの両方でアルゴリズムと構造を学習するための手段を提供できます。 畳み込みニューラル ネットワークの開発は、上記のアプローチの典型的な例です。畳み込みニューラル ネットワークの背後にある考え方は、画像全体にわたって同じ計算パターンを使用して「畳み込み」、つまり画像パッチのローカル処理を実行するように、画像処理用のニューラル ネットワークを設計することです。この設計では、事前の知識もエンコードされます。ここで、事前知識とは、オブジェクトが画像内のどこにあっても本質的に同じ外観を持つという事実(平行移動不変性)と、近接するピクセルのグループが画像の内容に関する情報を共有するという事実(空間的局所性)を指します。この方法でニューラル ネットワークをトレーニングすると、畳み込み構造がない場合よりも必要なパラメーターが少なくなるため、トレーニング ステップの数もそれに応じて削減されます。 画像の畳み込みのアイデアはエンジニアと自然からインスピレーションを得たもので、初期の信号処理とコンピューター ビジョンの基本的な概念です。哺乳類の視覚皮質の細胞も同様の計算を実行していると長い間考えられてきました。 3. 結論このことから、ロボットが一般的な知的行動を実行することを妨げずにロボットの学習に大きな効果をもたらすことができる、畳み込みなどのより基本的な構造やアルゴリズムの制約を発見することが、非常に重要なステップであることがわかります。ライフォン 現在、次のような優れたソリューションがいくつかあります。1. アクション効果を持つ「メンタル モデル」を使用して、計画や推論に似た何らかの形式の前方検索を実行します。2. 単一のオブジェクトから抽出された知識を学習して表現しますが、幅広く適用できます。たとえば、すべての A と B について、A が B の上にある場合、B が移動すると、A も移動する可能性があります。3. 3 次元空間でのアクションの計画と実行、および 3 次元空間をストレージの組織原則として使用することなど、3 次元空間に関する推論。ライフォン さらに、システム設計段階とオンラインの両方でトレーニングを実行できるインフラストラクチャを開発する方法や、人間が報酬を明確にし、安全性を維持できるようにする方法など、潜在的に効果的な原理や解決すべき多くの問題が必要になる可能性があります。工学原理、生物学的インスピレーション、システム設計段階での学習、そして最終的にはオンライン学習を総合的に考慮することによってのみ、人間は最終的にヒューマノイド型知能ロボットを作成できるようになります。 |
<<: 2.5 ~ 4 倍の深さで、より少ないパラメータと計算量で、DeLighT はどうやってそれを実現したのでしょうか?
[[282801]]私はバスケットボールが好きです。私はバスケットボールをしたり、観戦したり、バス...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
今日のスマート シティは、都市部を再形成する高度なテクノロジーによって推進されています。人工知能とモ...
ChatGPT は情報を提供したり質問に答えたりするだけでなく、インテリジェントなアシスタントとして...
エッジコンピューティングとは最近、エッジコンピューティングは、人工知能やモノのインターネットの分野で...
人工知能に関しては、多くの人が懸念を表明しています。例えば、人類開発の最前線にいるホーキング博士とマ...
「人工知能+ヘルスケア」が急速に発展しています。医学は、帰納的論理、経験的学習、証拠に基づく応用に依...
[[227297]]注: この記事は、Keras の作者である François Chollet に...
[51CTO.comより引用] 2017年12月1日~2日、51CTO主催のWOTDグローバルソフト...
暗号通貨は、その極端な変動性で知られています。市場の価格は非常に急速に変動するため、トレーダーが市場...
最近人気の AI スタートアップ企業 Groq は、現在一般的な GPU 推論システムよりも 4 倍...