現在、機械学習システムは、コンピュータービジョン、音声認識、自然言語処理など、多くの分野でさまざまな困難な問題を解決できますが、人間の推論の柔軟性と汎用性を備えた学習対応システムを設計することは、まだ実現されていません。これにより、現代の機械学習に何が欠けているのかについて多くの議論が生まれ、この分野で解決しなければならない大きな問題に関する多くの仮説が生まれました。 疑問は、これらの欠けている要素は因果推論なのか、帰納的バイアスなのか、より優れた自己教師あり学習アルゴリズムや教師なし学習アルゴリズムなのか、それともまったく別の何かなのか、ということです。今年10月に発表された論文の中で、強化学習の専門家であり、カリフォルニア大学バークレー校の電気工学およびコンピューターサイエンスの助教授であるセルゲイ・レヴィン氏は、この問題を取り上げ、詳細に議論しました。 この研究では、強化学習は、一般的な教師なしまたは自己教師付きの強化学習目標とオフライン強化学習手法を組み合わせて、大規模なデータセットを活用することで、ラベルなしデータを活用するための一般的で原理に基づいた強力なフレームワークを導き出すことができると考えています。さらに、この研究では、このようなプロセスを潜在的な下流のタスクとより密接に統合する方法と、近年開発された既存のテクノロジーに基づいてそれをどのように実現できるかについて説明します。 論文アドレス: https://arxiv.org/pdf/2110.12543.pdf この質問に答えるのは難しく、どんな答えも必然的に多くの推測を伴うが、人工知能の最近の進歩から得られた教訓はいくつかの指針となる原則を提供できると彼は主張する。 最初の教訓は、大量のトレーニング データを必要とする大規模な汎用モデルの「不合理な」有効性です。アルバータ大学のコンピューターサイエンス教授であるリチャード・S・サットン氏が論文「苦い教訓」で述べたように、また機械学習分野の他の多くの研究者が述べたように、機械学習における最近のテーマは、大量の計算とデータを効率的に活用する方法が、手作業で設計された事前確率とヒューリスティックに依存する方法よりも優れていることが多いということです。この傾向の理由を探ることはこの記事の範囲を超えていますが、要約すると(または誇張すると)、次のように言えます。モデルにバイアスや事前確率を設計する際、世界がどのように機能するかについての私たち自身の不完全な知識を注入することになり、その結果、モデルは設計したよりも正確になり、より適切に機能します。 実際、人々が熟練度を獲得する方法にも同様のパターンが見られます。カリフォルニア大学バークレー校の名誉教授である SE Dreyfus 氏らが著書「Philosophy and Technology II」で論じているように、明確に表現できるルールに従う「ルールベース」の推論では、さまざまなスキルにおいて「初心者レベル」のパフォーマンスしか得られないことが多く、一方で「専門家レベル」のパフォーマンスは、人々が明確に表現することが難しいさまざまな特殊なケース、例外、パターンに密接に関連していることが多いのです。ドレイファスが指摘するように、真の専門家である人間は、自分の専門知識を証明するルールを明確に説明することはほとんどできません。したがって、人間が経験から専門知識を獲得する必要があるのと同様に、機械学習も同様に経験から専門知識を獲得する必要があります。これを実現するためには、バイアスが少なく、必要とされる大量の経験を処理できる、強力で大容量のモデルが必要だと研究者らは主張している。 2 つ目の最近の教訓は、手動のラベル付けと監督は、監督なし学習や自己監督学習ほど拡張性がないということです。教師なし事前トレーニングが自然言語処理の標準となり、他の分野でもすぐに標準になる可能性があることがわかりました。ある意味で、この教訓は最初の教訓の必然的な結果です。つまり、大規模なモデルと大規模なデータセットが最適に機能する場合、モデルまたはデータセットのサイズを制限するものは最終的にボトルネックになります。人間による監督は、そのようなボトルネックの 1 つになる可能性があります。すべてのデータを人間がラベル付けしなければならない場合、システムが学習するデータが少なくなります。しかし、ここでジレンマに陥ります。人間のラベルなしで学習する現在の方法は、多くの場合、最初のレッスンの原則に違反しています。つまり、大規模なモデルがラベルなしのデータセットから意味のある知識を獲得できるようにする自己教師学習の目標を設計するには、多くの人間の洞察力 (通常はドメイン固有) が必要であるということです。これらには、言語モデリングなどの比較的単純なタスクだけでなく、2 つの変換された画像が同じ元の画像から生成されたのか、それとも 2 つの異なる画像から生成されたのかを予測するなどのより難解なタスクも含まれます。後者は、コンピューター ビジョンにおける現代の自己教師学習で広く使用され、成功しているアプローチです。これらのアプローチはある程度効果的ですが、次に直面するボトルネックは、人間によるラベル付けや手動で設計された自己教師付き目標を必要とせずに大規模なモデルをトレーニングする方法を決定することかもしれません。その結果得られるモデルは、世界に対する深く有意義な理解を持ち、下流のタスクを実行するときに堅牢な一般化とある程度の常識を示すことができます。 著者らの見解では、このような方法論は現在の学習ベースの制御(強化学習、RL)アルゴリズムから開発できる可能性があるが、このようなアプローチがこれまで解決できた問題の種類を大幅に超えるようにするには、かなりのアルゴリズムの革新が必要になるだろう。このアイデアの中心にあるのは、自律エージェントが環境を多様かつ目標指向的に制御するためには、環境についての因果関係と一般化可能な理解を発達させ、それによって現在の教師ありモデルの多くの欠点を克服しなければならないという概念です。 同時に、2 つの重要な点で現在の強化学習パラダイムを超える必要があります。一方、強化学習アルゴリズムでは、ユーザーがタスクの目的、つまり報酬関数を手動で指定し、タスクの目的を達成するために必要な動作を学習する必要があります。もちろん、このアプローチでは、人間の監督なしではインテリジェントエージェントの学習能力が大幅に制限されます。一方、現在一般的に使用されている強化学習アルゴリズムは、本質的にデータ駆動型ではなく、オンライン体験から学習します。このような方法は実際の環境に直接展開できますが、オンラインでのアクティブなデータ収集では、そのような設定での一般化機能が制限されます。さらに、強化学習のユースケースの多くはシミュレートされた環境で発生するため、現実世界がどのように機能するかを学ぶ機会はほとんどありません。 行動を通して学ぶAI システムは、意思決定に使用できる推論を提供し、それが世界に影響を与える可能性があるため便利です。したがって、一般的な学習目標は、最も有用で有意義なことを学ぶ動機を与えることであるべきだと結論付けることができます。強化学習によって、高容量モデルをトレーニングするための自動化された原則的な目標がどのように提供され、モデルに理解、推論、一般化の能力が付与されるかを検討する必要があります。 しかし、これには 2 つの制限があります。強化学習では報酬関数を手動で定義する必要があり、強化学習では能動学習パラダイムも必要です。目標指向の問題を解決するために、研究者は、ユーザーが指定した単一のタスクを実行するのではなく、すべての可能な結果について推論することを目的とした新しいアルゴリズムの開発に着手しました。これらの方法の根本的な目標には、あらゆる実行可能な状態に到達することを学ぶこと、潜在的な目標と結果の間の相互情報量を最大化することを学ぶこと、そして原則に基づいた、内発的に動機付けられた目標を通じて幅広い結果を達成することを学ぶことが含まれます。データの問題に対処するために、研究者は以前に収集されたデータセットを効果的に活用できる強化学習アルゴリズムを開発する必要があります。オフライン強化学習アルゴリズムは、教師あり学習とほぼ同じ方法で多様なデータセットで RL システムをトレーニングする方法を提供し、その後、一定量のアクティブなオンライン微調整を行って最適なパフォーマンスを実現します。 たとえば、さまざまなタスクを実行し、ユーザーが指定した目標を与えると、ロボットがその目標を実行するロボットを想像してください。しかし、ロボットの「余暇」の間に、ロボットは自分が生み出す可能性のある結果を想像し、「練習を実践」することでその結果を生み出すための行動をとります。このような練習を重ねるごとに、ロボットは世界の因果構造に対する理解を深めていきます。 もちろん、上記の方法で商用ロボット システムを現実世界に導入することは、概念的には非現実的に思えます。これがまさにオフライン RL が重要な理由です。オフライン アルゴリズムは経験のソースから独立しているため、ロボットがユーザー指定の目標を達成するために費やす時間と「プレイ」する時間の比率を、極端に調整できます。すべての時間をユーザー指定のタスクの実行に費やすシステムでも、オフライン トレーニング データとして収集した経験を使用して、目的の結果を達成するための学習を行うことができます。このようなシステムは依然として環境を「操作」しますが、その「メモリ」内で仮想化されるだけです。 ロボット システムは、おそらくこのタイプの設計を具体化する最も明白な領域ですが、ロボットに限定されるわけではありません。推奨システム、自動運転車、在庫管理および物流システム、対話システムなど、アクションの概念が明確に定義されたあらゆるシステムをこの方法でトレーニングできます。 多くの状況では、オンラインでの探索は実行できないかもしれませんが、オフライン RL を介して教師なしの結果主導の目標で学習することは実行可能です。前述したように、ML システムはインテリジェントな意思決定を行う能力があるため、非常に便利です。したがって、有用な ML システムは意思決定が可能な順次プロセスであり、この自己教師あり学習手順が適用できるはずです。 教師なしおよび自己教師あり強化学習教師なしまたは自己教師ありの強化学習は、2 つの基準を満たす必要があります。1 つ目は、学習するアクションが世界を意味のある方法で制御すること、2 つ目は、できるだけ多くの方法で自身のアクションを制御することを学習するための何らかのメカニズムを提供することです。 自己教師あり強化学習の目的を定式化する最も簡単な方法は、目標状態に到達するという問題として枠組みを定めることです。これは、ターゲット条件付きポリシー π(a|s, g) をトレーニングし、何らかの報酬関数 r(s, g) を選択することに対応します。この報酬関数自体は手動で設計された目標を構成する可能性がありますが、特定の結果につながる可能性が最も高いアクションを予測するなど、明確に定義された推論問題を解決した結果が報酬関数となるフレームワークを導き出すことも可能です。この問題の定式化は、密度推定、変分推論、モデルベースの強化学習、および探索に関連しています。 あらゆる目標を達成するように訓練された政策は、世界から何を学ぶことができるでしょうか?最近の研究や RL に関する古典的な文献で指摘されているように、この種の目標制約付き RL 問題を解決することは、ダイナミクス モデルの学習に相当します。直感的に言えば、望ましい結果を達成するには、行動が長期的な環境にどのように影響するかを深く理解する必要があります。もちろん、モデルベースの RL でより一般的に使用されているダイナミクス モデルを学習するだけでは不十分ではないかと疑問に思う人もいるかもしれません。モデル学習は、ユーザーが特定の目標を設定する必要なく、さまざまなデータセットを活用する効果的な方法となる場合もあります。したがって、ML システムの最終的な目標が望ましい結果をもたらすことである場合、結果として得られる目標は望ましい目標と一致すると予測できます。 しかし、現在の方法には多くの制限があり、目標到達条件下での強化学習方法でさえも使いにくく、安定性に欠けています。しかし、もっと重要なのは、目標達成は、RL で指定できる可能性のあるタスクの全範囲をカバーしているわけではないということです。エージェントが特定の環境ですべての可能な結果を正常に完了することを学習したとしても、ユーザーが指定した報酬関数を最大化する単一の望ましい結果が存在しない可能性があります。この目標条件付きポリシーは、下流のタスクに合わせて簡単に微調整できる強力で幅広く適用可能な機能を学習した可能性がありますが、将来の研究における興味深い問題は、より一般的な自己教師付き目標をより深く理解することでこの制限を取り除くことができるかどうかです。教師なしスキル獲得のために提案されている多くの方法を考慮すると、より一般的で原理的な自己教師付き強化学習の目標がそれらから導き出されるかどうかを問うのは合理的です。 オフライン強化学習前述したように、オフライン RL では、オンライン収集が不可能な場合でも自己教師ありまたは教師なし RL 手法を適用でき、このような手法は、大規模で多様なデータセットを自己教師あり RL に組み込むための最も強力なツールの 1 つとして機能します。これは、大規模な表現学習のための真に実行可能で一般的なツールにするために非常に重要です。しかし、オフライン RL には多くの課題があり、その中でも最も重要なのは、反事実的質問に答える必要があることです。つまり、結果を示すデータが与えられた場合、別のアクションをとった場合に何が起こったかを予測できるでしょうか?これは非常に難しいです。 それにもかかわらず、オフライン RL の理解はここ数年で大きく進歩しました。分布シフトがオフライン RL にどのように影響するかを理解することに加えて、オフライン RL アルゴリズムのパフォーマンスも大幅に向上しました。この分野では、堅牢性の保証、オフライン事前トレーニング後のオンライン微調整を提供し、オフライン RL 設定におけるその他のさまざまな問題に対処するいくつかの新しいアルゴリズムが開発されています。 自己監視型の現実世界のロボット システム RECON は、これまでに見たことのない環境でナビゲーション タスクを実行するようにトレーニングされています。 自己教師型の現実世界のロボット オペレーティング システム。オフライン RL を使用してトレーニングされ、さまざまな目標達成タスクを実行する実用的なモデル。このシステムは、従来の報酬を介して下流のタスクの習得を加速するための一般的な事前トレーニングとしても使用できます。 さらに、オフライン RL の進歩により、自己教師あり RL 手法の適用性も大幅に向上する可能性があります。オフライン RL ツールを使用すると、独自に探索する必要のない自己教師あり RL メソッドを構築できます。前述の「仮想プレイ」と同様に、オフライン RL と目標条件付きポリシーを組み合わせて、以前に収集されたデータから完全に学習することができます。しかし、依然として大きな課題が残っています。オフライン RL アルゴリズムは、ハイパーパラメータに対する感度など、標準またはディープ RL 学習の多くの難しさを引き継いでいます。これらの困難は、最適なハイパーパラメータを決定するために複数のオンライン実験を実行できないことによってさらに悪化します。教師あり学習では、検証セットを使用してこれらの問題に対処できますが、オフライン RL には同等のセットがありません。オフライン RL 手法を真に広く適用できるようにするには、より安定した信頼性の高いアルゴリズムと、より効果的な評価方法が必要です。 記事内の GIF は https://medium.com/@sergey.levine/understanding-the-world-through-action-rl-as-a-foundation-for-scalable-self-supervised-learning-636e4e243001 から引用しました。 |
>>: ビジョンレーダーは、センサーコンピューティングによる次世代の自動運転システムの重要なコンポーネントです。
高品質なデータの取得は、現在の大規模モデルのトレーニングにおける大きなボトルネックとなっています。数...
[[245793]]セキュリティにおける AI の役割は、ホワイトハットハッカーとサイバー犯罪者の両...
データ画像。画像/アンスプラッシュ近年、個人情報保護法などの法律や規制の導入・施行により、我が国はデ...
ディープラーニング モデルが大きくなるにつれて、あらゆる種類のハイパーパラメータ調整を行うのは非常に...
マーク・アンドリーセンはかつてウォール・ストリート・ジャーナルに「なぜソフトウェアが世界を席巻してい...
[[418732]]機械学習は、人々がデータを利用し、データとやり取りする方法に革命をもたらし、ビジ...
翻訳者 | ジン・ヤンレビュー | Chonglou現在、人工知能と自動化は急速な発展段階に入ってお...
機械学習と人工知能は近年最もホットなキーワードの 1 つであるはずです。今日は機械学習の基礎知識をい...
ディープフェイクの出現以来、多くの論争を引き起こし、多くの倫理的、社会的問題を引き起こしてきました。...
かつて、農業と言えば、人々はいつも「真昼に畑を耕し、汗を地面に垂らす」という苦労を思い浮かべていまし...
李開復氏が所有するAI企業Zero One Everythingにも、もう1つの大手モデルプレイヤー...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...