強化学習のフレームワークは AI 開発に新たなアイデアを生み出すでしょうか?

[[256809]]

アルゴリズムを理解しておらず、AI機能を備えたアプリを開発したいアプリ開発者の場合、何を選択しますか？

AI モデルを自分でゼロからトレーニングします。
開発プラットフォームのトレーニングフレームワークと API を使用します。

答えは明らかです。技術的なソリューションと低い参入障壁を提供できる後者が最良の選択です。

ただし、多数の開発プラットフォーム上のディープラーニングフレームワークに直面すると、互換性、コミュニティリソース、フレームワークの移行など、考慮すべき問題が多数あります。

最近、フレームワークの議論の焦点は強化学習に移っています。

昨年、Google は TensorFlow をベースにした強化学習フレームワーク Dopamine をリリースしました。強化学習分野のスターである OpenAI も、多くのアルゴリズムをベースラインに組み入れました。Baidu も最近、PaddlePaddle の強化学習フレームワーク PARL を更新しました。これまで控えめだったNetEaseでさえ、自社開発の強化プログラミングフレームワークを発表しました...

ほとんどの開発者にとって、強化学習が何をもたらすのか、それがディープラーニングフレームワークとどう違うのか、そして独自のアプリケーションをどこに向けるべきなのかについては、まだ少し混乱しているかもしれません。

そこで今日は、強化学習の真の価値と実際的な難しさについて明らかにしておきたいと思います。

ディープラーニング、強化学習、深層強化学習、違いが分からない？

数年間の市場教育を経て、ほとんどの開発者はディープラーニングフレームワークで何ができるのか、どのようにそれを実現するのかについて、より深い理解を持つようになりました。

しかし、主要プラットフォームが発表した強化学習フレームワークや深層強化学習フレームワークは、すぐに人々を少し混乱させました。それらの違いは何ですか？また、それぞれどのような責任を負っていますか？

例を挙げて、これら 3 つの機械学習手法の違いを説明しましょう。

もし私が農園工場で、良いリンゴと悪いリンゴを識別できるアプリを作りたいとしたら、その上にトレーニングプロセスを構築するためのディープラーニング開発フレームワークが必要になります。ほぼすべての開発プラットフォームには、既成の画像認識 API があります。トレーニング画像 (つまり、さまざまなリンゴの写真) をシステムにドラッグするだけで、トレーニング済みのリンゴ認識モデルを取得できます。

しかし、私がもう少し怠け者で、熟した良いリンゴを選ぶことを自ら学習できるロボットが欲しい場合はどうでしょうか?ディープラーニングは少し難しいです。

現時点では、強化学習フレームワークを使用してインテリジェントエージェントをトレーニングする必要があります。新鮮で美しいリンゴを選ぶたびに、システムから肯定的な強化に対する報酬を受け取ります。熟していないリンゴや腐ったリンゴを間違って選んでしまった場合は、報酬はもらえず、減点される可能性もあり、これは負の強化です。

より多くの報酬を得るために、インテリジェントエージェントは良い果物を選び、0 ポイントまたはマイナスポイントをもたらす果物を放棄する傾向があります。この方法により、良い果物を賢く収穫できるインテリジェントロボットができました。素晴らしいと思いませんか?

しかし、その甘さを味わった後、私はもう満足できませんでした。キュウリやトマトの収穫を学ばせたかっただけでなく、もう一度訓練するのが面倒だったのです。現時点では、ディープラーニングと強化学習を組み合わせるためのまったく新しいアルゴリズムが必要です。新しい報酬メカニズムを機械に伝えれば、手動でトレーニングしなくても、機械はディープニューラルネットワークを通じて同様のスキルを自律的に習得できます。

以前は、自分でコードを 1 行ずつ入力する必要がありました。今では、開発フレームワークとトレーニングサンプルだけで、疲れ知らずで熱心に学習し、1 つのインスタンスから推論を導き出すことができるインテリジェントエージェントを簡単に作成できます。このような誘惑に抵抗できる人がいるでしょうか。

もちろん、これは動作モードの簡単な説明にすぎません。このようなインテリジェントなモデルを実際にトレーニングし、それを自社製品に適用するのは、より複雑で包括的なプロジェクトです。

しかし、強化学習機能を追加する開発フレームワークの登場により、強化学習のトレーニングにおけるプログラミングの難易度や作業量が大幅に軽減されました。これは、強化学習をしたいが環境やトレーニングを一から構築することができない技術者や企業にとって、間違いなく朗報です。

AI 開発の新たな寵児: 強化学習は実際に何に役立つのでしょうか?

現在、強化学習は学術界で人気となっているだけでなく、主要なトップカンファレンスにおける関連研究論文の割合が急速に増加しており、さまざまな開発プラットフォームでも強化学習フレームワークが展開と競争の重要な焦点となっています。

しかし、問題も発生します。フレームワークは開発のハードルを一部しか下げることができません。カスタマイズされたモデル、デバッグ、互換性などのタスクには、依然として企業が多くの人的資源、物的資源、および資金を投入する必要があります。多大な努力の末に得られた結果がまったく適用不可能であったり非現実的であったりすると、開発者にとって非常に厳しいものとなることは間違いありません。

したがって、軽率に「追随」する前に、まず強化学習の強みは何なのかを明確にする必要があります。どのような状況で開発者はそれに屈服すべきでしょうか?

まず強化学習の核となるロジックについて説明します。エージェントは環境内のさまざまな報酬に応じて、どのような状態でどのようなアクションを取るべきかを判断し、累積報酬を最大化することができます。

例えば、囲碁の世界チャンピオンを破ったAlpha Go、Dota 2で人間のプレイヤーを破ったOpenAI Five、Atari 2600ゲームで最高得点を出したDeepMind DQNなどは、いずれも強化学習をベースにしています。

では、その具体的な特徴は何でしょうか? 大まかに 3 つの側面にまとめることができます。

トレーニングサンプル。強化学習は、環境によって与えられる報酬と罰を通じて学習するもので、報酬を伴うデータが必要です。
インタラクションモード。強化学習の学習プロセスは動的であり、完了するには環境との相互作用が必要です。与えられたサンプルを何でも学習できるわけではありません。環境がなければ役に立ちません。
問題を解決してください。強化学習のロジックは人間の脳に似ており、主にゲームで高得点を取ること、一般的なロボット、推奨システムなど、インテリジェントな意思決定の問題を解決します。

これらの特別な設定により、強化学習は次のような多くのアプリケーション領域で従来のディープラーニングよりも優れたパフォーマンスを発揮します。

制御インテリジェンス: 産業界における多関節ロボットアームのリアルタイム制御。ロボットが YouTube 動画を見て動作を学習し、それを実際のシナリオに適用できるようにしたり、無人車両が道路を横断する人や動物などの特殊な状況に対処する方法を学習できるようにしたりします。

シーケンスの問題: たとえば、行動フィードバックを使用して最適な検索ランキング効果を実現するテキストシーケンス予測、推奨リストに対するユーザーフィードバック (無視、クリック、購入) に基づいて推奨戦略をリアルタイムで変更する e コマース推奨システムなどです。

対話生成: たとえば、複数ラウンドの人間と機械の対話の体験が向上し、ロボットが意味のない話をしたりぎこちなくおしゃべりしたりするのではなく、意味のある対話を継続的に生成できるようになります。ディープラーニングと組み合わせることで、より優れた機械バイリンガル翻訳効果を実現できます。

従来のディープラーニングは、すでに機械の知覚と認識の問題を非常にうまく解決できますが、機械知能に対する人間の要求は明らかにそれ以上です。複雑な現実世界の意思決定問題に対処できる強化学習と、この 2 つの統合は、当然、将来の AI アプリケーションの主要な開発方向になるでしょう。

この場合、アルゴリズムの先行者利益を習得したテクノロジープラットフォームが次々とRLフレームワークを立ち上げており、これは間違いなく開発者と参入権を競うための最良のレイアウトです。

強化学習フレームワークの戦いとは何でしょうか?

もちろん、強化学習は多くの「素晴らしい」成果を達成していますが、その応用上の限界も明らかであり、事前に準備する必要があります。

たとえば、強化学習は生まれたばかりの赤ちゃんのようなものです。すべてのスキルを一からトレーニングする必要があり、タスクの目標を習得できるように教えるには多くの時間がかかります。

さらに、強化学習は即時のフィードバック指示に基づいてのみアクションを実行できます。囲碁や Dota をプレイするには最適かもしれませんが、記憶力と推論能力を必要とするパーソナライズされた音声アシスタントなどのタスクには少し対応できません。

もう 1 つの厄介な問題は、現在の強化学習アルゴリズムは安定性と効率性がまちまちであり、現実のシナリオのアプリケーションニーズを真に満たすためには強化する必要があることです。

したがって、自社のビジネスに適した強化学習フレームワークをどのように選択してテストするかが、現時点で開発者にとって最も懸念される問題である可能性があります。

強化学習の開発方向と各プラットフォームの特性に関して、参考までに未熟な提案をいくつか挙げます。

プラットフォームの安定性と再現性

ディープラーニングは、固定されたデータセットと固定された目標により安定しています。ハイパーパラメータの小さな変更でも、最終的なパフォーマンスに大きな影響を与えることはありません。しかし、強化学習（または深層強化学習）の場合はそうではありません。トレーニングの結果は、ランダム確率、サンプル効率、アルゴリズムの安定性など、複数の要因の影響を受け、結果に大きな違いが生じ、成功率が低下します。さらに深刻な状況では、機械はどんなに試しても失敗すると考え、クラッシュして学習を停止します。

ランダム性と再発性の問題を解決するために、プラットフォームごとに異なるソリューションが存在します。

たとえば、Google はトレーニング環境とテストフェーズを標準化しています。コードには 60 個のゲームのテスト範囲とトレーニングデータが提供され、アーケード学習環境を使用して標準化された実証的評価が実行されます。

一方、Baidu は可能な限り多くの関連アルゴリズムをカバーしています。 PARL フレームワークは、モデルの再現性を保証するために、多数の主流の古典的なアルゴリズムとハイパーパラメータの完全なリストを含むアルゴリズムコレクションを提供します。

柔軟性と使いやすさ

ほとんどの開発者の最大の要求は、技術的なフレームワークを使用してアルゴリズムの束縛を打ち破り、自由に実行して、独自の新しいアイデアとビジネスの創造性を解き放つことです。したがって、フレームワークの設計では、一方では多様化するビジネスシナリオとシンプルなトレーニング方法との間の矛盾のバランスを取り、他方では技術トレンドの急速な繰り返しに対応する必要があります。

たとえば、Google の Arcade 学習環境では、インテリジェントエージェントの動作を理解するのは非常に簡単で、詳細なドキュメントと独自のログが用意されています。さらに、Google は、開発者が短期間で新しいアイデアを明確かつ直感的に整理、検証、反復できるようにするための TensorBoard 視覚化ツールスイートもリリースしました。

フレームワークとビジネスの結合

強化学習が産業分野で実装されるまでにはまだまだ時間がかかると言われていますが、基礎開発から産業統合に向けた技術的枠組みが整備されており、このプロセスを加速できることは明らかです。

したがって、技術フレームワークと業界のビジネスニーズを組み合わせることが、開発プラットフォームの活力に対する大きな保証となります。たとえば、Baidu は強化学習フレームワークの開発を加速させ、強化学習アルゴリズムにおける中国語の文書とトレーニングデータのギャップを効果的に埋めました。

もう一つ考慮すべき点は、中国世界における開発者の数、データ規模、ユーザー数です。技術フレームワークのサポート能力も大きな課題です。 PaddlePaddle の大規模な産業グレードのソート/推奨およびその他のスパースモデルのサポートに基づいて、Baidu の PARL は数百億のデータまたは機能のトレーニングに簡単に拡張できます。この並列高速化機能は、中国市場の実際のニーズにさらに合致しています。

もちろん、コミュニティリソースの豊富さ、アルゴリズムの品質、アプリケーションツールの多様性など、強化学習のパフォーマンスとユーザーの選択に影響を与える要因は数多くあります。

一般的に、現段階では、低い閾値と短い時間で優れた強化学習モデルをトレーニングすることはまだ非常に困難です。しかし、アンドリュー・ン氏が「短期的には悲観的、長期的には楽観的」と述べたように、深層強化学習が機械知能の次の発展方向であることは間違いありません。

将来に勝ちたいのであれば、この新たな競争上の優位性を獲得しなければなりません。強化学習の枠組みを巡る議論は、まだ序章に過ぎません。想像以上に難しい様々な実践的な問題が一つずつ解決されていくにつれ、面白いことがたくさん起こるでしょう。

<<: レポート：人材市場の給与は2018年第4四半期に回復し、AI職の平均月給は3万人民元に達した。

>>: ディープ CNN アーキテクチャの革新の 7 つのカテゴリのレビュー