強化学習はアプリケーションにおける戦略の「最適解」を見つける

現在、AI システムは、さまざまなパターン認識や予測分析タスクを実行するために業界で一般的に使用されています。たとえば、AI システムは画像内のパターンを識別して顔を検出したり (顔認識)、販売データ内のパターンを見つけて需要の変化を予測したりすることができます。一方、強化学習手法は、フィードバックループを備えたアプリケーションで最善の決定を下したり、最善のアクションを実行したりすることができます。これら 2 つの直感的な使用例を通じて、AI と強化学習の違いとつながりについての予備的な理解がすでに確立されていると思います。

[[392924]]

AI 技術を使用して製造工場を運営するとします。 AI が提供するパターン認識機能は、画像や最終製品をスキャンして設計レベルや製造レベルでの欠陥を検出するなど、品質保証に使用できます。一方、強化学習システムは、製造工程が従うべき戦略（稼働させるべき生産ラインの決定、機械・ロボットの制御、製造する製品の種類の決定など）を算出・実行し、フィードバック情報を継続的に組み合わせることで、既存の戦略の改善余地を発見しながら、一定の製品品質を確保しながら特定の指標（出力など）を最大化することができます。これまで、このような問題は影響要因が多数存在するため従来の AI システムでは解決が困難でしたが、強化学習の登場により希望がもたらされたことは間違いありません。

強化学習を使用して最適な戦略またはポリシーを計算する場合、関連するアルゴリズムが直面する主な課題は、「時間的なクレジット割り当て」の問題です。具体的には、特定のシステム状態 (「マシンの現在の出力レベル、各組立ラインの忙しさ」など) では、動作 (「水曜日に生産ライン 1 を実行する」など) が全体的なパフォーマンス (「合計出力」など) に与える影響を判断するのに時間がかかることがよくあります。さらにイライラするのは、特定の操作方法によって全体的なパフォーマンスが影響を受けることです。つまり、戦略を策定し、結果を事前に評価する場合、どれが良い選択でどれが悪いアイデアであるかを判断するのは難しいことがよくあります。このような複雑な問題では、潜在的なシステム状態の数が多いため、恐ろしい「次元の呪い」も引き起こされ、結果の不確実性がさらに悪化します。しかし、朗報としては、近年の研究室における強化学習の優れた成果により、このような困難な問題を解決できる明るい希望がもたらされているということです。

これまで、強化学習の優れた性能は、主にボードゲームやビデオゲームの分野で実証されてきました。強化学習システムは、画面上の画像とゲームスコアというたった 2 つの入力だけで、さまざまな Atari ゲームで人間のプレイヤーをあっという間に打ち負かし、AI コミュニティ全体に深い印象を残しました。この優れたシステムは、ロンドンを拠点とする AI 研究機関 DeepMind によって 2013 年に作成されました。その後、DeepMind は、囲碁の大会で世界のトッププレイヤーを簡単に打ち負かすことができる AlphaGo エージェントから始めて、一連の強化学習システム (エージェントとも呼ばれる) を構築しました。 2015年から2017年にかけての一連の偉業により、強化学習の名は世界に広まりました。数え切れないほどのファンを持ち、高度な複雑性と中長期的な戦略的思考が求められる頭脳スポーツである囲碁で優勝したことで、強化学習の将来的な応用についても人々の関心が高まっています。

それ以来、DeepMindとAI研究機関OpenAIは、StarCraftやDota 2といったゲーム向けのシステムをリリースしており、これらも世界トップクラスの人間プレイヤーと競争できるようになっている。厳密な戦略的思考、リソース管理、ゲーム内の複数のユニットの制御/調整を必要とするシナリオでは、強化学習が依然として優れたパフォーマンスを発揮するようです。

強化学習アルゴリズムに何百万ものゲームを完了させることで、システムは、どの戦略が本当に効果的か、そしてどの戦略がさまざまなタイプの対戦相手やプレイヤーに適しているかを徐々に把握します。強化学習アルゴリズムは、強力な計算能力に基づいて、多くの場合、複数のアイデアを採用し、さまざまな戦略の特定の効果を 1 つずつ試します。システムは、戦略空間の徹底的な探索、自己対決、複数の戦略の連携、人間のプレイヤーからの戦略の学習など、複数の方法を試して、戦略空間の探索と既存の優れた戦略の使用の間で迅速にバランスを取ります。簡単に言えば、多数の実験により、システムはさまざまなゲーム状態を探索できるようになり、複雑な評価方法により、AI システムは、妥当なゲーム状況下でどの戦略または操作が中期および長期にわたって良好なリターンを達成できるかを判断できるようになります。

しかし、現実世界でこれらのアルゴリズムを使用する上での主な障害は、何百万もの試行をすべて完了できる可能性が低いことです。幸いなことに、この問題には新しい解決策があります。まず、アプリケーションシナリオ (製造工場や市場シミュレーション環境など) のコンピューターシミュレーション環境を作成し、次に強化学習アルゴリズムを使用して最適な戦略を選別し、最後にまとめた最適な戦略を実際のシナリオに組み込み、さらにパラメータを調整して現実世界を反映させます。 OpenAIは2019年に注目すべきデモンストレーションを実施し、ロボットアームを訓練して片手でルービックキューブを解くことで、このシミュレーション訓練法の有効性を実証しました。

しかし、このアプローチが機能するためには、シミュレーション環境が根本的な問題を正確に表現する必要があります。ある意味では、解決すべき問題はシミュレーション環境内で何らかの形ですでに「解決」されており、システムのパフォーマンスに影響を与える外部要因は存在してはなりません。たとえば、シミュレートされたロボットアームが実際のロボットアームと大きく異なると、実際の操作中にアームが小さなルービックキューブを安定して保持できなくなります。この場合、モデル自体が正しくトレーニングされ、優れた耐干渉機能を備えていたとしても、目的の目標を達成することは不可能です。

これらの制限は、強化学習の実際の応用に大きな課題をもたらし、不快な驚きにつながる可能性もあります。初期の製造工場の例では、機器の 1 つをより高速または低速の機械に置き換えると、工場内の生産動向全体が変化する可能性があり、強化学習モデルの再トレーニングが必要になります。同じ状況はすべての強化制御システムに当てはまりますが、強化学習ソリューションに対する人々の期待は明らかに高いため、これらの予期しない問題を排除する方法を見つける必要があります。

いずれにせよ、強化学習を現実世界のシナリオに適用することは明るい未来を示しています。多くのスタートアップ企業がすでに強化学習技術を使用して、製造ロボットの制御 (Covariant、Osaro、Luffy)、生産計画の管理 (Instadeep)、企業の意思決定 (Secondmind)、物流 (Dorabot)、回路設計 (Instadeep)、自動運転車の制御 (Wayve、Waymo、Five AI)、ドローンの制御 (Amazon)、ヘッジファンドの運用 (Piit.ai)、さらにはパターン認識 AI システムでは簡単に処理できない現実世界のシナリオにも取り組んでいます。

さらに、大手ハイテク企業も強化学習の研究に多額の投資を行っています。 Googleは2015年にDeepMindを4億ポンド（約5億2500万ドル）で買収した。しかし、競争上の優位性を維持するため、両当事者は取引の詳細をこれ以上開示しなかった。

おそらく、現在の強化学習の応用はまだ少し不器用でつまずきやすいように見えますが、強力なコンピューティングパワーと強力な資金の二重のサポートにより、近い将来、市場で無視できない中核的な技術的成果になる可能性があります。

<<: 人工知能はデマですか？人工知能が日常生活にもたらす変化を感じられますか?

>>: 開発ボードはこのように使えますか？アメリカの学者は、義肢のサポートと各指の制御に Jetson Nano を使用しています

ChatGPTはまたしても「おばあちゃんの抜け穴」に騙されました！ PS おばあちゃんの遺物、Bing を騙して認証コードを完全に識別させる

強化学習はアプリケーションにおける戦略の「最適解」を見つける

ChatGPTはまたしても「おばあちゃんの抜け穴」に騙されました！ PS おばあちゃんの遺物、Bing を騙して認証コードを完全に識別させる

ディープラーニング: オートエンコーダの基礎と種類

このオープンソースプロジェクトは、Pytorchを使用して17の強化学習アルゴリズムを実装しています。

時速22キロのスピードと50キロの荷重で、四足の車輪付きロボット「スイスマイル」は変形することを学んだ。

ロボット自動化を実装する5つの方法

2021 年の人工知能、データサイエンス、機械学習のトレンドの概要

AR技術が携帯電話業界のブレークスルーとなる

機械学習が交通と物流に革命を起こす4つの方法

推薦する

人工知能の急速な発展により、どのようなビジネス分野に浸透しているのでしょうか?テレマーケティングの将来はどうなるのでしょうか?

人間の目に匹敵する視覚：この画期的な光学センサーは人間の網膜を模倣し、AIに大きな進歩をもたらすことが期待されています。

AIがスマートビルをより環境に優しく、より持続可能なものにする方法

NLPとナレッジグラフの統合

Google Robotics Research Scientist: ML 論文の要点を素早く理解するための 5 つの質問を覚えておきましょう

日常生活におけるIoT+ビッグデータ+人工知能の応用事例をいくつか紹介します。

Windows Update で使用される指数アルゴリズムにより、XP マシンの速度が大幅に低下する

PaaS でフェイルオーバーアルゴリズムを作成する際に避けるべき 3 つの落とし穴

人工知能の時代において、従来のメディアはどのようにしてニュースの取り組みを守ることができるのでしょうか?

モバイル写真と人工知能が出会うとき

モノのインターネットのためのデータ分析とモデリング

ジェネレーティブAIの力を最大限に引き出す方法

Sogouの技術者が在宅勤務中にサーバーを誤操作し、誤って「マグニチュード12の地震警報」を発令した。