強化学習は2020年にブレークスルーを達成するでしょうか?

強化学習は AI/ML の目標を達成するために不可欠ですが、克服すべきハードルがまだいくつかあります。信頼性とトレーニングデータの削減という目標は 1 年以内に達成される可能性がありますが、強化学習は本質的に「ブラックボックス」ソリューションであり、透明性の欠如により多くの疑問が生じます。

従来の機械学習、さらにはディープラーニングの教師あり学習や教師なし学習は、企業が現在人工知能/機械学習の分野に多額の投資を行い、そこから利益を得ている中核領域です。しかし、実際には、これらの技術は現在かなり成熟しており、利回り曲線は平坦化しています。

人工知能/機械学習の分野で次なる画期的な技術を探しているなら、その画期的な技術は強化学習から生まれることはほぼ間違いないでしょう。強化学習の分野には多大な努力を注ぐ必要がありますが、強化学習は商用化に適したツールになるために必要な標準化レベルにはまだ達していないと言っても過言ではありません。

ゲーム分野では報道に値する成功事例がかなりあり（Alpha Goなど）、自動運転の分野でもいくつかの成功事例があります。しかし、強化学習は一連の意思決定を伴う問題を解決するための頼りになる手法であるはずなのに、まだ私たちが求めるほどには優れていません。

前回の投稿では、マイクロソフトの強化学習分野の主任研究者である Romain Laroche 氏が述べた、強化学習を妨げる 2 つの欠点について取り上げました。

「それらは根本的に信頼できません。さらに悪いことに、強化学習プロセスのランダム性により、異なるランダムシードを使用した 2 回の実行結果が大きく異なる可能性があります。」

「結果を得るには何十億ものサンプルが必要で、実際のアプリケーションではこれほど膨大な数のサンプルをサンプリングするのは現実的ではありません。」

私たちは、はるかに少ないデータ、限られた資金投資、実際的な制約の中でトレーニング問題に対処する有望な研究に焦点を当てています。しかし、残りの問題はさらに複雑です。

強化学習ソリューションはランダムシードで開始されるため、本質的には状態空間のランダム検索になります。 2 つの初期アルゴリズムが、最速の出口を見つけることを目標に、潜在的な解決策の巨大なジャングルにランダムに進入することを想像してください。どちらのソリューションも同じレベルのパフォーマンスを達成できるかもしれませんが、強化学習は悪名高いブラックボックスであり、システムが特定の一連の手順を実行することを選択した理由と方法を理解できません。

その重要性は、ガートナー社の最近のレポート「2020 年の 10 大戦略的テクノロジートレンド」で言及されている 2 つの相反する目標によって強調されています。

私たちの注目を集めた 2 つの傾向は次のとおりです。

トレンド8: 自律型デバイス

「ドローン、ロボット、船舶、家電製品などのスマートデバイスは、人工知能を使用して人間に代わってタスクを実行します。このテクノロジーは、半インテリジェントから完全インテリジェントまでの範囲で動作し、空中、海上、陸上を含むさまざまな環境で動作します。スマートデバイスは、スタンドアロンデバイスから、2018年冬季オリンピックで使用されたドローンの群れのような協調的な群れへと移行します。」

このレポートでは言及されていないが、これを実現するには強力で信頼性の高い強化学習が必要になる。 AI/機械学習技術ではなく、物理的な動きのアルゴリズムに主に依存する非常に優れたロボット（ボストンダイナミクスなど）もありますが、業界では開発の次の段階に進むために強化学習が必要です。

2 番目の傾向は、強化学習にとってより困難になります。

トレンド5: 透明性とトレーサビリティ

「テクノロジーは信頼の危機を生み出しています。消費者が自分の情報がどのように収集され、使用されるかについてより懸念するようになるにつれて、組織はこうしたデータを保管および収集する際の責任が増大していることに気づき始めています。」

「さらに、AIと機械学習は人間の意思決定に代わるものとしてますます使用されるようになり、それが信頼の危機に発展し、説明可能なAIやAIガバナンスなどの概念の必要性を促進しました。」

私たちは GDPR や電子商取引を取り巻くプライバシーの問題を考える可能性が高いですが、実際には、これらのテクノロジーは、AI/ML がどのように意思決定を行うかについての私たちの理解に基づいて最終的に課題に直面することになるでしょう。

特に、強化学習ポリシー作成の確率的性質と、2 つの成功した強化学習プログラムがまったく異なる方法で同じ目標を達成できるという事実を考えると、これは克服するのが難しい課題になります。

信頼性の問題への対処

ロマン・ラロッシュ氏は、信頼性の問題を解決できる可能性のある 2 つの技術を提案しました。彼らの論文では、1 つはアンサンブルアプローチ (EBAS) を使用し、もう 1 つはチューニングパラメーターである Conditional value at Risk (CvaR) (最悪の実行の平均) を使用しています。どちらの手法も、強化学習の実行がシステムの障害を見つけて悪用するという自然な傾向を制限しながら、パフォーマンスを向上させ、トレーニング時間を短縮します。このシステムは実際に生産に導入された場合、成功する可能性もありますが、何らかの予期しない損害が発生する可能性があります。後者の技術は SPIBB と呼ばれ、Safe Policy Improvement with Baseline Bootstrapping の略称です。

このアンサンブル法は機械学習と同じ概念を借用しており、遺伝的アルゴリズムの選択トレーニングで使用される検索プロセスに似ているため、非常に優れた結果が得られます。

EBAS アルゴリズムは、最終的なパフォーマンスを低下させることなく、より高速に学習します。

透明性？

信頼性の問題と、大量のトレーニングデータが必要になるというその他の問題を解決しているようです。これは間違いなく透明性の問題につながるでしょう。例えば、自動運転車は死亡事故を受けて厳しい監視を受けるようになった。人間のオペレーターのミスに比べ、機械のミスに対する許容度は低くなります。

強化学習が 2020 年に大きな貢献を果たすことは間違いありませんが、実証済みで商業的に受け入れられるソリューションを実現する上での障害や、透明性の欠如によって生じる抵抗は、1 年で完全に解決される可能性は低いでしょう。

<<: 2020年に注目すべき8つのAIトレンド

>>: Pythonを全く知らなかった私がAIエンジニアになるまでに2年かかりました

ブログ

強化学習は2020年にブレークスルーを達成するでしょうか?

スマートセキュリティカメラの3つの主要市場

ChatGPTのBingブラウジング機能により、ユーザーは有料コンテンツを無料で読むことが可能となり、OpenAIはテストを中止

マイクロソフトが新たなAIアクセス原則を発表、同社史上最大の投資計画

潜在能力を解き放つ: 人工知能がパーソナライズされた学習に与える影響

AI が「長すぎて読めない」問題の解決を支援: 深層要約モデルの構築方法

人工知能に関する詳細な調査：AIツールを使ったことがある人は思っているほど考えていない

Microsoftの「ChatGPT Family Bucket」がAndroidで利用可能になりました。GPT-4はログインせずに無料でプレイでき、GPT-4V、Turbo、サードパーティのプラグインも組み込まれています。

製造業における自動化の長所と短所を探る

推薦する

小さなバッチがディープラーニングの一般化を高める理由

OpenAIの新機能が明らかに：マルチモーダル時代の到来

大規模モデルにAI管理ルールを組み込む時代が到来

2020年に注目すべき8つのAIトレンド

Google が 13GB の 3D スキャンデータセットを公開: 17 のカテゴリ、1,030 個の家庭用品

LLaMA、BERT などの導入課題を解決: 初の 4 ビット浮動小数点量子化 LLM が登場

現実世界の複雑な課題を解決するための LLM+模倣学習: AI2 が SwiftSage を提案

人工知能によって破壊される可能性のある7つの業界

AIが体内時計を検出、精密医療が最大の「受益者」になる可能性

GPT-5 が誕生しました。50,000 個の H100 が必要です。世界のH100総需要は43万個、Nvidia GPUは品薄の嵐に

seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表

ChatGPTは人気を集めており、OpenAIはAIソフトウェア用のアプリストアの作成を検討している