強化学習は AI/ML の目標を達成するために不可欠ですが、克服すべきハードルがまだいくつかあります。信頼性とトレーニング データの削減という目標は 1 年以内に達成される可能性がありますが、強化学習は本質的に「ブラック ボックス」ソリューションであり、透明性の欠如により多くの疑問が生じます。 従来の機械学習、さらにはディープラーニングの教師あり学習や教師なし学習は、企業が現在人工知能/機械学習の分野に多額の投資を行い、そこから利益を得ている中核領域です。しかし、実際には、これらの技術は現在かなり成熟しており、利回り曲線は平坦化しています。 人工知能/機械学習の分野で次なる画期的な技術を探しているなら、その画期的な技術は強化学習から生まれることはほぼ間違いないでしょう。強化学習の分野には多大な努力を注ぐ必要がありますが、強化学習は商用化に適したツールになるために必要な標準化レベルにはまだ達していないと言っても過言ではありません。 ゲーム分野では報道に値する成功事例がかなりあり(Alpha Goなど)、自動運転の分野でもいくつかの成功事例があります。しかし、強化学習は一連の意思決定を伴う問題を解決するための頼りになる手法であるはずなのに、まだ私たちが求めるほどには優れていません。 前回の投稿では、マイクロソフトの強化学習分野の主任研究者である Romain Laroche 氏が述べた、強化学習を妨げる 2 つの欠点について取り上げました。 「それらは根本的に信頼できません。さらに悪いことに、強化学習プロセスのランダム性により、異なるランダムシードを使用した 2 回の実行結果が大きく異なる可能性があります。」 「結果を得るには何十億ものサンプルが必要で、実際のアプリケーションではこれほど膨大な数のサンプルをサンプリングするのは現実的ではありません。」 私たちは、はるかに少ないデータ、限られた資金投資、実際的な制約の中でトレーニング問題に対処する有望な研究に焦点を当てています。しかし、残りの問題はさらに複雑です。 強化学習ソリューションはランダムシードで開始されるため、本質的には状態空間のランダム検索になります。 2 つの初期アルゴリズムが、最速の出口を見つけることを目標に、潜在的な解決策の巨大なジャングルにランダムに進入することを想像してください。どちらのソリューションも同じレベルのパフォーマンスを達成できるかもしれませんが、強化学習は悪名高いブラックボックスであり、システムが特定の一連の手順を実行することを選択した理由と方法を理解できません。 その重要性は、ガートナー社の最近のレポート「2020 年の 10 大戦略的テクノロジー トレンド」で言及されている 2 つの相反する目標によって強調されています。 私たちの注目を集めた 2 つの傾向は次のとおりです。 トレンド8: 自律型デバイス 「ドローン、ロボット、船舶、家電製品などのスマートデバイスは、人工知能を使用して人間に代わってタスクを実行します。このテクノロジーは、半インテリジェントから完全インテリジェントまでの範囲で動作し、空中、海上、陸上を含むさまざまな環境で動作します。スマートデバイスは、スタンドアロンデバイスから、2018年冬季オリンピックで使用されたドローンの群れのような協調的な群れへと移行します。」 このレポートでは言及されていないが、これを実現するには強力で信頼性の高い強化学習が必要になる。 AI/機械学習技術ではなく、物理的な動きのアルゴリズムに主に依存する非常に優れたロボット(ボストンダイナミクスなど)もありますが、業界では開発の次の段階に進むために強化学習が必要です。 2 番目の傾向は、強化学習にとってより困難になります。 トレンド5: 透明性とトレーサビリティ 「テクノロジーは信頼の危機を生み出しています。消費者が自分の情報がどのように収集され、使用されるかについてより懸念するようになるにつれて、組織はこうしたデータを保管および収集する際の責任が増大していることに気づき始めています。」 「さらに、AIと機械学習は人間の意思決定に代わるものとしてますます使用されるようになり、それが信頼の危機に発展し、説明可能なAIやAIガバナンスなどの概念の必要性を促進しました。」 私たちは GDPR や電子商取引を取り巻くプライバシーの問題を考える可能性が高いですが、実際には、これらのテクノロジーは、AI/ML がどのように意思決定を行うかについての私たちの理解に基づいて最終的に課題に直面することになるでしょう。 特に、強化学習ポリシー作成の確率的性質と、2 つの成功した強化学習プログラムがまったく異なる方法で同じ目標を達成できるという事実を考えると、これは克服するのが難しい課題になります。 信頼性の問題への対処 ロマン・ラロッシュ氏は、信頼性の問題を解決できる可能性のある 2 つの技術を提案しました。彼らの論文では、1 つはアンサンブル アプローチ (EBAS) を使用し、もう 1 つはチューニング パラメーターである Conditional value at Risk (CvaR) (最悪の実行の平均) を使用しています。どちらの手法も、強化学習の実行がシステムの障害を見つけて悪用するという自然な傾向を制限しながら、パフォーマンスを向上させ、トレーニング時間を短縮します。このシステムは実際に生産に導入された場合、成功する可能性もありますが、何らかの予期しない損害が発生する可能性があります。後者の技術は SPIBB と呼ばれ、Safe Policy Improvement with Baseline Bootstrapping の略称です。 このアンサンブル法は機械学習と同じ概念を借用しており、遺伝的アルゴリズムの選択トレーニングで使用される検索プロセスに似ているため、非常に優れた結果が得られます。 EBAS アルゴリズムは、最終的なパフォーマンスを低下させることなく、より高速に学習します。 透明性? 信頼性の問題と、大量のトレーニング データが必要になるというその他の問題を解決しているようです。これは間違いなく透明性の問題につながるでしょう。例えば、自動運転車は死亡事故を受けて厳しい監視を受けるようになった。人間のオペレーターのミスに比べ、機械のミスに対する許容度は低くなります。 強化学習が 2020 年に大きな貢献を果たすことは間違いありませんが、実証済みで商業的に受け入れられるソリューションを実現する上での障害や、透明性の欠如によって生じる抵抗は、1 年で完全に解決される可能性は低いでしょう。 |
>>: Pythonを全く知らなかった私がAIエンジニアになるまでに2年かかりました
バッチ サイズは、機械学習における重要なハイパーパラメータの 1 つです。このハイパーパラメータは、...
著者 | 崔昊レビュー | Chonglouまとめこの記事では、マルチモーダル技術分野における Op...
中国サイバースペース管理局と他の7つの部門が共同で発行した「生成人工知能サービスの管理に関する暫定措...
自動化、ハードウェア、モデル開発などの新たな開発が、2020 年の AI を形作るでしょう。 O...
近年、ディープラーニング技術によりコンピュータービジョンやロボット工学の分野で多くの進歩が遂げられて...
大規模言語モデル (LLM) 圧縮は常に大きな注目を集めています。トレーニング後の量子化は、一般的に...
GPT-4 などの大規模言語モデル (LLM) は多くの推論タスクで優れたパフォーマンスを発揮します...
[[417720]]人工知能は最先端の技術から人々の日常生活に組み込まれる技術へと急速に進化していま...
[[243873]]画像ソース @Visual Chinaインターネット上には、人体のさまざまな臓器...
「誰がどれだけの H100 を受け取るのか、そしていつ H100 を受け取るのかは、シリコンバレーで...
[[397649]]シーケンスツーシーケンス (seq2seq) モデルは、自然言語生成タスクに対す...
今年 5 月、OpenAI はすべての ChatGPT Plus ユーザー向けにネットワーキングおよ...