強化学習は2020年にブレークスルーを達成するでしょうか?

強化学習は2020年にブレークスルーを達成するでしょうか?

強化学習は AI/ML の目標を達成するために不可欠ですが、克服すべきハードルがまだいくつかあります。信頼性とトレーニング データの削減という目標は 1 年以内に達成される可能性がありますが、強化学習は本質的に「ブラック ボックス」ソリューションであり、透明性の欠如により多くの疑問が生じます。

従来の機械学習、さらにはディープラーニングの教師あり学習や教師なし学習は、企業が現在人工知能/機械学習の分野に多額の投資を行い、そこから利益を得ている中核領域です。しかし、実際には、これらの技術は現在かなり成熟しており、利回り曲線は平坦化しています。

人工知能/機械学習の分野で次なる画期的な技術を探しているなら、その画期的な技術は強化学習から生まれることはほぼ間違いないでしょう。強化学習の分野には多大な努力を注ぐ必要がありますが、強化学習は商用化に適したツールになるために必要な標準化レベルにはまだ達していないと言っても過言ではありません。

ゲーム分野では報道に値する成功事例がかなりあり(Alpha Goなど)、自動運転の分野でもいくつかの成功事例があります。しかし、強化学習は一連の意思決定を伴う問題を解決するための頼りになる手法であるはずなのに、まだ私たちが求めるほどには優れていません。

前回の投稿では、マイクロソフトの強化学習分野の主任研究者である Romain Laroche 氏が述べた、強化学習を妨げる 2 つの欠点について取り上げました。

「それらは根本的に信頼できません。さらに悪いことに、強化学習プロセスのランダム性により、異なるランダムシードを使用した 2 回の実行結果が大きく異なる可能性があります。」

「結果を得るには何十億ものサンプルが必要で、実際のアプリケーションではこれほど膨大な数のサンプルをサンプリングするのは現実的ではありません。」

私たちは、はるかに少ないデータ、限られた資金投資、実際的な制約の中でトレーニング問題に対処する有望な研究に焦点を当てています。しかし、残りの問題はさらに複雑です。

強化学習ソリューションはランダムシードで開始されるため、本質的には状態空間のランダム検索になります。 2 つの初期アルゴリズムが、最速の出口を見つけることを目標に、潜在的な解決策の巨大なジャングルにランダムに進入することを想像してください。どちらのソリューションも同じレベルのパフォーマンスを達成できるかもしれませんが、強化学習は悪名高いブラックボックスであり、システムが特定の一連の手順を実行することを選択した理由と方法を理解できません。

その重要性は、ガートナー社の最近のレポート「2020 年の 10 大戦略的テクノロジー トレンド」で言及されている 2 つの相反する目標によって強調されています。

私たちの注目を集めた 2 つの傾向は次のとおりです。

トレンド8: 自律型デバイス

「ドローン、ロボット、船舶、家電製品などのスマートデバイスは、人工知能を使用して人間に代わってタスクを実行します。このテクノロジーは、半インテリジェントから完全インテリジェントまでの範囲で動作し、空中、海上、陸上を含むさまざまな環境で動作します。スマートデバイスは、スタンドアロンデバイスから、2018年冬季オリンピックで使用されたドローンの群れのような協調的な群れへと移行します。」

このレポートでは言及されていないが、これを実現するには強力で信頼性の高い強化学習が必要になる。 AI/機械学習技術ではなく、物理的な動きのアルゴリズムに主に依存する非常に優れたロボット(ボストンダイナミクスなど)もありますが、業界では開発の次の段階に進むために強化学習が必要です。

2 番目の傾向は、強化学習にとってより困難になります。

トレンド5: 透明性とトレーサビリティ

「テクノロジーは信頼の危機を生み出しています。消費者が自分の情報がどのように収集され、使用されるかについてより懸念するようになるにつれて、組織はこうしたデータを保管および収集する際の責任が増大していることに気づき始めています。」

「さらに、AIと機械学習は人間の意思決定に代わるものとしてますます使用されるようになり、それが信頼の危機に発展し、説明可能なAIやAIガバナンスなどの概念の必要性を促進しました。」

私たちは GDPR や電子商取引を取り巻くプライバシーの問題を考える可能性が高いですが、実際には、これらのテクノロジーは、AI/ML がどのように意思決定を行うかについての私たちの理解に基づいて最終的に課題に直面することになるでしょう。

特に、強化学習ポリシー作成の確率的性質と、2 つの成功した強化学習プログラムがまったく異なる方法で同じ目標を達成できるという事実を考えると、これは克服するのが難しい課題になります。

信頼性の問題への対処

ロマン・ラロッシュ氏は、信頼性の問題を解決できる可能性のある 2 つの技術を提案しました。彼らの論文では、1 つはアンサンブル アプローチ (EBAS) を使用し、もう 1 つはチューニング パラメーターである Conditional value at Risk (CvaR) (最悪の実行の平均) を使用しています。どちらの手法も、強化学習の実行がシステムの障害を見つけて悪用するという自然な傾向を制限しながら、パフォーマンスを向上させ、トレーニング時間を短縮します。このシステムは実際に生産に導入された場合、成功する可能性もありますが、何らかの予期しない損害が発生する可能性があります。後者の技術は SPIBB と呼ばれ、Safe Policy Improvement with Baseline Bootstrapping の略称です。

このアンサンブル法は機械学習と同じ概念を借用しており、遺伝的アルゴリズムの選択トレーニングで使用される検索プロセスに似ているため、非常に優れた結果が得られます。

EBAS アルゴリズムは、最終的なパフォーマンスを低下させることなく、より高速に学習します。

透明性?

信頼性の問題と、大量のトレーニング データが必要になるというその他の問題を解決しているようです。これは間違いなく透明性の問題につながるでしょう。例えば、自動運転車は死亡事故を受けて厳しい監視を受けるようになった。人間のオペレーターのミスに比べ、機械のミスに対する許容度は低くなります。

強化学習が 2020 年に大きな貢献を果たすことは間違いありませんが、実証済みで商業的に受け入れられるソリューションを実現する上での障害や、透明性の欠如によって生じる抵抗は、1 年で完全に解決される可能性は低いでしょう。

<<:  2020年に注目すべき8つのAIトレンド

>>:  Pythonを全く知らなかった私がAIエンジニアになるまでに2年かかりました

ブログ    
ブログ    
ブログ    

推薦する

51CTO副社長ヤン・ウェンフェイ氏:ChatGPTは非常に人気があり、将来的にはさらに強力なアプリケーションが登場するでしょう。

51CTO は 2005 年に設立され、テクノロジー学習とメディアを統合したプラットフォームです。...

NLPとナレッジグラフの統合

この記事は、中国情報処理学会の事務局長である白碩博士が杭州金融ナレッジグラフフォーラムで行った講演を...

アイデアから実装まで、2018 年の 13 の驚くべき新しい NLP 研究

2018 年には、自然言語処理の分野で多くの刺激的なアイデアやツールが生まれました。概念的な視点から...

AWS は、機械学習の経験がなくても、企業の日常業務を改革し改善する 5 つの新しい機械学習サービスを開始しました。

Amazon Kendra は、自然言語処理やその他の機械学習技術を使用してエンタープライズ検索を...

...

「人工知能+教育」はどのような機会と課題をもたらすのでしょうか?

人工知能がどのような新しい形で登場するかが話題になっている一方で、教育分野では新たな一連の変化が起こ...

Keras 3.0 が市場を席巻しています!この大きなアップデートではPyTorchとJAXが統合され、世界中の250万人の開発者が使用しています。

先ほど、Keras 3.0 が正式にリリースされました! 5 か月のパブリック ベータ テストを経て...

...

「AI医薬品製造」の新時代が到来!人工知能がより良い抗がん剤の組み合わせを予測

[[355967]]人工知能は新興の破壊的技術として、科学技術革命と産業変革によって蓄積された膨大な...

人工知能は私たちの生活をどのように変えるのでしょうか?

人工知能は本質的に、人間の知的労働を解放するでしょう。今後、サービスがボトルネックとなり、サービス産...

AI による自動ラベル付けの普及により、データラベル作成者の職は失われるのでしょうか?

データ注釈業界では、「知能と同じくらい人工知能も存在する」という有名な格言があります。ラベル付けが必...

データ分析 VS アルゴリズムモデル、どのように作業を分割し、効率的に連携するか?

[[438791]]この記事はWeChat公式アカウント「地道学院」から転載したもので、著者は地道...

クォンタムAIパーク、リアルタイム翻訳、Googleが革新的なAI製品を展示

[[434605]] Googleは11日、「発明家」をテーマにしたイベントを開催し、AI技術をベー...

...

PS 2021 では、さまざまな新しい AI テクノロジーが導入されます。 Meitu Xiuxiuよりも使いやすい

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...