強化学習は2020年にブレークスルーを達成するでしょうか?

強化学習は2020年にブレークスルーを達成するでしょうか?

強化学習は AI/ML の目標を達成するために不可欠ですが、克服すべきハードルがまだいくつかあります。信頼性とトレーニング データの削減という目標は 1 年以内に達成される可能性がありますが、強化学習は本質的に「ブラック ボックス」ソリューションであり、透明性の欠如により多くの疑問が生じます。

従来の機械学習、さらにはディープラーニングの教師あり学習や教師なし学習は、企業が現在人工知能/機械学習の分野に多額の投資を行い、そこから利益を得ている中核領域です。しかし、実際には、これらの技術は現在かなり成熟しており、利回り曲線は平坦化しています。

人工知能/機械学習の分野で次なる画期的な技術を探しているなら、その画期的な技術は強化学習から生まれることはほぼ間違いないでしょう。強化学習の分野には多大な努力を注ぐ必要がありますが、強化学習は商用化に適したツールになるために必要な標準化レベルにはまだ達していないと言っても過言ではありません。

ゲーム分野では報道に値する成功事例がかなりあり(Alpha Goなど)、自動運転の分野でもいくつかの成功事例があります。しかし、強化学習は一連の意思決定を伴う問題を解決するための頼りになる手法であるはずなのに、まだ私たちが求めるほどには優れていません。

前回の投稿では、マイクロソフトの強化学習分野の主任研究者である Romain Laroche 氏が述べた、強化学習を妨げる 2 つの欠点について取り上げました。

「それらは根本的に信頼できません。さらに悪いことに、強化学習プロセスのランダム性により、異なるランダムシードを使用した 2 回の実行結果が大きく異なる可能性があります。」

「結果を得るには何十億ものサンプルが必要で、実際のアプリケーションではこれほど膨大な数のサンプルをサンプリングするのは現実的ではありません。」

私たちは、はるかに少ないデータ、限られた資金投資、実際的な制約の中でトレーニング問題に対処する有望な研究に焦点を当てています。しかし、残りの問題はさらに複雑です。

強化学習ソリューションはランダムシードで開始されるため、本質的には状態空間のランダム検索になります。 2 つの初期アルゴリズムが、最速の出口を見つけることを目標に、潜在的な解決策の巨大なジャングルにランダムに進入することを想像してください。どちらのソリューションも同じレベルのパフォーマンスを達成できるかもしれませんが、強化学習は悪名高いブラックボックスであり、システムが特定の一連の手順を実行することを選択した理由と方法を理解できません。

その重要性は、ガートナー社の最近のレポート「2020 年の 10 大戦略的テクノロジー トレンド」で言及されている 2 つの相反する目標によって強調されています。

私たちの注目を集めた 2 つの傾向は次のとおりです。

トレンド8: 自律型デバイス

「ドローン、ロボット、船舶、家電製品などのスマートデバイスは、人工知能を使用して人間に代わってタスクを実行します。このテクノロジーは、半インテリジェントから完全インテリジェントまでの範囲で動作し、空中、海上、陸上を含むさまざまな環境で動作します。スマートデバイスは、スタンドアロンデバイスから、2018年冬季オリンピックで使用されたドローンの群れのような協調的な群れへと移行します。」

このレポートでは言及されていないが、これを実現するには強力で信頼性の高い強化学習が必要になる。 AI/機械学習技術ではなく、物理的な動きのアルゴリズムに主に依存する非常に優れたロボット(ボストンダイナミクスなど)もありますが、業界では開発の次の段階に進むために強化学習が必要です。

2 番目の傾向は、強化学習にとってより困難になります。

トレンド5: 透明性とトレーサビリティ

「テクノロジーは信頼の危機を生み出しています。消費者が自分の情報がどのように収集され、使用されるかについてより懸念するようになるにつれて、組織はこうしたデータを保管および収集する際の責任が増大していることに気づき始めています。」

「さらに、AIと機械学習は人間の意思決定に代わるものとしてますます使用されるようになり、それが信頼の危機に発展し、説明可能なAIやAIガバナンスなどの概念の必要性を促進しました。」

私たちは GDPR や電子商取引を取り巻くプライバシーの問題を考える可能性が高いですが、実際には、これらのテクノロジーは、AI/ML がどのように意思決定を行うかについての私たちの理解に基づいて最終的に課題に直面することになるでしょう。

特に、強化学習ポリシー作成の確率的性質と、2 つの成功した強化学習プログラムがまったく異なる方法で同じ目標を達成できるという事実を考えると、これは克服するのが難しい課題になります。

信頼性の問題への対処

ロマン・ラロッシュ氏は、信頼性の問題を解決できる可能性のある 2 つの技術を提案しました。彼らの論文では、1 つはアンサンブル アプローチ (EBAS) を使用し、もう 1 つはチューニング パラメーターである Conditional value at Risk (CvaR) (最悪の実行の平均) を使用しています。どちらの手法も、強化学習の実行がシステムの障害を見つけて悪用するという自然な傾向を制限しながら、パフォーマンスを向上させ、トレーニング時間を短縮します。このシステムは実際に生産に導入された場合、成功する可能性もありますが、何らかの予期しない損害が発生する可能性があります。後者の技術は SPIBB と呼ばれ、Safe Policy Improvement with Baseline Bootstrapping の略称です。

このアンサンブル法は機械学習と同じ概念を借用しており、遺伝的アルゴリズムの選択トレーニングで使用される検索プロセスに似ているため、非常に優れた結果が得られます。

EBAS アルゴリズムは、最終的なパフォーマンスを低下させることなく、より高速に学習します。

透明性?

信頼性の問題と、大量のトレーニング データが必要になるというその他の問題を解決しているようです。これは間違いなく透明性の問題につながるでしょう。例えば、自動運転車は死亡事故を受けて厳しい監視を受けるようになった。人間のオペレーターのミスに比べ、機械のミスに対する許容度は低くなります。

強化学習が 2020 年に大きな貢献を果たすことは間違いありませんが、実証済みで商業的に受け入れられるソリューションを実現する上での障害や、透明性の欠如によって生じる抵抗は、1 年で完全に解決される可能性は低いでしょう。

<<:  2020年に注目すべき8つのAIトレンド

>>:  Pythonを全く知らなかった私がAIエンジニアになるまでに2年かかりました

ブログ    
ブログ    

推薦する

...

謎の日本人男性がコードを自動的に削除できるAIを開発し、業界に衝撃を与える

[[317093]]モザイクは、一般的に広く使用されている画像/ビデオ処理方法であり、画像/ビデオ内...

AIは機械設計にどのような影響を与えるのでしょうか?

人工知能は現在、ますます広く利用されるようになっています。ほとんどの場合、堅牢で適応性の高い AI ...

サイバー犯罪者が機械学習を利用する 7 つの方法: 対抗策

[51CTO.com クイック翻訳] イスラエルのベングリオン国際空港は、世界で最も安全な空港の一つ...

スポーツイベントではロボットが人間に取って代わるのでしょうか?

スポーツにロボットを導入することは、器用な移動、リアルタイムのモーション制御、経路計画などの最新ロボ...

...

2021 年の機械学習の 6 つのトレンド

機械学習は今日ではよく知られた革新的な技術となっています。ある調査によると、現在人々が使用しているデ...

3分レビュー! 2021年5月の人工知能分野における重要な進展の概要

近年、社会経済の発展に伴い、人工知能技術は科学技術の最前線に立っています。テクノロジーが成熟するにつ...

クロスカメラトラッキングと「スマート」な眼認識技術戦略の研究と実装

ラボガイド現在、公共の場や個人の応用場面に設置されている監視カメラの総数は1億7500万台を超えてい...

...

ぜひ見に来てください!数千の「AIブラックテクノロジー」がここに集結

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

セキュリティ業界における顔認証アクセス制御の発展展望

数年前までは、アクセス制御は鍵や IC アクセス カードによって行われていたことは誰もが知っています...

PaLMを超えて!北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

1,750億のパラメータを持つGPT-3や5,400億のパラメータを持つPaLMなど、大規模言語モ...

...

...