人類はついに怠惰なAIを生み出してしまった…

強化学習 (RL) の概念を説明する記事は多数ありますが、現実世界で RL を実際に設計して実装する方法を説明する記事はほとんどありません。

[[314129]]

今回、Xiaoxin は人工知能のパラダイムシフトに関する教訓を共有し、設計上のトレードオフについて議論し、技術的な詳細を掘り下げていきたいと考えています。

それでは、始めましょう！

まずはお酒？

パーティーで少しほろ酔い状態か酔っていて、一人（または複数）の魅力的な知り合いに好印象を与えるために、自ら飲酒ゲームに参加すると想像してください。

誰かがあなたに目隠しをして、ビールのグラスか瓶を手渡し、「ビールを注いで！」と叫びます。

あなたは何をしますか？

次のような反応が起こる可能性があります: くそ、どうしよう? どうしたら勝てるんだ! 負けたらどうしよう!?

ゲームのルールは次のとおりです。10 秒以内に、ビールをグラスのマークにできるだけ近いところに注ぎます。ビールを注ぎ入れたり、出したりできます。

RL (強化学習) ソリューションは、高度で意味のある同様のタスクに直面しています。詳細をぜひご覧ください。

現実世界のビール問題

環境に優しい自転車シェアリング事業には大きな問題がある。一日を通して、自転車駐車スペース（カップ）あたりのシェア自転車（ビール）の数が多すぎるか、少なすぎるかのどちらかになります。

ニューヨーク市の自転車駐輪場における自転車の過剰（左）と自転車の不足（右）

これは自転車利用者にとって大きな不便であり、運営には数百万ドルの費用がかかるため、費用対効果が高くありません。少し前、ニューヨーク大学の私のチームは、人間の介入を最小限に抑えて自転車の在庫管理を支援する AI ソリューションを提供するという任務を負っていました。

目標: 毎日の自転車駐車スペースの数を 1 ～ 50 台の範囲に保ちます (カップのマークをイメージしてください)。これはシェアリングエコノミーにおける「リバランス問題」として知られています。

制限事項: 運用上の制限により、チームは 1 日あたり 1 時間あたり 1 台、3 台、または 10 台の自転車 (注ぎ入れたり取り出したりできるビールの量) しか移動できません。もちろん、何もしないことを選択することもできます。チームが移動するバイクの数が増えるほど、費用も高くなります。

怠惰な強化学習ソリューション

チームは、従来のアプローチ（ルールベースや予測など）の多くの制限を克服する RL（強化学習）を使用することを決定しました。

RL (強化学習) といくつかの重要な概念について学びたい場合は、Jonathan Hui が書いた素晴らしい入門書と、Thomas Simonini がソリューションで使用される RL アルゴリズム Q 学習について詳しく説明しています。

人間は極めて怠惰な人工知能を生み出してしまったことが判明した。自転車の在庫が 60 を超えると、通常は何もしないか、最小限のアクション (1 台または 3 台の自転車を移動) を実行することを選択します。直感に反するように思えるかもしれませんが、非常に賢明なことです。

直感的には、特に駐車場が満車の場合は、できるだけ多くの自転車を移動させて 50 台未満に抑えたいと思うかもしれません。ただし、RL (強化学習) は、移動のコスト (移動する自転車の数が多いほどコストが高くなります) と特定の状況での成功の可能性を識別します。残された時間を考えると、目標を達成するのは不可能だ。諦めることが最善の選択だとわかっています。したがって、諦める方が挑戦し続けるよりもコストはかかりません。

だから何？Google の Alpha Go が開発した有名な 37 手目や 78 手目のような型破りな決定を AI が下すと、人間の偏見に挑戦し、知識の呪縛を打ち破り、人類を未知の道へと導くことになります。

人工知能の創造は、発明であると同時に、人間の心の内部の仕組みを探る旅でもあります。 —DeepMindの創設者デミス・ハサビス氏、「エコノミスト」誌の「2020年の世界」より。

ただし、注意してください。人間の価値観に代わるものはないので、人間は絶望したり、自分を見失ったりすることはありません。

哲学はもう十分だ、さあ現実を見よう

RL は自転車駐輪スペースをどのように管理していますか?

下の図は、RL ありとなしでの 1 日あたりの駐輪自転車数を示しています。

青い線はRLなしの自転車駐輪の傾向です。
黄色の線は、初期の RL 状況でバイクから外れる傾向を示しており、非常にコストがかかります。
緑の線はトレーニングされた RL であり、目標を達成するのに十分な数のバイクのみを移動し、コストをより意識しています。

著者分析

RL は何をするかをどのように決定するのでしょうか?

以下は、98,000 エポックのトレーニング後の RL ソリューションの Q テーブルのスナップショットです。駐車場の自転車の数 (垂直データ) に基づいて、RL が何をすべきか (水平データ) を決定する方法について説明します。 RL が赤色で動作することを選択する可能性は低いです。下部の赤い部分を見てください。

著者分析

RL はどれほどスマートになれるでしょうか? 次の図は、RL が駐車スペースを管理する方法を示しています。ディープラーニングを通じて、RL は全体的な成功率を徐々に向上させ、驚異的な 98% まで向上させることができます。

著者分析

この記事をお楽しみいただき、現実世界での RL の可能性を楽しみにお待ちいただければ幸いです。

<<: 5G消毒ロボットが武漢を支援し、人間の感染を効果的に防ぐことができる

>>: 人工知能は伝染病との戦いに活用できるのか？

ブログ

ブログ

AI に携わる人が Python を選ぶ理由は何でしょうか?

ブログ

アルゴリズムを視覚化するオープンソースプロジェクトをお勧めします。

ブログ

人類はついに怠惰なAIを生み出してしまった…

Linux オブジェクトアロケータスラブアルゴリズム

自然言語処理のためのオープンソースツール12選

OpenAI、テキストから動画を生成できる新しい大規模モデル「Sora」を発表

AI に携わる人が Python を選ぶ理由は何でしょうか?

アルゴリズムを視覚化するオープンソースプロジェクトをお勧めします。

推薦する

データベースセキュリティとテーブル検索攻撃における MD5 暗号化アルゴリズムの応用

MetaはGPT-3を模倣し、OpenAIを「裏切り」、完全なモデルの重みとトレーニングコードが完全に公開される

MLOps 実装を成功させるためのベストプラクティス