深層強化学習は近年人気が出てきている技術です。深層強化学習の制御および意思決定プロセスには、状態、アクション、報酬という 3 つの要素が含まれている必要があります。モデリングプロセス中、エージェントは環境の現在の状態情報に基づいてアクションを出力し、環境に対して行動し、次の瞬間に状態情報と報酬を受け取ります。有名な AlphaGo を例にとると、盤面は現在の状態、アクションは次に駒をどこに置くか、報酬は最終的な勝ち負けです。強化学習プロセス全体は、環境と継続的に相互作用し、相互作用中にデータを生成し、これらの相互作用によって生成されたデータを使用して学習するプロセスです。 AlphaGo が世界トップのチェスプレイヤーを圧倒できたのは、深層強化学習の助けがあったからです。そのため、教師あり学習法と比較して、深層強化学習は特定のシナリオにおいて人間を超えるレベルを達成することができます。 深層強化学習は、囲碁の分野で大きな話題を呼んだ後、その領域を継続的に拡大し、ゲームや金融など、ますます多くの分野に登場しています。現代都市は人類の生産と生活の中核として、交通、物流、エネルギーなど複数の産業が集積する複合都市です。この複雑な構造を最適化できれば、大きな社会的価値がもたらされるでしょう。強化学習はまさにそれを実現します。この記事では、スマートシティ分野における強化学習の応用事例をいくつか紹介します。 1. インテリジェント交通 都市のさまざまな交通シナリオでは、さまざまなリソース割り当てと交通スケジュールの問題が発生します。図 3(a) に示すように、典型的な救急車の派遣シナリオでは、救急車は患者と救急ステーションの間を継続的に移動する必要があります。救急車の迎えの時間は、移動救急車の動的な再配置戦略に大きく依存します。つまり、救急車が利用可能になった後、どのステーションに派遣されるべきかということです。既存の救急車を再配置すると、将来的に患者の受け入れにかかる時間に影響が出ます。例えば、図3(b)では、今後ステーション1付近に3人の患者が来ることが予想されるため、既存の救急車1をステーション1に再配置します。ステーション1から救急車を出動させることで、これらの患者を迅速に収容することができます。 図1 救急車出動シーン この問題は強化学習法を使用することで解決できます。論文[1]では、出動が必要な救急車はすべてインテリジェントエージェントとして扱われ、対応する状態、行動、報酬を決定することがモデリングの中核となっている。このシナリオでは、救急車の効率に影響を与える要因としては、主に将来の救急ステーション付近の患者数、救急ステーションの救急車の数、救急車とステーション間の距離などが挙げられます。これらの指標を特定の方法で変換することで、患者密度や移動時間などの複数の関連要因を抽出できます。これらの相関係数は入力状態として使用できます。このシナリオでは、決定変数、つまり、救急車がピックアップとドロップオフのミッションを完了した後にさまざまなステーションに配備されるかどうかが、インテリジェント エージェントのアクションです。最適化の目標、つまり患者を迎えに行く時間は、インテリジェントエージェントの報酬です。時間が短いほど、報酬は大きくなります。理想的には、各救急隊員は、平均的な乗車および降車時間を最小限に抑える優位な戦略を見つけることができるはずです。次に、この記事では、このシナリオをうまく解決するための深層強化学習アルゴリズムを紹介します。 この記事では、現実世界で収集されたデータセットを使用して、救急車の動的な再配置方法を評価します。実験結果によると、当社の深層強化学習ベースの救急車再配備アプローチは、最先端のベースライン手法を大幅に上回っています。具体的には、ベースライン方式と比較して、深層強化学習ベースの方法では、10 分以内に診察される患者の割合が 0.786 から 0.838 に増加し、平均診察時間が約 20% (約 100 秒) 短縮されます。患者を時間内に救う可能性を高めるには、一秒一秒が重要です。 交通シナリオでは、シェア自転車のスケジュール、バス路線計画、タクシー/オンライン配車サービスのスケジュールなど、同様のスケジュール問題が多数あります。これらの各シナリオでは、同様の方法を使用できます。さらに、IoT技術の発展により、今後はあらゆる産業の経営がさらにフラット化していくでしょう。新たなシナリオも数多く登場するでしょう。例えば、信号機の制御最適化、自動運転の制御と意思決定、無人車両のスケジューリングなどは、すべて深層強化学習の応用シナリオです。したがって、強化学習技術は将来のインテリジェント交通において重要な役割を果たすでしょう。 2. スマート物流 物流の発展は人々の生活を大きく助け、電子商取引の発展を促進しました。しかし、運送状の量が膨大であることから、多くの管理上の問題が生じており、業界の注文発送効率と配送効率は総じて低く、大量の労働力の無駄が生じています。宅配業界では、配達員の作業負荷の不均衡はよく見られる現象です。その結果、一部の宅配業者の荷物が過積載になったり、荷物が不足したりしました。タスクの違いに応じて各宅配業者のタスクを動的に計画できれば、リソースの不均衡を減らし、リソースの使用率とタスク完了率を向上させることができます。しかし、現実には、宅配業者は配達と集荷の両方の機能を同時に担う必要があり、全体的な配達効率も考慮する必要があるため、問題は間違いなく複雑になります。論文[2]では深層強化学習を用いてこの問題を解決しています。記事の中で、著者は空間全体をいくつかの小さな領域に大まかに分割しており、図 4 の小さな四角で表されています。 A、B、C は、それぞれ各小領域における 3 人の宅配業者 c1、c2、c3 の残りの配達量を表し、網掛けされた小領域は宅配業者の現在の位置を表します。 D と G は、各小領域で拾うアイテムの数を表します。 F と H は、それぞれ宅配業者 c1 と c2 の観点から見た他の宅配業者の位置を表します。 E は、宅配業者 c1 が場所 g3 から場所 g2 に到着することを示します。実際のシナリオでは、残りの配達場所、集荷するアイテムの場所、チームメイトの場所、チームメイトの移動ルートなど、宅配業者のルート計画に影響を与える要因は、基本的にこのグラフ構造によって表現できます。したがって、このグラフ構造はエージェントの状態として機能します。エージェントのアクションは、宅配業者の移動方向(左または右など)であり、報酬は宅配業者が完了した作業量です。完了したタスクが多いほど、報酬も大きくなります。同様に、これらの 3 次元コア指標を決定した後、深層強化学習アルゴリズムを導入して問題を解決できます。 宅配業者のルート選択に加えて、車両輸送とスケジュールも同様のシナリオに属し、同様の方法を使用して解決できると推測できます。大規模な物流や倉庫管理も強化学習を使用してモデル化できます。 3. スマートエネルギー ボイラー燃焼の最適化は、典型的なインテリジェント制御シナリオです。発電所のボイラーシステムは、石炭の粉砕、燃焼、水蒸気の循環など、非常に複雑です。一般的な600MWの中型火力発電ユニットには、数万個のセンサー測定ポイントがあり、燃焼、風と煙、水熱循環など、関連する多くの物理化学プロセスは非常に複雑です。このような複雑なシステムを純粋にメカニズムモデリング手法を使用して正確にモデル化することは困難であり、システムの記述が不正確になり、最適化の効果に影響を与えます。 制御最適化の観点から見ると、火力発電の燃焼最適化には、数百もの主要な制御変数(ユニット内のさまざまなボイラーへの石炭供給速度、さまざまな空気ダンパー、バルブ開度など)が関係しており、これらの変数はすべて連続変数です(たとえば、バルブ開度が 20% と 25% の場合、ユニットの動作に大きく異なる影響が出る可能性があります)。同時に、現在のアクションの影響をリアルタイムでフィードバックできないことが多いため、長期的な影響も考慮する必要があります。このような複雑なシナリオでは、長年の豊富な経験を持つオペレーターであっても、効率的な調整戦略をまとめることはほとんどできません。したがって、このような複雑なシステムの高次元連続変数制御最適化問題は世界的な課題です。 図3 火力発電ボイラーの運転プロセス 深層強化学習はまさにこれを実行するのに適しています。図 2 は、強化学習ベースのモデリング プロセスを示しています。一般的なボイラー環境では、ボイラー内の温度、空気量、水量、圧力などのさまざまな監視値など、システムの状態の説明を提供するための多くのセンサーを入手できます。これらのリアルタイム フィードバック監視値は状態、つまりエージェントが「見ることができる」ものと考えることができます。次に、石炭供給速度、さまざまな空気ダンパー、バルブ開度、その他の制御変数をアクションとして取ります。状態とアクションを決定した後、ビジネス指標(燃焼効率)を報酬として使用します。インテリジェントエージェントは、現在の状態に基づいてアクションを出力し、ボイラー制御パラメータを調整します。ボイラー環境は変化し、新しい状態に到達します。燃焼効率が良い方向に変化した場合は、正の報酬を与えます。悪い変化の場合は、負の報酬を与えることができます。モデリング作業が完了すると、合理的な学習アルゴリズムを通じてより良い戦略を学習できるようになります。学習アルゴリズムは、状態とアクションから次の状態への多くの変化を観察し、状態-アクション-報酬の対応するパターンを抽象化し、最終的に、現在の状態から最適な制御(アクション)変数にマッピングして長期平均報酬を最大化できる最適な制御戦略を見つけます。 実際のテストでは、強化学習に基づく制御戦略により、人間の操作に比べて0.5%の効率向上が達成されました。これは、600MWユニットの場合、年間240万人民元の経済利益に相当します。同時にAIモデルの製品化も実現し、バッチ複製も可能となり、複数の発電所に導入し受入も完了しました。 図4 強化学習に基づく燃焼最適化エージェント 火力発電では、燃焼最適化シナリオに加え、石炭ミル制御最適化やコールドエンド最適化などのシナリオでも強化学習手法を使用し、良好な結果を達成しました。上記の制御シナリオでは、強化学習は温度制御、電力網のディスパッチ、エネルギー管理などの分野にも適用できます。また、火力発電ボイラーの制御も代表的なプロセス制御です。工業生産においては、セメント生産工程におけるミル制御、空港のACDMシステムにおける車両と人員のスケジュールと駐車スペースの最適化、さらには鉄鋼製造や化学産業などの産業シナリオはすべて同様のシナリオです。これらのシナリオでは、多数の制御および最適化の問題を抽出でき、深層強化学習技術にも広い余地があります。 この事例を通じて、現実のシナリオにおいて、それに影響を与える関連要因を特定し、行動を最適化し、目標を最適化できれば、深層強化学習技術が華々しくデビューできることがわかります。こうした場面は、私たちの制作活動や生活の中に数多く存在します。そのため、深層強化学習技術は将来のスマートシティや産業において重要な役割を果たすことになります。しかし、現時点では、深層強化学習の実装にはまだいくつかの制限があります。その理由の一部は、アルゴリズムの学習効率がまだ十分ではなく、適応シナリオが比較的狭いことです。もう 1 つの理由は、多くの業界でデジタル化の程度がまだ比較的低いことです。しかし、モノのインターネット時代の到来により、この問題は徐々に解決されるでしょう。同時に、多くの研究者の努力により、深層強化学習の技術自体も絶えず進化しており、アルゴリズムの適用範囲はますます広がっています。今後の開発は間違いなくどんどん良くなるでしょう。 参考文献 [1] Shenggong Ji、他「深層強化学習を活用した移動救急車の動的再配置システム」UbiComp2019 [2] Li Y、Zheng Y、Yang Q. コンテキスト協調強化学習による効率的かつ効果的な表現[C]//Proceedings of the 25thACM SIGKDD International Conference on Knowledge Discovery & Data Mining.2019: 510-519. |
<<: 2020年顔認識レポート:数万社が市場に参入し、8つの主要技術と6つのトレンドがすべて1つの記事でカバーされています
>>: 新しいインフラの推進により、人工知能の応用は新たな段階に入る
[[248875]]画像出典: Visual China本質的に、この記事は AI ライティングを...
流行は激しく、科学技術界は全力で流行と戦っています。北京化工大学の楊衛民教授は2月25日、21世紀ビ...
[[235506]]映画『ウォーリー』では、愛らしいウォーリー(WALL-E、廃棄物処理ロボット地...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[51CTO.comからのオリジナル記事] デジタル時代において、人工知能の普及はクラウドコンピュー...
ディープラーニングツールディープラーニングの進歩は、ソフトウェア インフラストラクチャの進歩にも大き...
AI は商業用不動産業界を変革し、あらゆるものをより効率的、アクセスしやすく、透明性の高いものにし...
AI 駆動型マシンビジョンは日々強力になり、普及が進んでいます。マシンビジョンと人工知能の新しいアプ...
「ディープラーニングは人工知能を大規模な工業生産の段階に押し上げています。ディープラーニングのフレー...
[[248715]] [51CTO.com 速訳] re:Invent 2017 カンファレンスで ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[401361]]この記事では主に、カウンター アルゴリズム、リーキー バケット アルゴリズム、...
現在、ナビゲーションや通信などの技術が継続的に進歩し、ドローンの開発はより成熟し、業界の規模も拡大し...