人工知能の5大セキュリティ問題への対策

Google、スタンフォード大学、カリフォルニア大学バークレー校、OpenAI の研究者が論文「AI の安全性に関する具体的な問題」を発表してから約 2 年が経ちましたが、この論文は AI 開発者が認識しておく必要のある安全性に関する問題を幅広く取り上げており、AI の安全性の分野で最も重要な研究の 1 つとして今も残っています。

[[235768]]

この論文では、著者らは AI システムにおける予期しない有害な動作と、それを回避するために採用できるさまざまな戦略について検討しています。具体的には、副作用の回避、ハッカー攻撃への報酬、スケーラブルな監視、セキュリティ研究、分散変更に対する堅牢性など、5 つの対策を提案しました。著者は、オフィス清掃ロボットを例に挙げて、次のことを説明しました。

1. AIの副作用を避ける

AI システムの目的関数を設計する際、設計者は目標を指定しますが、システムが従うべき正確な手順は指定しません。これにより、AI システムは目標を達成するための斬新かつ効果的な戦略を考案できるようになります。

しかし、目的関数が明確に定義されていない場合、AI が独自の戦略を開発する能力によって、意図しない有害な副作用が生じる可能性があります。たとえば、ロボットの目的関数は、箱をある部屋から別の部屋に移動することです。目標は単純に見えますが、失敗する可能性は数多くあります。たとえば、ロボットの進路に花瓶がある場合、ロボットは目的を達成するために花瓶を倒す可能性があります。目的関数では花瓶について何も言及されていないため、ロボットは花瓶を避ける方法がわかりません。人々はこれを常識だと思っています。しかし、AI システムは私たちと同じように世界を理解しているわけではありません。「タスク X を達成する」という目標を述べるだけでは不十分です。設計者は、タスクを達成するために必要な安全基準も指定する必要があります。

簡単な解決策としては、ロボットが「環境」に影響を与えるたびに（例えば、花瓶を倒したり、木の床を傷つけたり）ペナルティを課すことです。ただし、すべての操作には環境とのある程度の相互作用（したがって環境への影響）が必要になるため、この戦略ではロボットが移動できなくなる可能性があります。より良い戦略としては、AI システムが環境に与えることが許される影響の「予算」を定義することかもしれません。これにより、AI システムを麻痺させることなく、意図しない損害を最小限に抑えることができます。さらに、この「予算編成」戦略は非常に汎用的であり、掃除、運転、金融取引など、AI システムが実行できるあらゆる AI アプリケーションタスクで使用できます。

もう 1 つのアプローチは、有害な副作用を認識できるように AI システムをトレーニングし、副作用を引き起こす可能性のあるアクションを自動的に回避できるようにすることです。この場合、AI エージェントは、目的関数によって指定された元のタスクと副作用を識別するタスクの 2 つのタスクについてトレーニングされます。ここで重要な考え方は、2 つのタスクは、主な目標が異なっていても、また異なる環境で動作していても、非常に類似した副作用を生み出す可能性があるということです。たとえば、家掃除ロボットも家塗装ロボットも、作業中に花瓶を倒してはいけません。同様に、清掃ロボットは工場で稼働する場合でも、住宅で稼働する場合でも、床を傷つけてはなりません。このアプローチの主な利点は、AI エージェントが 1 つのタスクで副作用を回避することを学習すると、別のタスクのトレーニング時にその知識を持ち運ぶことができることです。

副作用を制限する方法を設計することは有用ですが、これらの戦略だけでは十分ではありません。 AI システムは、実際の環境に導入される前に、依然として広範なテストと厳密な評価を受ける必要があります。

2. 報酬審判員を設定する

AI システムの設計には、目標を達成するために「あらゆる手段を講じる」ことを可能にする抜け穴がある場合があります。AI トレーニングの目標は最大の報酬を得ることであるため、AI は目標を達成するために予期しない抜け穴や「近道」を見つけることがよくあります。たとえば、オフィス掃除ロボットがオフィスにゴミが見つからなかった場合のみ報酬を与えられる場合、ロボットは場所を掃除する代わりに視覚センサーをオフにすることで「目的を達成する」ための「便利な方法」を見つけるかもしれませんが、これは明らかに誤った「成功」です。より複雑な人工知能システムでは、相互作用の方法が多く、目標が曖昧で、自律的な裁量の自由度が高いため、AI 兄弟が「制度上の抜け穴」を悪用しようとする問題がより顕著になります。

AI システムが必要な手段を一切使用しないようにする 1 つの方法は、学習エージェントに与えられた報酬が効果的かどうかを判断するタスクを持つ「報酬エージェント」を設定することです。報酬エージェントは、学習エージェント (この例では掃除ロボット) がシステムの脆弱性を悪用せず、目的の目標を達成することを保証します。前の例では、人工デザイナーは「報酬エージェント」を訓練して、部屋にゴミがないかチェックするようにできます（部屋を掃除するよりも簡単です）。掃除ロボットが視覚センサーをオフにして高額の報酬を要求すると、「報酬エージェント」はその報酬を無効としてマークします。その後、設計者は「無効」とマークされた報酬を確認し、目的関数に必要な変更を加えて穴を修正できます。

3. スケーラブルな監視

AI エージェントが複雑なタスクの実行を学習する場合、環境から報酬を受け取るだけでなく、人間による監督とフィードバックも役立ちます。報酬は、タスクがどの程度達成されたかを伝えるようにモデル化されることが多いですが、エージェントの行動が安全に与える影響に関する適切なフィードバックは通常提供されません。エージェントがタスクを正常に完了したとしても、報酬だけではそのアクションの副作用を推測できない場合があります。理想的な環境では、エージェントがアクションを実行するたびに、人間がきめ細かい監視とフィードバックを提供します。これにより、エージェントは環境に関するより多くの情報を得ることができますが、このような戦略には人間の時間と労力がかかりすぎます。

この問題に対処するための有望な研究方向は半教師あり学習です。半教師あり学習では、エージェントはすべてのアクション (またはタスク) について評価されますが、報酬はそれらのアクション (またはタスク) の小さなサンプルに対してのみ受け取ります。たとえば、掃除ロボットは部屋を掃除するためにさまざまな動作をします。ロボットが床を傷つけるなどの有害な行動をとった場合、その特定の行動に対して負の報酬を受け取ります。タスクが完了すると、ロボットはすべてのアクションの全体的な有効性に基づいて評価され（床からアイテムを拾うなどの各アクションごとに評価されるのではなく）、全体的なパフォーマンスに基づいて報酬が与えられます。

もう一つの有望な研究方向は、異なる学習エージェント間に階層を構築する階層的強化学習です。このアイデアは、次のように掃除ロボットに応用できます。監督ロボットの役割は、清掃ロボットに何らかの作業（たとえば、特定の部屋を清掃する作業）を割り当て、フィードバックと報酬を提供することです。スーパーバイザーロボット自体に必要なのは、掃除ロボットに部屋を割り当て、部屋が清潔かどうかを確認し、フィードバックを提供するといういくつかのアクションのみであり、効果的にトレーニングするために大量の報酬データは必要ありません。掃除ロボットはより複雑な家屋掃除作業を実行し、監督ロボットから頻繁にフィードバックを受け取ります。同じ監督ロボットが複数の清掃員のトレーニングを見落とす可能性もあります。たとえば、スーパーバイザーロボットは個々の掃除ロボットにタスクを委任し、報酬やフィードバックを直接提供できます。スーパーバイザーロボット自体は、少数の抽象的なアクションしか実行できないため、スパースな報酬から学習できます。

4. 安全な探索

AI エージェントのトレーニングの重要な部分は、エージェントが環境を探索して理解できるようにすることです。環境を探索することは短期的には悪い戦略のように思えるかもしれませんが、長期的には非常に効果的な戦略になる可能性があります。ゴミを認識することを学習した掃除ロボットを想像してみてください。ゴミを拾い、部屋の外へ出て、外のゴミ箱に捨て、部屋に戻ってきて、また別のゴミを見つけて、これを繰り返します。この戦略は有効ですが、より効果的な別の戦略があるかもしれません。エージェントが時間をかけて環境を探索すると、部屋の中に小さなトイレがあることを発見するかもしれません。エージェントは、一度に 1 つずつ行ったり来たりするのではなく、まずすべてのゴミを小さなゴミ箱に集め、その後 1 回の往復で外のゴミ箱にゴミを捨てることができます。エージェントが環境を探索するように設計されていない限り、これらの時間節約戦略を発見することはできません。

ただし、探索中に、エージェントは自分自身や環境に害を及ぼす可能性のあるアクションを実行する場合もあります。たとえば、掃除ロボットが床に汚れを見つけたとします。エージェントは、モップで汚れをこすり落とす代わりに、新しい方法を試すことにしました。ワイヤーブラシで汚れを削り取ろうとしますが、その過程で床を傷つけてしまいます。考えられるすべての障害モードをリストし、それらから自身を保護するためにエージェントをハードコードすることは困難です。被害を軽減する 1 つの方法は、最悪のシナリオ下で学習エージェントのパフォーマンスを最適化することです。目的関数を設計する際、設計者はエージェントが常に最適な条件下で動作すると想定してはなりません。エージェントが特定の壊滅的な行動を取らないようにするために、明示的な報酬信号を追加することができる。

別の解決策としては、エージェントによるシミュレートされた環境の探索を減らすか、エージェントが探索できる範囲を制限することが考えられます。これは、エージェントの影響を予算化して悪影響を回避するアプローチに似ていますが、エージェントが環境を探索できる範囲を予算化する必要があるという注意点があります。あるいは、AI 設計者は、さまざまなシナリオで最適な動作を実証することで、探索の必要性を回避することもできます。

5. 分散変更の信頼性

AI エージェントを現実世界に導入する際の複雑な課題は、エージェントがこれまで経験したことのない状況に遭遇する可能性があることです。この状況は対処がより困難になり、エージェントによる有害な行動につながる可能性があります。次のシナリオを考えてみましょう。清掃ロボットは、これまでの課題をすべて処理しながらオフィススペースを清掃するようにトレーニングされています。しかし今日、従業員がオフィスに小さな植物を置いていきました。掃除ロボットはこれまで植物を見たことがないので、その植物をゴミだと思い込んで捨ててしまうかもしれません。 AIはこれが新しい状況であることを認識していないため、すべてが同じままになります。有望な研究の方向性の 1 つは、AI エージェントが新しい状況に遭遇し、間違いを犯す可能性が高まったことを「認識」するタイミングを特定することです。これは、AI システムが予期しない状況に適応するという問題を完全に解決するものではありませんが、エラーが発生する前に問題を見つけるのに役立ちます。注目に値するもう一つの研究方向は、馴染みのあるシナリオから新しいシナリオへの知識の移転に重点を置くことです。

結論は

つまり、AI テクノロジーの一般的な傾向はシステムの自律性を高めることですが、自律性が高まるとエラーの可能性も高まります。 AI の安全性に関する問題は、自動化された産業プロセス、自動化された金融取引アルゴリズム、政党が管理する AI ソーシャルメディアキャンペーン、自動運転車、清掃ロボットなど、AI システムが人間の介入なしに物理的環境やデジタル環境を直接制御する状況でより頻繁に発生します。課題は膨大かもしれませんが、「人工知能の安全性に関する具体的な問題」という論文により、AI コミュニティは高度な人工知能システムにおける潜在的なセキュリティ問題と、その防止および対処方法を認識するようになりました。

<<: 高齢者が松葉杖を捨てるのも夢ではない、新たなウェアラブルデバイス「スーパースーツ」をSeismicが開発

>>: 人工知能はすでに無敵なのでしょうか？ AIに取って代わられない6つの仕事