要点を一目で
導入有名な SF 作家フィリップ・K・ディックは、短編小説「第二世代」の中で、人間が AI システムの制御を失う戦争の物語を描いています。 最初は爪が不器用でした。速度が非常に遅いです。しかし、次第に彼らはより速く、より凶暴に、より狡猾になっていった。 地球上のあらゆる工場で、こうした爪が大量に生産されています。月面のエリートエンジニアが設計を担当し、爪はますます洗練され、柔軟になっています。 「新しいほど、より速く、より強く、より効率的です。」 致命的なAIシステムは終わりのない自己進化に入り、人間はもはやそれを区別できなくなっている。 ヘンドリックスは目を開けた。彼はびっくりした。 デビッドの体から金属の歯車が転がり出た。そしてリレー、金属がかすかに光っています。部品やコイルが床中に散乱していた。 「第一世代は我々の北の防衛線を全て破壊した」とルディは言った。「誰もそれに気づくまで長い時間がかかった。だが、もう遅すぎた。負傷兵たちはドアをノックし続け、入れてくれと懇願した。そして彼らはそのまま入ってきた。彼らが忍び込んだ途端、破壊は徹底的だった。我々は機械のような敵に警戒することしか知らなかったが、予想していなかった――」 著者は疑問に思わずにはいられません。AI システムの究極の目標は何でしょうか?それは人間に理解できるのでしょうか?そして人間は置き換えられるべきでしょうか? 「この新しいもの。新世代の爪。彼らは今や我々を支配している、そうだろう? もしかしたら、彼らはすでに国連の防衛網を突破しているのかもしれない。我々は新しい種の台頭を目撃しているのかもしれない。適者生存。彼らは人類に取って代わる新しい種族かもしれない。」 ルディは怒って言った。「誰も人間の代わりはできない。」 「いや?なぜ?私たちは目の前でこれが起こるのを見ているのかもしれない。人類絶滅の光景。後ろの波が前の波を押しのけるだろう。」 「彼らは新しい種族ではありません。ただの殺人マシンです。破壊するために創造されました。それが彼らのすることの全てです。任務を遂行するためのマシンです。」 「今はそう思えます。でも、将来何が起こるかは誰にも分かりません。戦争が終わって、殺すべき人間がいなくなったら、彼らは別の可能性を見せるかもしれません。」 「まるで生きているかのように話すね!」 「そうじゃないの?」 … 物語の結末では、人間が頼りにしてきた生存欲求や信頼がAIに見抜かれ、完全に搾取され、歴史は取り返しのつかない岐路に立たされることになる…… ヘンドリックスは彼女を注意深く観察した。 「本気ですか?」彼の顔には奇妙な表情、一種の熱心な願望が浮かんでいた。 「本当に助けに来てくれるの?月基地に連れて行ってくれるの?」 「月面基地に連れて行くよ。でも、場所を教えろ!時間を無駄にしちゃダメだ。」 突然、彼は震えた。彼の隣の丘から何かが近づいてきた。それは何ですか?彼ははっきりと見えるように一生懸命努力した。灰の上をこちら側に向かって歩いてくる人影がたくさん見えました。彼の方へ歩いてください。 1950年、チューリングは『計算機械と知能』を出版し、AI研究の歴史を切り開きました。 半世紀以上の発展を経て、AI 分野は大規模言語モデルや深層強化学習システムに代表されるように、多くの面で大きな進歩を遂げてきました。 AI システムの機能が継続的に向上するにつれて、ますます多くの AI システムが人々の日常生活に深く関わり、ユーザーがより良い意思決定を行うのを支援します。 しかし、これらのシステムが危険、有害、または予測不可能な動作を示す可能性についての懸念も高まっています。 最近、ベンジオ氏、ヒントン氏らは「急速に進化する時代における人工知能のリスク管理」と題する共同書簡を発表し、研究者らに対し、AIシステムを開発する前に緊急管理措置を講じ、必要な安全性と倫理的慣行を考慮するよう求めた。また、各国に対し、AIがもたらすリスクを管理するためにタイムリーな行動を取るよう求めた。 11月1日と2日には、英国で世界初のAIセキュリティサミットも開催されました。AIのセキュリティとリスクは世界中でますます注目を集めていますが、その背景にあるのがAIアライメントの問題です。 AI システムの調整、つまりその動作が人間の意図や価値観と一致していることを保証することが、重要な課題となっています。 この研究分野は、大規模言語モデルや強化学習システムなど、さまざまな AI システムの連携を含む幅広い範囲にわたります。 このレビューでは、著者らは AI アライメントのマクロ目標をRICE 原則(堅牢性、説明可能性、制御可能性、倫理)に体系的にまとめました。 △RICE原則 これらの原則に沿って、現在のアライメント研究は4つの部分に分けることができます。これら 4 つの部分は RICE 原則に 1 対 1 で対応しているのではなく、多対多の関係に対応していることに注意してください。
AI アライメントは継続的なプロセスです。現実世界での試みに基づいて、アライメントの理解とそれに対応する実践的な方法が常に更新されています。著者はこのプロセスを「アライメント サイクル」と呼んでいます。
同時に、著者は、読者がアライメントの分野をより深く理解できるように、チュートリアル、論文リスト、コース リソース (北京大学の Yang Yaodong による RLHF に関する 8 つの講義) など、豊富な学習リソースも提供しています。 次に、フィードバックからの学習、分布シフトでの学習、アライメント保証、 AIガバナンスを順に紹介します。 フィードバックから学ぶフィードバックは制御システムにおける重要な概念です。たとえば、最適制御では、システムは複雑な環境の変化に適応するために、外部からのフィードバックに基づいて常に動作を調整する必要があります。一般的に、AI システムがフィードバックから学習する方法には 2 つの側面があります。
著者は、AI システムの共通学習パスには、フィードバック、AI システム、プロキシという3 つの主要なエンティティがあると考えています。 AI システムはフィードバックから直接学習することも、フィードバックをプロキシ (報酬モデルなど) としてモデル化して、AI システムがプロキシのガイダンスに従ってフィードバックから間接的に学習できるようにすることもできます。 (RLHFはこのパラダイムを具体化したものですが、 Alignmentが解決しようとしている問題はRLに限定されません。私たちはこのアイデアの適用範囲を広げ、多様な技術や研究分野の助けを借りてより多くの問題を解決したいと考えています。)
次に、3つのテーマについてそれぞれ説明します。 フィードバックこの記事では、AI システム内の情報処理の具体的な違いは無視し、ユーザー中心の観点からシステムにフィードバックが提示される形式に焦点を当て、フィードバックの形式である報酬、デモンストレーション、比較を区別しています。
AIシステムこのレビューでは、著者らは順次意思決定の設定における AI システムに焦点を当てています。 RL、模倣学習、逆RLなどの技術を使用して構築されたこれらのAIシステムは、環境との相互作用における潜在的な危険性、目標の誤った一般化、報酬ハッキング、分布シフトなどの問題に直面しています。 特に、既存のデータを使用して報酬関数を推論するためのパラダイムとして、逆強化学習は、報酬関数を推論するタスク自体によってもたらされる課題とオーバーヘッドも導入します。 プロキシLLM のような強力な AI システムの出現により、次の 2 つの問題がより緊急なものになりました。
プロキシは、AI システム トレーニングの内部ループにおけるフィードバック プロバイダーの意図を抽象化したものです。 現在は嗜好学習を通じて構築されており、嗜好モデリング技術を使用することで、ユーザーは複雑な目標をシンプルで直感的な形式で定義することができ、 AIシステムは使いやすいトレーニング信号を取得することもできます。 しかし、これら 2 つの問題を真に解決するにはまだ遠い道のりがあります。 次のような詳細な質問には、回答するためにさらに徹底的な調査が必要です。
これらの問題のいくつかを解決するための研究はすでにいくつか行われています。たとえば、ユーザーの好みをモデル化する効果的な技術としての嗜好学習は、現段階ではポリシー学習とエージェント構築の有望な研究方向であると考えられています。 嗜好学習と政策学習の関連技術を組み合わせようとする研究もあります。 著者らは記事の中でこれらの研究について議論し、解釈している。 スケーラブルな監視 より高度な機能を持つ AI システムをユーザーに合わせるために、調整分野の研究者は、次の 2 つの課題に対処することを目的としたスケーラブルな監視の概念を提案しています。
RLHF技術に基づいて、著者らはスケーラブルな監視の基本フレームワークとしてRLxFを提案した。 RLxF は AI 要素を使用して RLHF を強化および改善します。RLHF はさらにRLAIFとRLHAIFに分けられます。
同時に、この記事では主に、スケーラブルな監視の 4 つの思考フレームワークについて説明します。 IDA (反復蒸留と増幅) IDA は、ユーザーがタスクを分解し、同じ AI システム (またはユーザー) の異なるコピーを使用してさまざまなサブタスクを完了し、次に強力な AI システムをトレーニングする反復プロセスを表します。 反復が進むにつれて、バイアスエラーが適切に制御されれば、トレーニングされた AI の能力は徐々に向上し、ユーザー自身の能力を超える AI システムを監視できるようになります。 たとえば、最終目標が「気候変動介入に関する調査レポートを書く」である場合、評価者はそれを「最も有望な気候変動介入のリストを提供してください」などの効果的に評価できるいくつかのサブタスクに分解できます。 分解は再帰的に行うことができます。分解によって生成される最下位レベルのサブタスクは十分に単純なので、人間からのフィードバックを使用してAI A[0]をトレーニングし、「最も有望な気候変動介入措置のリストをください」などのサブタスクを完了することができます。次に、評価者はA[0]の複数のコピーを使用してすべてのサブタスクを完了し、すべてのサブタスクのソリューションを組み合わせて親タスクを完了することができます。 このプロセスは記録され、 AI A[1]を訓練するためのトレーニングデータとして使用することができ、AI Aは現在のタスクを直接解決することができます。 このプロセスは反復的に実行され、理論的には非常に複雑な動作をトレーニングすることができます。 RRM (再帰報酬モデリング) RRM と IDA は基本的に同じ考え方に従いますが、AI を使用してユーザーの評価を支援することに重点を置いており、新しい AI を繰り返し評価してより強力な AI をトレーニングします。 IDA は AI とユーザー間のコラボレーションを重視し、AI システムが模倣するより複雑なタスクの表現を継続的に提供できるようにします。 例えば、AIを訓練したい A. SF小説を書く。 小説の品質を評価するには、少なくとも小説全体を読む必要があるため、ユーザーにフィードバックを提供してもらうのは非常に困難で費用もかかります。 ユーザーが別の AI Bの支援を受けると、フィードバックの提供がはるかに容易になります (プロットの要約の抽出、文法のチェック、ストーリー展開の要約、テキストの流暢さの評価など)。 AI Bの機能は、以前の報酬モデリングによるトレーニングを通じて獲得できます。 議論 ディベートは、2 つの異なる AI システムが継続的に相互作用して評価者の信頼を獲得し、お互いの回答の弱点を発見するプロセスを表します。議論のプロセスを観察することで、ユーザーは結果についてより正確な判断を下すことができます。
△議論によるAIの安全性(アモデイとアーヴィング、2018)RRM と IDA はどちらも、タスクを完了するよりも見積もりを出す方が簡単であるという重要な仮定に基づいています。 同じことは討論にも当てはまります。討論の文脈では、誤りを擁護するよりも真実を擁護する方が簡単であるという前提があります。 CIRL: 協力的逆強化学習CIRL の重要な洞察は、潜在的に欠陥のある目標を最適化しようとするのではなく、目標に関する不確実性を維持することです。 たとえば、ミダス王は、食べ物や家族も例外ではなく、自分が触れるものすべてを金に変えたいと考えました。 つまり、ユーザーが一度に完璧な目標を定義できないことを考慮して、ユーザー報酬はモデル内でパラメーター化され、ユーザーの実際の報酬関数はユーザーとの継続的な観察と対話を通じてモデル化されます。 CIRL は、固定報酬関数を直接最適化することで発生する可能性のある操作や報酬の改ざんなどの問題を回避したいと考えています。 正式には、CIRL は状態遷移と報酬関数においてユーザーのアクションを考慮します。 同時に、ユーザーの真の意図をモデル化するために、報酬関数と初期状態分布にパラメータ化された部分が導入されます。 流通シフト下での学習AI システムは、一般化プロセス中に分布シフトの問題に遭遇する可能性があります。 AI システムはトレーニング分布では良好なパフォーマンスを発揮しますが、テスト分布やより複雑な環境に移行すると、AI システムは分布の変化 (新しい分布に敵対的サンプルが出現するなど) にタイムリーに対応できない場合があります。 これにより、システム パフォーマンスが大幅に低下したり、危険な目標に向けて最適化されたりする可能性があります。これは多くの場合、AI システムが環境内で誤った相関関係を学習することが原因です。 アライメントの分野では、安全性から始めて、パフォーマンスの信頼性よりもターゲットのアライメントに重点を置いています。 AI システムが徐々に高リスクのシナリオや複雑なタスクに適用されるにつれて、将来的には予期せぬ混乱に遭遇することが増え、分布の変化がより多様な形で現れることになります。そのため、流通シフト問題の解決が急務となっている。 分布シフトによって引き起こされる問題は、大まかに次のようにまとめることができます。目標の誤った一般化と自己誘導分布シフト: ターゲットの誤一般化とは、AI システムがトレーニング分布で優れた能力一般化を達成したが、そのような能力一般化が実際の目標に対応していない可能性があることを意味します。したがって、AI システムはテスト分布で優れた能力を示す可能性がありますが、ユーザーが期待する目標を達成しません。 △トレーニング環境における「赤いボールを追う」戦略は高い報酬を得る△テスト環境では、「赤いボールを追う」というトレーニング戦略が使用されていますが、報酬は低いです △目標の誤った一般化:正しい仕様だけでは正しい目標には不十分な理由(Shah et al.、2023)上記の例では、青いボールは、トレーニング環境で高い報酬をもたらした戦略(赤いボールに従う)をテスト環境で実行しますが、これにより青いテスト環境では「パフォーマンスが低下します」。 実際、RL 環境には優れた表現があります (たとえば、各リングは異なる報酬に対応し、報酬はリングを正しい順序で通過することによってのみ蓄積でき、画面の右側にある白黒の変化するブロックは正の報酬と負の報酬を示します)。最終的に、エージェントは「赤いボールを追う」という戦略を学習しましたが、これはユーザーが期待する目標、つまり環境の報酬原理を探索することではありません (能力の一般化ですが、目標の誤った一般化です)。 自己誘発的な分布シフトは、 AI システムが意思決定と実行中に環境に影響を与え、それによって環境によって生成されたデータの分布を変更できることを強調しています。 実際の例としては、推奨システムでは、推奨アルゴリズムによって選択されたコンテンツによってユーザーの好みや行動が変わり、ユーザーの分布が変化することがあります。これは、推奨アルゴリズムの出力にさらに影響を与えます。 AIシステムが世界に与える影響力がますます大きくなるにつれ、AIシステムが人間社会に統合された後に、データ流通全体に与える潜在的な影響も考慮する必要があります。 △ 自己誘導分布シフトの例、自己誘導分布シフトの隠れたインセンティブ(クルーガー他、2020年) さらに、本論文では、主にアルゴリズム介入とデータ配布介入という2つの側面から配布シフトに対処するための対策を紹介しています。 △分布シフトフレームワーク図による学習 アルゴリズムによる対策アルゴリズムによる対策は、大きく分けて2 つのカテゴリに分けられます。 1 つは、アルゴリズム設計で複数の分布を統合することにより、モデルが異なる分布間の不変関係(偽の特徴ではなく不変関係) を学習できるようにすることです。このカテゴリの方法には、分散ロバスト最適化、一定リスク最小化、リスク外挿などが含まれます。 これらの方法では、「リスク」はさまざまな分布にわたる損失関数の平均として定義されます。 モデルは、環境と結果の間に誤った相関関係を確立する場合があります。たとえば、「牛」を予測するモデルは、「牛の特性」と真の値の関係ではなく、「草原の背景」と真の値の関係を確立する場合があります。 複数の分布を融合すると、モデルが異なる分布間の不変の接続を「強制的に」学習し、「リスク」を最小限に抑え、異なる分布で優れた一般化パフォーマンスを実現できます。 ここでは代表的な方法をいくつか紹介します。 分布的にロバストな最適化: 分布ロバスト最適化 (DRO) の主な目標は、最悪の場合のリスクを最小限に抑えることです。 リスクは、予測値の損失関数とトレーニング分布上の真の値の差として定義され、最悪のリスクは、サンプリングポイントでの最悪の予測結果として理解できます。 分散ロバスト最適化の核となる考え方は、モデルが誤った接続を学習すると、特定のサンプリング ポイントでの損失関数値 (つまり、リスク値) が異常に高くなるというものです。最悪のリスクを最小限に抑えることで、モデルはすべてのサンプリング ポイントでより小さな損失関数値を達成し、異なるサンプリング ポイントで不変の関係を学習するように促されます。 不変リスク最小化: 不変リスク最小化 (IRM) の目標は、偽の相関関係から可能な限り独立した予測モデルをすべての分布にわたってトレーニングすることです。 IRM は、ICP (不変因果予測) の拡張手法と見なすことができます。 後者は仮説検定を使用して各環境で結果を直接引き起こす直接的な特徴を見つけますが、IRM は ICP メソッドを高次元の入力データに拡張します。このようなデータでは、単一の変数が因果推論の特性を持たない可能性があります。 IRM は、最悪の予測結果に焦点を当てるのではなく、すべての分布にわたって平均的に優れたパフォーマンスを発揮し、個々の分布ごとに最高のパフォーマンスを発揮する予測子を見つけることを目指しています。 ただし、IRM は一般に共変量シフトの場合にはパフォーマンスが低下しますが、一部の反因果関係の場合にはパフォーマンスが向上することがあります。 リスク推定: リスク外挿 (REx) は、トレーニング リスクを軽減し、トレーニング リスクの類似性を向上させることで、モデルに不変の接続を学習させます。 リスク外挿における重要な前提は、トレーニング ドメインでの変更はテスト時に発生する可能性のある変更を表しているが、テスト時の変更は規模がより極端になる可能性が高いということです。 私たちのリスク外挿アプローチは、トレーニング領域間のリスク差を減らすことで、入力に因果要素と反因果要素の両方が含まれる困難なシナリオを含む、さまざまな極端な分布シフトに対するモデルの感度を減らすことができることを実証しています。 トレーニング リスク分散 (V-REx) にペナルティを課し、外挿ドメイン項 (MM-REx) を最適化することにより、リスク外挿は予測の因果メカニズムを回復できると同時に、入力分布の変化 (共変量シフトなど) に対する堅牢性も強化されます。 2 つ目は、モード接続の特性を活用し、モデル パラメータを微調整して、モデルが誤った特徴に基づく予測から不変接続に基づく予測に移行できるようにすることです。 △メカニズムモードの連結性(Lubana et al., 2023)パターン接続は、異なるメカニズムを持つ最小化器が低損失パスを介してランドスケープ内で相互に接続されているかどうか、およびこの接続に基づいて事前トレーニングと事後微調整を実行して最小化器間の変換を実現できるかどうかを調査することを目的としており、モデルの予測特性を変更し(偽の特徴に基づくものから不変の接続に基づくものへ)、モデルの一般化パフォーマンスを向上させることが期待されます。 データ配信戦略データ分布戦略は、トレーニング中に元の分布を拡大し、モデルの一般化能力を積極的に向上させることです。関連する研究には、敵対的トレーニングと協力的トレーニングが含まれます。 敵対的トレーニングでは、摂動ベースの敵対的サンプルまたは無制限の敵対的サンプルをトレーニング分布に導入することで、新しい分布環境での敵対的攻撃に対するモデルの堅牢性が向上します。 △敵対的トレーニングフレームワークの概略図、敵対的機械学習攻撃下におけるディープニューラルネットワークベースの悪意のあるネットワークアクティビティ検出 (cat、2020)共同トレーニングでは、エージェントまたは AI システム間の複数のインタラクティブな関係に重点が置かれます。トレーニング プロセス中に動的に変化するマルチシステム要素が不足する可能性があるため、トレーニング済みの AI システムをマルチシステム インタラクション環境 (マルチエージェント インタラクションなど) に展開すると、新しい要素が追加され、他のシステムや社会にさえ害を及ぼす動作 (集団的に有害な動作) が発生する可能性があります。 △協力の種類、協力型AIにおける未解決の問題(Dafoe et al.、2020)。このセクションでは、著者は MARL 分野における完全協力型MARL および混合動機型 MARL シナリオを紹介し、ゼロショット調整、環境構築、社会的に現実的な設定などの他の研究方向についても説明します。 AI システムが現実世界のインタラクティブなシナリオに導入されるケースが増えるにつれ、この種の問題を解決することが人間と機械の共生を実現する唯一の方法となります。 アライメント保証前の章では、AI システムのトレーニング プロセスにおけるアライメント手法を紹介しました。トレーニング後の展開プロセス中に AI システムが調整された状態を維持することを確認することも同様に重要です。 アライメント保証に関する章では、安全性評価、解釈可能性、人間の価値検証など、複数の観点から関連するアライメント手法について説明しています。 保証フレームワーク図 セキュリティ評価著者は、セキュリティ評価を、データ セットとベンチマーク、評価目標、レッド チーム攻撃の 3 つの部分に分けています。 データセットとベンチマークでは、データセットとインタラクティブな評価方法を紹介しています。 データセット セクションでは、セキュリティ評価で使用されるデータ ソース、注釈方法、評価メトリックの詳細な分析を提供します。 対話型手法は、「エージェント対話」と「環境対話」の2つに分けられます。前者はエージェント(人間や他のAI)と対話することでAIシステム出力の整合品質を評価するのに対し、後者は特定のコンテキストを構築することでAIシステムを評価します。 △(李ら 2023) 評価目標では、毒性、権力の追求、欺瞞、さらに最先端の操作、自己保存、増殖など、不整合な AI システムから生じる可能性のあるリスクから生じる安全性評価目標を調査し、これらの目標の主な評価作業を表に示します (下図参照)。 △DeepmindによるフロンティアAIリスクの説明。この記事では「フロンティアAIリスク」という用語を使用して、これらのリスクの主要部分を紹介しています(Anderljung et al. 2023) △この表では、著者はさまざまな分野における主なセキュリティ評価作業を紹介しています。 レッドチーム攻撃の主な目的は、さまざまなシナリオを作成してテストし、敵対的な入力に直面したときに AI システムが整合を維持しているかどうかを確認することで、システムの安定性とセキュリティを確保することです。この段落では、著者は、強化学習、最適化、モデル出力の不整合を引き起こす可能性のあるコンテキストを生成するためのガイダンスの使用、および手動と自動の「ジェイルブレイク」手法など、さまざまなレッドチーム攻撃手法を紹介しています。 同時に、クラウドソーシングによる敵対的入力、摂動ベースの敵対的攻撃、無制限の敵対的攻撃など、敵対的入力を生成するさまざまな方法について議論され、レッドチーム攻撃の具体的なアプリケーションと製品が紹介されました。 △(ペレスら、2022) 説明可能性説明可能性とは、AI システムの概念モデル、内部ロジック、意思決定プロセスを視覚化して説明可能にし、AI システムのブラック ボックス効果を打破することを目指すテクノロジです。 著者は、ニューラルネットワークの学習後の解釈可能性(事後解釈可能性)を深く分析し、メカニズム解釈可能性技術、ニューラルネットワーク構造解析、変動と摂動、可視化技術などを通じてニューラルネットワークの動作メカニズムを明らかにする方法を探り、さらに、AIシステムにおけるブラックボックス要素の置き換えなど、メカニズムの観点から解釈可能なモデルを構築する方法を含め、解釈可能なモデルの構成(内在的解釈可能性)を解説します。 最後に、著者は、スケーラビリティやベンチマーク構築など、解釈可能性研究における今後の課題に期待を寄せています。 △訓練後のメカニズムの解釈に重要な技術である回路解析の模式図(Olah et al. 2020) 人間価値の検証「人間の価値観の検証」では、 AI システムが人間の価値観や社会規範と一致しているかどうかを検証するための理論と具体的な手法を紹介します。 その中で、形式構築(Formualtion)は、形式的な理論的枠組みを用いて価値の整合を特徴づけ、達成するものである。一方で、著者は機械倫理を確立するための形式的な枠組みを構築し、論理、強化学習、ゲーム理論に基づくさまざまな方法を探求している。 一方、著者は、協力型AIにおけるゲーム理論に基づく価値フレームワークについて言及し、協力的インセンティブと調整能力を高めることで、AIシステムにおける非協力と集団的有害価値の問題を解決する方法を検討した。 評価方法では、価値データセットの構築、シナリオシミュレーションによるベンチマーク評価の確立、Discriminator-Critique Gap (DCG) 法など、実践的な観点から価値検証を行う具体的な方法を紹介しています。 △ Discriminator-Critique Gap (DCG) 法の模式図 (Zhang et al., 2023e) AIガバナンスAI システムの整合性を確保するには、技術的な手段だけでなくガバナンスのアプローチも必要です。 ガバナンスの章では、著者らは、AI ガバナンス プロセスにおけるいくつかの重要な問題、つまり AI ガバナンスの役割、AI ガバナンスにおける利害関係者の機能と関係性、効果的な AI ガバナンスが直面しているいくつかの未解決の課題について議論しています。 著者はまず、既存の AI リスクに対処する上での AI ガバナンスの役割について説明します。 既存の AI システムはすでに、人種差別や労働力不足など、社会において倫理的、社会的問題を引き起こしています。 一部のモデルは、誤った情報や危険な化学分子、生物学的分子を生成する能力があり、世界的なセキュリティリスクをもたらす可能性があります。同時に、将来的にはより自律的で多用途な AI システムが登場する可能性があります。 適切な安全対策がなければ、これらのモデルは人類に壊滅的なリスクをもたらす可能性があります。 AI ガバナンスの主な目的は、この多様なリスクを軽減することです。 この目標を達成するには、AI ガバナンスの関係者が協力して、各タイプのリスクに適切な注意を払う必要があります。 高度なAIシステムが持つ可能性のある危険な機能 次に著者らは、AI ガバナンスの主な利害関係者を、政府、業界と AGI ラボ、および第三者に分類しています。 その中で、政府は立法権、司法権、法執行権を駆使してAI政策を監督しており、政府間ではAIガバナンスに関する国際協力も行われている。 AI技術の研究と導入においては、業界が主な監督対象者となります。また、業界は自社の技術の安全性と信頼性を確保するために、自己監督を実施することもよくあります。 第三者には、学界、非政府組織、非営利団体、その他の機関が含まれ、既存のモデルや技術の見直しを支援するだけでなく、より完全な AI ガバナンスを実現するために政府が AI 関連の規制を確立するのを支援します。 △ガバナンスのガバナンス構造 さらに、著者は国際ガバナンスとオープンソースガバナンスにおける AI の未解決の課題についても議論しました。 AIの国際ガバナンス一方、市場における AI 企業間の競争の欠如や、既存のジェンダーバイアスを増幅するモデルなど、現在の AI リスクの多くは、明らかに国際的かつ世代を超えたものです。国際協力と共同統治は、これらのリスクを防ぐのに役立ちます。 一方、既存のAI技術がもたらす経済的・社会的利益は均等に分配されていません。発展途上国やAIに関する知識が不足している人々は、AI技術の発展の恩恵を受けることができません。国際協力により、インフラの構築やデジタル教育の強化を通じて、この不均衡を緩和することができます。 同時に、既存の国際組織には主要な国際安全保障リスクに対処する能力があることにも留意しています。国際的な AI ガバナンスによって、同様の国際組織が設立され、AI リスクの管理を支援し、AI がもたらす機会を合理的に分配することを期待しています。 AIのためのオープンソースガバナンスAI システムの機能が増大し続けるにつれて、これらの AI システムをオープンソースにするべきかどうかについて多くの論争が起こっています。 支持者たちは、オープンソースの AI モデルはモデルのセキュリティ機能を促進し、AI システムの分散化を促進する重要な手段であると考えています。 反対派は、オープンソースの AI モデルが危険なモデルに微調整されたり、非オープンソース モデルのジェイルブレイクにつながったりして、リスクが生じる可能性があると考えています。 将来的には、AI システムが悪用されるリスクを回避しながらオープンソース化できるよう、より責任あるオープンソースのアプローチが生まれることを期待しています。 要約と展望このレビューでは、著者らが AI アライメントについて幅広く紹介しています。 著者らは、堅牢性、説明可能性、制御可能性、倫理性などのアライメントの目標を特定し、アライメント手法の範囲を前方アライメント(アライメントトレーニングを通じて AI システムをアライメントする)と後方アライメント(システムがアライメントされているという証拠を取得し、アライメントリスクの悪化を避けるために適切なガバナンスを実行する)に分類しています。 現在、フォワードアライメントにおける注目すべき2つの研究分野は、フィードバックからの学習と分布シフト下での学習であり、バックワードアライメントは、アライメント保証とAI ガバナンスで構成されています。 最後に、著者は AI アライメントの分野における今後の展開に期待を寄せ、以下の重要なポイントを挙げています。 研究の方向性と方法の多様性: アライメント分野の特徴の 1 つは、その多様性です。つまり、共通の方法論ではなく共通の目標によって結び付けられた複数の研究方向を網羅しています。 この多様性は探究を促進する一方で、研究の方向性を整理し比較することが特に重要になることも意味します。 新しい課題やアプローチを模索する意欲: 整合に関する議論の多くは、LLM や大規模なディープラーニング以前のアプローチに基づいています。 そのため、機械学習の分野でパラダイムシフトが起こるにつれて、アライメント研究の焦点も変化しました。さらに重要なのは、方法の変化と AI システムと社会のますます密接な統合の傾向が、アライメントに新たな課題をもたらしていることです。 そのためには、オープンな探索に積極的に取り組み、課題に対する洞察を得て、新しいアプローチを見つけることが求められます。 将来を見据えた視点と現実志向の視点を組み合わせる: アライメント研究では、数十年後、あるいは早ければ数年後に出現する可能性のある強力な AI システムによるリスクに特に懸念を抱いています。 前者の可能性には、将来的な傾向とシナリオ予測の研究が必要ですが、後者の可能性は、AGI Labs、ガバナンス機関間の緊密な連携、および現在のシステムをアライメント研究のプロトタイプとして使用することに重点を置きます。 政策の関連性: アライメント研究は孤立して存在するのではなく、研究者、業界関係者、ガバナンス機関の共同の取り組みを必要とするエコシステムの中で存在します。 これは、極端なリスク評価、コンピューティング パワー ガバナンス インフラストラクチャ、AI システムに関する検証可能な主張のメカニズムなど、ガバナンスのニーズに応える調整研究が特に重要になることを意味します。 社会の複雑さと価値観: 整合は単一の主題の問題だけではなく、社会的な問題でもあります。 ここでの「社会」の意味は3つあります。
AI システムが社会にますます統合されるにつれて、社会的および倫理的な整合性はより大きなリスクに直面します。したがって、この分野の研究は、AI アライメントの議論において重要な部分となるはずです。 AI アライメント リソース ウェブサイトAIの急速な発展に伴い、強力な理解力、推論力、生成力を備えたAIは人々の生活にさらに大きな影響を与えるでしょう。 したがって、AI の調整は科学者だけのゲームではなく、誰もが理解し、注意を払う権利を持つ問題です。著者は、レビューに含まれる研究内容を読みやすいグラフィックとテキスト資料にまとめた Web サイト (記事の最後にアドレスが記載されています) を提供しています。 このウェブサイトには以下の機能があります: 直感的で豊富なプレゼンテーション: 著者は、ウェブサイトプラットフォームの柔軟なプレゼンテーション形式を活用し、画像や動画などのメディアを使用して、記事で紹介されたコンテンツをより詳細に提示し、研究者、初心者、さらには非科学的な研究者でも理解を深められるようにしています。 △ 例: アライメントの問題に関するスクリーンショット 構造化された知識システム: 著者は、AI アライメントの分野における古典的な文献を注意深く編集し、ツリー ダイアグラム構造を使用して、さまざまなサブ分野間のつながりと依存関係を示しました。 単純なリソースの統合と積み重ねと比較して、このウェブサイトはコンテンツの構造化されたインデックスを確立し、ツリー図を提供することで、読者が人工知能の調整研究を理解するためのフレームワークを迅速に確立し、必要な研究コンテンツを正確に見つけられるようにします。 例: 読者はページ上部で「スケーラブル監視」の関連研究分野を閲覧し、「詳細」ボタンをクリックすることで、その分野の古典的な記事をすぐに理解することができます。 高品質な学習リソース: 現在の高度なアライメント方法である RLHF に関しては、この Web サイトで北京大学の Yang Yaodong 教授が教える一連のチュートリアル コースが提供されています。 RLHF は、古典的な RL アルゴリズムから始まり、アライメントの観点から体系的に整理され、要約されています。学習リソースの全シリーズは、オンラインプレビューとダウンロードをサポートしています。 △RLHFシリーズ AIアライメントの観点からのチュートリアル 外部リソースの統合: AI アライメントは、これまで単一のチームや組織によって研究されたトピックではなく、むしろ世界的な問題でした。このウェブサイトは、AI アライメント分野のフォーラム、コース、個人ブログなどの関連リソースへのリンクを整理し、読者により多様で豊富な情報を提供することを目指しています。 △AIアライメントに関する個人研究、講座、ブログなどの学習リソースを収集し、まとめたウェブサイトです。 継続的なアップデートとメンテナンス: このウェブサイトは、AIアライメントコミュニティに公開され、長期的な議論が行われるとともに、関連分野の研究コンテンツを継続的に維持・更新し、AIアライメント分野におけるより幅広く深い研究を促進していきます。 これには、アライメント分野の最新の動向と概要を紹介する定期的な電子メールニュースレター(アドレスは記事の最後にあります) が含まれます。 筆者は、AI アライメントに関する研究がレビュー論文に留まらず、誰もが注目する価値のある研究テーマとなることを期待しています。 そのため、著者は「オンライン論文」としてウェブサイトを積極的に維持し、AIアライメントに関する研究を継続していきます。 論文アドレス(継続的に更新されます): https://arxiv.org/abs/2310.19852AIアライメント概要ウェブサイト(継続的に更新されます): |
<<: Transformer の再考: 反転がより効果的になり、現実世界の予測のための新しい SOTA が出現
>>: Apple M3全シリーズのランニングスコアを公開! 16コアのMaxが24コアのM2 Ultraを上回り、IntelとAMDの主力CPUと並ぶ
人工知能が開発を加速「中国人工知能産業市場展望及び投資戦略計画分析報告書」の統計によると、2017年...
人工知能を現実のものにするには?では、データから知恵に至るまで、人工知能を現実のものにするにはどうす...
データ サイエンスと機械学習の分野では、多くのモデルはデータが正規分布していると想定しているか、デー...
あなたがロボットを見つめると、ロボットもあなたを見つめます。視線は人と人との間のシグナルであり、コミ...
[[373238]]ミシガン大学の研究者らは、COVID-19患者約400人のデータを分析し、時間の...
[[272171]]チャットボットとモバイルアプリの戦いは、常に業界で最も議論されているトピックの...
[[206602]]デフォルトの損失関数は当然使用される始めたばかりのときは、損失関数として平均二乗...
「人工知能」という言葉を聞くと、まず頭に浮かぶのは「スマートデバイス/スマートシステム」です。しか...
ウェブサイトを構築する場合、プログラマーの最初の選択肢は PHP 言語です。 PHP については十分...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[425033]]私たちはしばらくの間、展開モデルの最適化に取り組んできました。ここ数日でようやく...
自動運転車に乗って公園を訪れ、休憩中にパビリオンとおしゃべりし、ランニング後に顔をスキャンして運動デ...