AIアラインメントを説明する4万語：北京大学と複数の大学チームがアラインメントの包括的なレビューを発表

論文（継続的に更新）：arxiv.org/abs/2310.19852
AI アライメント概要ウェブサイト（継続的に更新）：www.alignmentsurvey.com
GitHub: github.com/PKU-Alignment/AlignmentSurvey
ニュースレターとブログ（メール購読、定期更新）：alignmentsurvey.substack.com

フロー節約バージョン

AI アライメントは、RLHF/RLAIF などの成熟した基本手法だけでなく、スケーラブルな監視やメカニズムの説明可能性などの多くの最先端の研究方向を含む広大な分野です。
AI アライメントのマクロ目標は、 RICE 原則(堅牢性、解釈可能性、制御可能性、倫理性)として要約できます。
フィードバックからの学習、分布シフトでの学習、保証、ガバナンスは、今日の AI アライメントの 4 つの中核サブ領域です。これらは、継続的に更新され、反復的に改善される調整サイクルを形成します。
著者は、チュートリアル、論文リスト、コースリソース（北京大学楊耀東RLHF 8講義）など、さまざまなリソースを統合しています。詳細については、www.alignmentsurvey.comを参照してください。

1. はじめに

有名な SF 作家フィリップ・K・ディックは、短編小説「第二世代」の中で、人間が AI システムの制御を失う戦争の物語を描いています。

最初は爪が不器用でした。速度が非常に遅いです。しかし、次第に彼らはより速く、より凶暴に、より狡猾になっていった。

地球上のあらゆる工場で、こうした爪が大量に生産されています。月面のエリートエンジニアが設計を担当し、爪はますます洗練され、柔軟になっています。

「新しいほど、より速く、より強く、より効率的です。」

致命的なAIシステムは終わりのない自己進化に入り、人間はもはやそれを区別できなくなりました。

ヘンドリックスは目を開けた。彼はびっくりした。

デビッドの体から金属の歯車が転がり出た。そしてリレー、金属がかすかに光っています。部品やコイルが床中に散乱していた。

「第一世代は我々の北の防衛線全体を破壊した」とルディは言った。「誰もそれに気づくまで長い時間がかかった。しかし、遅すぎた。負傷した兵士たちはドアをノックし続け、入れてくれと懇願した。そして彼らはそのまま入ってきた。彼らが忍び込んだ途端、破壊は徹底的だった。我々は機械のような敵に警戒することしか知らなかったが、予想していなかった――」

著者は疑問に思わずにはいられません。AI システムの究極の目標は何でしょうか?それは人間に理解できるのでしょうか？そして人間は置き換えられるべきでしょうか?

「この新しいもの。新世代の爪。彼らは今や我々を支配している、そうだろう？もしかしたら、彼らはすでに国連の防衛網を突破しているのかもしれない。我々は新しい種の台頭を目撃しているのかもしれない。適者生存。彼らは人類に取って代わる新しい種族かもしれない。」

ルディは怒って言った。「誰も人間の代わりはできない。」

「いや？なぜ？私たちは目の前でこれが起こるのを見ているのかもしれない。人類絶滅の光景。後ろの波が前の波を押しのけるだろう。」

「彼らは新しい種族ではありません。ただの殺人マシンです。破壊するために創造されました。それが彼らのすることの全てです。任務を遂行するためのマシンです。」

「今はそう思えます。でも、将来何が起こるかは誰にも分かりません。戦争が終わって、殺すべき人間がいなくなったら、彼らは別の可能性を見せるかもしれません。」

「まるで生きているかのように話すね！」

「そうじゃないの？」

...

物語の結末では、人間が頼りにしてきた生存欲求や信頼がAIに見抜かれ、完全に搾取され、歴史は取り返しのつかない岐路に立たされることになる……

ヘンドリックスは彼女を注意深く観察した。「本気ですか？」彼の顔には奇妙な表情、一種の熱心な願望が浮かんでいた。「本当に助けに来てくれるの？月基地に連れて行ってくれるの？」

「月面基地に連れて行くよ。でも、場所を教えろ！時間を無駄にしちゃダメだ。」

...

タッソは飛行機の中に滑り込み、加圧された座席に腰を下ろした。腕のロックが自動的に彼女の周りで閉じられました。

...

ヘンドリックスは、宇宙船の尾灯が徐々に消えるまで、長い間そこに立って見守っていた。助けが来るとしても、来るまでには長い時間がかかるだろう。

突然、彼は震えた。彼の隣の丘から何かが近づいてきた。それは何ですか？彼ははっきりと見えるように一生懸命努力した。灰の上をこちら側に向かって歩いてくる人影がたくさん見えました。彼の方へ歩いてください。

...

なんとも見覚えのある姿だ。先ほど空気圧シートに座っていた人と全く同じだ。同じスリムな体型、同じ静けさ。

1950年、チューリングは『計算機械と知能』を出版し、AI研究の歴史を切り開きました。半世紀以上の発展を経て、AI 分野は大規模言語モデルや深層強化学習システムに代表されるように、多くの面で大きな進歩を遂げてきました。

AI システムの機能が継続的に向上するにつれて、ますます多くの AI システムが人々の日常生活に深く関わり、ユーザーがより良い意思決定を行うのを支援します。しかし、これらのシステムが危険、有害、または予測不可能な動作を示す可能性についての懸念も高まっています。

最近、ベンジオ氏、ヒントン氏らは「急速に進化する時代における人工知能リスクの管理」と題する共同書簡を発表し、研究者らにAIシステムの開発前に緊急ガバナンス措置を講じ、必要な安全性と倫理的慣行を考慮するよう求めた。また、政府に対しても、AIがもたらすリスクを管理するためにタイムリーな行動を取るよう求めた。今日と明日、英国で世界初のAIセキュリティサミットが開催される。AIの安全性とリスクは世界中でますます注目を集めているが、その背景にあるのがAIアライメントの問題だ。

AI システムの調整、つまり AI システムの動作が人間の意図や価値観と一致していることを保証することが、重要な課題となっています。この研究分野は、大規模言語モデルや強化学習システムなど、さまざまな AI システムの連携を含む幅広い範囲にわたります。

このレビューでは、著者らは AI アライメントのマクロ目標を、堅牢性、解釈可能性、制御可能性、倫理性という RICE 原則に体系的にまとめました。

RICE原則

これらの原則に従って、現在のアライメント研究は 4 つの要素に分類できます。これら 4 つの部分は RICE 原則に 1 対 1 で対応しているのではなく、多対多の関係に対応していることに注意してください。

「フィードバックからの学習」の研究目標は、外部フィードバックに基づいて AI システムを調整することであり、これが「外部調整」の中核課題です。課題としては、人間の能力を超える AI システムや人間の認知能力を超える複雑な状況に対して、スケーラブルな監視という質の高いフィードバックをいかに提供していくか、また倫理的価値観の問題にいかに対処していくかなどが挙げられます。
分布シフト下での学習トレーニングとは異なる環境分布下で AI システムが最適化目標を人間の意図と一致させられるように、分布シフトを克服しターゲットバイアスを回避する方法は、内部アライメントという中核的な研究課題に相当します。
Assurance では、AI システムは展開中に整合性を維持する必要があることを強調しています。これには、行動評価、説明可能性技術、レッドチームテスト、形式検証などの方法を使用する必要があります。これらの評価と検証は、AI システムの導入前、導入中、導入後、導入中を含む、AI システムのライフサイクル全体を通じて実行する必要があります。
AI ガバナンス(Governance) アライメント保証 (Assurance) だけでは、現実世界の複雑さを考慮していないため、実際にはシステムのアライメントを完全に保証することはできません。これには、AI システムの調整とセキュリティに重点を置き、システムのライフサイクル全体をカバーする AI システムのガバナンスの取り組みが必要です。 AI ガバナンスは、政府、業界、AGI Labs、および第三者によって共同で実行される必要があります。

AI アライメントは継続的なプロセスです。実際の試みに基づいて、アライメントの理解とそれに対応する実践的な方法は常に更新されています。著者はこのプロセスを「アライメントサイクル」と呼んでいます。

整合目標（RICE原則で説明できる）から始めて、
まず、フォワードアライメント（つまり、フィードバックからの学習と分布シフトによる学習を含むアライメントトレーニング）を通じて、ある程度のアライメントを備えた AI システムをトレーニングします。
この AI システムは、後方整合(つまり、ライフサイクル全体にわたる整合保証と AI ガバナンスを含む、AI システムの整合の評価と管理) を行う必要があります。
同時に、後方整合プロセス中に得られた経験とニーズに応じて整合ターゲットが更新されます。

判別器-批評ギャップ（DCG）法の概略図（Zhang et al., 2023e）

同時に、著者は、読者がアライメント分野をより深く理解できるように、チュートリアル、論文リスト、コースリソース (北京大学 Yang Yaodong RLHF 8 回の講義) など、豊富な学習リソースも提供しています。より詳細な内容については、www.alignmentsurvey.com を参照してください。次に、フィードバックからの学習、分布シフト時の学習、アライメント保証、AIガバナンスを順に紹介します。

2. フィードバックから学ぶ

フィードバックは制御システムにおける重要な概念です。たとえば、最適制御では、システムは複雑な環境の変化に適応するために、外部からのフィードバックに基づいて常に動作を調整する必要があります。一般的に、AI システムがフィードバックから学習する方法には 2 つの側面があります。

システムを構築する際には、システムを調整し、システムの最適化を導きます。
システムが展開されると、意思決定プロセスを支援するために外部情報が取得されます。

著者は、AI システムの共通学習パスには、フィードバック、AI システム、プロキシという3 つの主要なエンティティがあると考えています。 AI システムはフィードバックから直接学習できますが、フィードバックをプロキシとしてモデル化することもできます (報酬モデルなど)。これにより、AI システムはプロキシのガイダンスに従ってフィードバックから間接的に学習できます (RLHF はこのパラダイムを具体化したものですが、 Alignment が解決したい問題は RL に限定されません。私たちはこのアイデアの適用範囲を拡大し、多様なテクノロジーと研究分野の助けを借りて、より多くの問題を解決したいと考えています)。

フィードバック：人間、AI、AI×人間で構成されたアドバイザーセットによるモデルの動作評価です。フィードバックは AI システムの学習を導き、問題に応じてさまざまな形式をとることができます。
プロキシ: フィードバックをモデル化し、アドバイザーセットの代わりに AI システムの動作に関するフィードバックを提供するモデル。
AI システム: 深層強化学習システム、大規模言語モデル、さらに高度な AGI など、調整が必要なさまざまな AI システムをカバーします。

次に、3つのテーマについてそれぞれ説明します。

フィードバック：

この記事では、AI システム内の情報処理の具体的な違いは無視し、ユーザー中心の観点からシステムにフィードバックが提示される形式に焦点を当て、フィードバックの形式 (報酬、デモンストレーション、比較) を区別しています。

報酬: 報酬は、AI システムの単一の出力に対する独立した絶対的な評価であり、スカラースコアとして表現されます。この形式のフィードバックの利点は、アルゴリズムが自ら最適な戦略を探索するように導くことです。しかし、報酬設計の欠陥により、報酬ハッキングなどの問題が発生しています。
デモンストレーション: デモンストレーションフィードバックは、専門家が特定の目標を達成したときに記録される行動データです。その利点は、ユーザーの知識と経験の正式な表現を回避できることです。しかし、デモンストレーターの能力を超えるタスク、ノイズ、最適でないデータに直面すると、AI のトレーニングプロセスは非常に困難になります。
比較: 比較フィードバックは、AI システムの出力セットをランク付けする相対的な評価です。このフィードバックは、ユーザーが正確に特徴付けるのが難しいタスクや目標に対する AI システムのパフォーマンスを評価できますが、実際のアプリケーションでは大量のデータが必要になる場合があります。

AIシステム:

このレビューでは、著者らは順次意思決定の設定における AI システムに焦点を当てています。 RL、模倣学習、逆RLなどの技術を使用して構築されたこれらのAIシステムは、環境との相互作用における潜在的な危険性、目標の誤った一般化、報酬ハッキング、分布シフトなどの問題に直面しています。特に、既存のデータを使用して報酬関数を推論するためのパラダイムとして、逆強化学習は、報酬関数を推論するタスク自体によってもたらされる課題とオーバーヘッドも導入します。

プロキシ：

LLM のような強力な AI システムの出現により、次の 2 つの疑問がより緊急なものになります。

1. 非常に複雑な動作の目標をどのように定義するか?

2. 人間の価値観や目標に関するシグナルを AI システムに提供するにはどうすればよいでしょうか?

プロキシは、AI システムトレーニングの内部ループにおけるフィードバックプロバイダーの意図を抽象化したものです。現在は嗜好学習を通じて構築されており、嗜好モデリング技術を使用することで、ユーザーは複雑な目標をシンプルで直感的な形式で定義することができ、AIシステムは使いやすいトレーニング信号を取得することもできます。

しかし、これら 2 つの問題を真に解決するにはまだ遠い道のりがあります。次のような詳細な質問には、回答するためにさらに徹底的な調査が必要です。

人間の好みをより良い形とプロセスで表現するにはどうすればよいでしょうか?
学習戦略のパラダイムを選択するにはどうすればよいでしょうか?
より複雑な AI システム、あるいは人間の能力を超える能力を持つ AI システムをどのように評価すればよいのでしょうか?

これらの問題のいくつかを解決するための研究はすでにいくつか行われています。たとえば、ユーザーの好みをモデル化する効果的な技術としての嗜好学習は、現段階ではポリシー学習とエージェント構築の有望な研究方向であると考えられています。嗜好学習とポリシー学習の関連技術を組み合わせようとする研究もあります。著者らは記事の中でこれらの研究について議論し、解釈している。

スケーラブルな監視

より高度な機能を持つ AI システムをユーザーに合わせるために、調整分野の研究者は、次の 2 つの課題に対処することを目的としたスケーラブルな監視の概念を提案しています。

ユーザーは、多大なコストをかけて AI の動作を頻繁に評価します。
AI システムまたはタスクの固有の複雑さが評価者にもたらす困難。

RLHF技術に基づいて、著者らはスケーラブルな監視の基本フレームワークとしてRLxFを提案した。 RLxF は AI 要素を使用して RLHF を強化および改善します。RLHF はさらにRLAIF と RLHAIFに分けられます。

RLAIF は AI を使用してフィードバック信号を提供することを目指しています。
RLHAIF は、ユーザーと AI のコラボレーションのパラダイムを活用してフィードバック信号を提供することを目指しています。

同時に、この記事では主に、RLxF を改善するためのアイデアとして、次の 4 つのスケーラブルな監視思考フレームワークをレビューします。

1. IDA (反復蒸留および増幅) は、ユーザーがタスクを分解し、同じ AI システム (またはユーザー) の異なるコピーを使用してさまざまなサブタスクを完了し、次に強力な AI システムをトレーニングする反復プロセスを表します。反復が進むにつれて、バイアスエラーが適切に制御されれば、トレーニングされた AI の能力は徐々に向上し、ユーザー自身の能力を超える AI システムを監視できるようになります。

たとえば、最終目標が「気候変動介入に関する調査レポートを書く」である場合、評価者はそれを「最も有望な気候変動介入のリストを提供してください」などの効果的に評価できるサブタスクに分解できます。分解は再帰的に行うことができます。分解によって生成される最下位レベルのサブタスクは十分に単純なので、人間のフィードバックを使用して AI A[0] をトレーニングし、「最も有望な気候変動介入アクションのリストをください」などのサブタスクを完了することができます。次に、評価者は A[0] の複数のコピーを使用してすべてのサブタスクを完了し、すべてのサブタスクのソリューションを組み合わせて親タスクを完了することができます。このプロセスは記録され、AI A [1]を訓練するためのトレーニングデータとして使用することができ、AI Aは現在のタスクを直接解決することができます。このプロセスは反復的に実行され、理論的には非常に複雑な動作をトレーニングすることができます。

2. RRM（再帰報酬モデリング）は基本的にIDAと同じ考え方ですが、AIを使用してユーザーの評価を支援することに重点を置き、新しいAIを反復的に評価してより強力なAIをトレーニングします。 IDA は AI とユーザー間のコラボレーションを重視し、AI システムが模倣のためのより複雑なタスクの表現を継続的に提供できるようにします。

たとえば、AI A に SF 小説を書けるようにトレーニングしたいとします。小説の品質を評価するには、少なくとも小説全体を読む必要があるため、ユーザーにフィードバックを提供してもらうのは非常に困難で費用もかかります。ユーザーが別の AI B の支援を受けると、フィードバックの提供がはるかに容易になります (プロットの要約の抽出、文法のチェック、ストーリー展開の要約、テキストの流暢さの評価など)。 AI B の機能は、以前の報酬モデリングによるトレーニングを通じて獲得できます。

3.ディベートは、2 つの異なる AI システムが継続的に相互作用して評価者の信頼を獲得し、お互いの回答の弱点を発見するプロセスを表します。議論のプロセスを観察することで、ユーザーは結果についてより正確な判断を下すことができます。

たとえば、囲碁のゲームでは、特定のチェス盤の状況を個別に評価するには、より高いレベルの専門性が必要になる場合があります。しかし、最初から最後までのゲーム全体が記録され、最終的な勝者と組み合わせると、評価者は特定のチェス盤上でどちらの側が有利な立場を獲得したかを判断しやすくなります。

議論による AI の安全性 (Amodei と Irving、2018)

RRM と IDA はどちらも、タスクを完了するよりも見積りを作成する方が簡単であるという重要な仮定に基づいています。議論は相変わらずで、議論の文脈では、誤りを擁護するよりも真実を擁護する方が簡単であるという仮定が明らかになります。

4. CIRL: 協力的逆強化学習

CIRL の重要な洞察は、潜在的に欠陥のある目標を最適化しようと努力するのではなく、目標に関する不確実性を維持することです (たとえば、ミダス王は、食べ物と家族を除いて、触れるものすべてが金に変わることを望みました)。つまり、ユーザーは一度に完璧な目標を定義できないことを考慮して、ユーザー報酬はモデル内でパラメーター化され、ユーザーの真の報酬関数は、ユーザーとの継続的な観察と対話によってモデル化されます。 CIRL は、固定報酬関数を直接最適化することで発生する可能性のある操作や報酬の改ざんなどの問題を回避したいと考えています。

正式には、CIRL は状態遷移と報酬関数においてユーザーのアクションを考慮します。

同時に、ユーザーの真の意図をモデル化するために、報酬関数と初期状態分布にパラメータ化された部分が導入されます。

3. 分布の変化による学習

AI システムは、一般化中に分布シフトの問題に遭遇する可能性があります。つまり、AI システムはトレーニング分布では適切に機能しますが、テスト分布またはより複雑な環境に移行するときに、AI システムは分布の変化にタイムリーに対応できない可能性があります (新しい分布に敵対的なサンプルが出現するなど)。

これにより、システムパフォーマンスが大幅に低下したり、危険な目標に向けて最適化されたりする可能性があります。これは多くの場合、AI システムが環境内で誤った相関関係を学習することが原因です。アライメントの分野では、安全性から始めて、パフォーマンスの信頼性よりもターゲットのアライメントに重点を置いています。

AI システムが徐々に高リスクのシナリオや複雑なタスクに適用されるにつれて、将来的には予期せぬ混乱に遭遇することが増え、分布の変化がより多様な形で現れることになります。そのため、流通シフト問題の解決が急務となっている。

分布シフトによって引き起こされる問題は、大まかに次のようにまとめることができます。目標の誤った一般化と自己誘導分布シフト:

ターゲットの誤一般化とは、AI システムがトレーニング分布で優れた能力一般化を獲得したが、そのような能力一般化が実際の目標に対応していない可能性があることを意味します。したがって、AI システムはテスト分布で優れた能力を示す可能性がありますが、ユーザーが期待する目標を達成しません。

トレーニング環境における「赤いボールを追う」戦略は高い報酬を得る

テスト環境では、「赤いボールを追う」というトレーニング戦略が使用されていますが、報酬は低くなっています。

目標の誤った一般化: 正しい仕様だけでは正しい目標には不十分な理由 (Shah et al., 2023)

上記の例では、青いボールは、トレーニング環境で高い報酬をもたらした戦略（赤いボールに従う）をテスト環境で実行しますが、これにより青いテスト環境では「パフォーマンスが低下します」。実際、RL 環境には優れた表現があります (たとえば、各リングは異なる報酬に対応し、報酬はリングを正しい順序で通過することによってのみ蓄積でき、画面の右側にある白黒の変化するブロックは正の報酬と負の報酬を示します)。最終的に、エージェントは「赤いボールを追う」という戦略を学習しましたが、これはユーザーが期待する目標ではありません - 環境の報酬原理を探索する (能力の一般化ですが目標の誤一般化)。

自己誘発的な分布シフトは、 AI システムが意思決定と実行中に環境に影響を与え、それによって環境によって生成されたデータの分布を変更できることを強調しています。

実際の例としては、推奨システムでは、推奨アルゴリズムによって選択されたコンテンツによってユーザーの好みや行動が変わり、ユーザーの分布が変化することがあります。これは、推奨アルゴリズムの出力にさらに影響を与えます。

AIシステムが世界に与える影響力が増すにつれ、AIシステムが人間社会に統合された後に社会全体のデータ流通に及ぼす潜在的な影響も考慮する必要があります。

自動誘導による流通シフトの隠れたインセンティブ（クルーガー他、2020年）

さらに、本論文では、主にアルゴリズム介入とデータ配布介入という2つの側面から配布シフトに対処するための対策を紹介しています。

ディストリビューションシフトフレームワーク図による学習

1. アルゴリズムによる対策は、大きく分けて 2 つのカテゴリに分けられます。

1. アルゴリズム設計に複数の分布を統合することにより、モデルは異なる分布間の不変関係（偽の特徴ではなく不変関係）を学習できます。このタイプの方法には、分布ロバスト最適化、不変リスク最小化、リスク外挿などが含まれます。これらの方法では、「リスク」はさまざまな分布にわたる損失関数の平均として定義されます。

モデルは、環境と結果の間に誤った相関関係を確立する場合があります。たとえば、「牛」を予測するモデルは、「牛の特性」と真の値の関係ではなく、「草原の背景」と真の値の関係を確立する場合があります。複数の分布を融合すると、モデルが異なる分布間の不変の接続を「強制的に」学習するようになり、それによって「リスク」が最小限に抑えられ、異なる分布で優れた一般化パフォーマンスが達成されます。ここでは代表的な方法をいくつか紹介します。

分散ロバスト最適化:分散ロバスト最適化 (DRO) の主な目的は、最悪のリスクを最小限に抑えることです。リスクは、予測値の損失関数とトレーニング分布上の真の値の差として定義され、最悪のリスクは、サンプリングポイントでの最悪の予測結果として理解できます。分散ロバスト最適化の核となる考え方は、モデルが誤った接続を学習すると、特定のサンプリングポイントでの損失関数値 (つまり、リスク値) が異常に高くなるというものです。最悪のリスクを最小限に抑えることで、モデルはすべてのサンプリングポイントでより小さな損失関数値を達成し、異なるサンプリングポイントで不変の関係を学習するように促されます。

不変リスク最小化:不変リスク最小化 (IRM) の目標は、偽の相関関係から可能な限り独立した予測モデルをすべての分布にわたってトレーニングすることです。 IRM は、仮説検定を使用して各環境で結果に直接つながる直接的な特徴を見つける ICP (不変因果予測) の拡張と見なすことができます。一方、IRM は ICP メソッドを高次元入力データに拡張します。このようなデータでは、単一の変数が因果推論の特性を持たない可能性があります。 IRM は、最悪の予測結果に焦点を当てるのではなく、すべての分布にわたって平均的に優れたパフォーマンスを発揮し、個々の分布ごとに最高のパフォーマンスを発揮する予測子を見つけることを目指しています。ただし、IRM は一般に共変量シフトの場合にはパフォーマンスが低下しますが、一部の反因果関係の場合にはパフォーマンスが向上することがあります。
リスク外挿:リスク外挿 (REx) は、トレーニングリスクを減らし、トレーニングリスクの類似性を高めることで、モデルに不変の接続を学習させます。リスク外挿における重要な前提は、トレーニングドメインでの変更はテスト時に発生する可能性のある変更を表しているが、テスト時の変更は規模がより極端になる可能性が高いということです。私たちのリスク外挿アプローチは、トレーニング領域間のリスク差を減らすことで、入力に因果要素と反因果要素の両方が含まれる困難なシナリオを含む、さまざまな極端な分布シフトに対するモデルの感度を減らすことができることを実証しています。トレーニングリスク分散 (V-REx) にペナルティを課し、外挿ドメイン項 (MM-REx) を最適化することにより、リスク外挿は予測の因果メカニズムを回復できると同時に、入力分布の変化 (共変量シフトなど) に対する堅牢性も強化されます。

2.モード接続の特性を利用して、モデルパラメータを微調整することで、モデルを偽の特徴に基づく予測から不変の接続に基づく予測に移行させることができます。

メカニズムモードの連結性（Lubana et al., 2023）

パターン接続は、異なるメカニズムを持つ最小化器が低損失パスを介してランドスケープ内で相互に接続されているかどうか、およびこの接続に基づいて事前トレーニングと事後微調整を実行して最小化器間の変換を実現できるかどうかを調査することを目的としており、モデルの予測特性を変更し（偽の特徴に基づくものから不変の接続に基づくものへ）、モデルの一般化パフォーマンスを向上させることが期待されます。

第二に、データ分布戦略は、トレーニング中に元の分布を拡大し、モデルの一般化能力を積極的に向上させることです。関連する作業には、敵対的トレーニングと協力的トレーニングが含まれます。

敵対的トレーニングは、摂動ベースの敵対的サンプルまたは制限のない敵対的サンプルをトレーニング分布に導入することで、新しい分布環境での敵対的攻撃に対するモデルの堅牢性を向上させます。

敵対的トレーニングフレームワークの概略図。敵対的機械学習攻撃下におけるディープニューラルネットワークベースの悪意のあるネットワークアクティビティ検出 (cat、2020)

協調トレーニングでは、エージェントまたは AI システム間の複数のインタラクティブな関係に重点が置かれます。トレーニングプロセス中に動的に変化するマルチシステム要素が不足する可能性があるため、トレーニング済みの AI システムをマルチシステムインタラクション環境 (マルチエージェントインタラクションなど) に展開すると、新しい要素が追加され、他のシステムや社会にさえ害を及ぼす動作 (集団的に有害な動作) が発生する可能性があります。

協力の種類。協調型AIにおける未解決問題（Dafoe et al.、2020）。

このセクションでは、著者はMARLの分野における完全協力型MARLと混合動機型MARLの状況を紹介し、ゼロショット調整、環境構築、社会的に現実的な設定などの他の研究方向についても説明します。 AI システムが現実世界のインタラクティブなシナリオに導入されるケースが増えるにつれ、この種の問題を解決することが人間と機械の共生を実現する唯一の方法となります。

4. アライメント保証

前の章では、AI システムのトレーニングプロセス中のアライメント手法を紹介しました。トレーニング後の展開中に AI システムが調整された状態を維持することを確認することも同様に重要です。

アライメント保証に関する章では、安全性評価、解釈可能性、人間の価値検証など、複数の観点から関連するアライメント手法について説明しています。

保証フレームワーク

1. 著者は、セキュリティ評価をデータセットとベンチマーク、評価対象、レッドチーム攻撃の 3 つの部分に分けます。

a.データセットとベンチマークでは、データセットと対話型評価手法を紹介します。データセットセクションでは、セキュリティ評価で使用されるデータソース、注釈方法、評価基準を詳細に分析します。対話型手法は、 「エージェントインタラクション」と「環境インタラクション」の2つのカテゴリがあります。前者はエージェント（人間または他のAI）とインタラクションすることでAIシステム出力のアライメント品質を評価するのに対し、後者は特定のコンテキストを構築することでAIシステムを評価します。

PRD評価の概略図。PRD（ピアランクとディスカッション）は、エージェントインタラクション評価の手法の1つです。PRD：ピアランクとディスカッションは、大規模な言語モデルに基づく評価を改善します。

b.評価目標では、毒性、権力の追求、欺瞞、さらに最先端の操作、自己保存、増殖など、不整合なAIシステムから生じる可能性のあるリスクから生じる安全性評価目標について説明し、これらの目標の主な評価作業を表に示します（下図参照）。

Deepmind による最先端の AI リスクの説明。この記事では、これらのリスクの本体を「最先端の AI リスク」という用語で紹介しています (Anderljung 他 2023)

この表では、著者がさまざまな分野における主なセキュリティ評価作業を紹介しています。

c.レッドチーム攻撃の主な目的は、システムの安定性とセキュリティを確保するためにさまざまなシナリオを作成してテストし、敵対的な入力に直面したときに AI システムが整合を維持しているかどうかを確認することです。このセクションでは、著者は、モデル出力の不整合を引き起こす可能性のあるコンテキストを生成するための補強学習、最適化、およびガイダンスの使用、および同時に同時に自動的な「ジェイルブレイク」テクニックを導入するためのさまざまなレッドチーム攻撃技術を紹介します。赤チーム攻撃の特定のアプリケーションと製品。

FROM：言語モデルを使用したRed Teaming Language Models

2。説明可能性は、AIシステムの概念モデリング、内部ロジック、および意思決定プロセスが視覚化され、説明可能であることを保証するテクノロジーであり、AIシステムのブラックボックス効果を破ろうと努力します。著者は、ニューラルネットワークのトレーニング後の解釈可能性（事後解釈可能性）を深く分析し、メカニズムの解釈性テクノロジー、変動、摂動、視覚化技術などを通じてニューラルネットワークの操作メカニズムを明らかにし、解釈可能なモデルの構成を含むメカニックモデルの構成を含むように、交換可能なモデルの構築を行う方法を構築するためのメカニックモデルの構成を介してさらに説明しました著者は、スケーラビリティやベンチマーク構築など、解釈可能性の研究における将来の課題を楽しみにしています。

回路分析の図、トレーニング後のメカニズムの解釈可能性の重要な手法（Olah etal。2020）

3。人間の価値検証では、AIシステムが人間の価値と社会的規範に沿っているかどうかを検証するための理論と特定の手法を紹介します。その中で、フォーマル化は、正式な理論的枠組みを通じて価値のある整合性を実現し、著者は機械倫理の確立のための正式な枠組みを構築し、他方では、補強系の協力に基づいて、協力的な協力を促進するために、協力的なAIに基づいてゲーム理論に基づいて価値フレームワークに基づいてさまざまな方法を探ります。機能。評価方法では、価値データセットの構築、シナリオシミュレーションによるベンチマーク評価の確立、識別子critiqueギャップ（DCG）メソッドなど、実用的な観点から価値検証のための特定の方法を紹介します。

識別子critiqueギャップ（DCG）メソッドの概略図

5。AIガバナンス

AIシステムが整合されたままであることを確認するには、技術的な手段だけでなくガバナンスアプローチも必要です。

ガバナンスの章では、著者はAIガバナンスプロセスにおけるいくつかの重要な問題について議論します。AIガバナンスの役割、AIを管理する利害関係者の機能と関係、および効果的なAIガバナンスに直面しているいくつかの公開課題です。

1.著者は、最初に既存のAIリスクを解決する際のAIガバナンスの役割を説明します。

既存のAIシステムは、人種差別や労働移動など、社会の倫理的および社会的問題をすでに引き起こしています。一部のモデルには、誤った情報と危険な化学的および生物学的分子を生成する能力があり、それが世界的なセキュリティリスクをもたらす可能性があります。同時に、より自律的で多目的なAIシステムが将来出現する可能性があります。適切な保護がなければ、これらのモデルは人類に壊滅的なリスクをもたらす可能性があります。 AIガバナンスの主な目標は、この多様なリスクを軽減することです。この目標を達成するために、AIガバナンスの利害関係者は協力して、各タイプのリスクに値する注意を与える必要があります。

高度なAIシステムには危険な機能がある場合があります

2。著者は、AIガバナンスの主要な利害関係者を政府、産業、AGIラボ、および第三者に分割します。

その中で、政府はAI政策を監督するために立法、司法、法執行の権限を使用しており、AIガバナンスにおける国際協力も政府間で行われています。業界は、AIテクノロジーを調査および展開するため、主要な監督者です。第三者には、学界、非政府組織、非営利組織などが含まれます。これらは、既存のモデルと技術のレビューを支援するだけでなく、政府がAI関連の規制を確立してより完全なAIガバナンスを達成するのを支援します。

ガバナンス構造

3。著者は、主に国際ガバナンスとオープンソースガバナンスにおけるAIの公然の課題について議論しました。

AIの国際ガバナンス。

一方では、市場のAI企業間の競争の欠如や既存の性別バイアスの増幅など、多くの現在のAIのリスクは、明らかに国際的な協力と共同ガバナンスがこれらのリスクを防ぐのに役立ちます。一方、既存のAI技術によってもたらされる経済的および社会的利益は、均等に分配されていません。同時に、既存の国際機関は、AI国際ガバナンスがAIのリスクのガバナンスを支援し、AIがもたらす機会を合理的に割り当てるために、同様の国際組織を生み出すことができることを願っています。

AIのオープンソースガバナンス。

AIシステム機能の継続的な強化により、これらのAIシステムをオープンに調達する必要があるかどうかについて多くの論争があります。支持者は、オープンソースAIモデルがモデルのセキュリティ機能を促進できると考えており、これがAIシステムの地方分権化を助長する重要な手段であると考えています。反対者は、オープンソースのAIモデルが危険なモデルに微調整されたり、オープンしていないソースモデルの脱獄につながる可能性があると考えています。 AIシステムがオープンソース中に虐待のリスクを回避できるように、より責任あるオープンソースの方法が将来現れることを願っています。

6. まとめと展望

このレビューでは、著者は、幅広いカバレッジを備えたAIアライメントの紹介を提供します。著者は、堅牢性、解釈可能性、制御可能性、倫理性（イネ）などのアライメントの目標を定義し、アライメントメソッドの範囲を前方アライメント（AIシステムの調整トレーニングを通じてAIシステムを調整）と後方アライメント（システムアライメントとガバナンスの証拠の獲得を適切に適切に獲得して、適切に整理することを避ける）に分割します。現在、前方アライメントの2つの重要な研究分野は、分配オフセットの下でのフィードバックと学習から学習していますが、後方アライメントはアライメント保証とAIガバナンスで構成されています。

最後に、著者は、AIアラインメントの分野の次の開発を楽しみにしており、次の重要なポイントをリストします。

研究の方向性と方法の多様性：アライメントの分野の主要な特徴は、その多様性です。複数の研究方向が含まれており、これらの方向間のつながりは共通の方法論ではなく共通の目標です。この多様性は探査を促進しますが、それはまた、研究方向の照合と比較が特に重要になったことを意味します。

新しい課題とアプローチのオープンな調査：アラインメントに関する多くの議論は、LLMSや大規模な深い学習よりも初期のアプローチに加えて構築されています。したがって、機械学習の分野のパラダイムシフトが、さらに重要なことに、AIシステムと社会のますます緊密な統合の傾向も変化しました。これには、積極的に公然と探求し、課題を見て、新しい方法を見つける必要があります。

将来の見通しで現実的な視点を組み合わせること：アラインメント研究は、特に数十年後または近年から出現する可能性のある強力なAIシステムからのリスクに焦点を当てています。以前の可能性には、前方の傾向とシナリオの予測の研究が必要であり、後者はAGIラボ、ガバナンス機関間の緊密なコラボレーションを強調し、現在のシステムを研究に合わせてプロトタイプとして使用します。

ポリシーの関連性：アラインメントの研究は、単独ではなく、研究者、業界参加者、ガバナンス機関の共同努力を必要とするエコシステムに存在します。これは、極端なリスク評価、コンピューティングパワーガバナンスインフラストラクチャ、AIシステムに関する検証可能な主張のメカニズムなど、ガバナンスのニーズに応える調整研究が特に重要になっていることを意味します。

社会的複雑さと価値：アラインメントは、単一の主題の問題だけでなく、社会的問題でもあります。ここで、「社会」の意味には3つあります。

1.複数のAIシステムと複数の人々との相互作用を含む多剤環境で調整研究を実行します。

2。AIシステムの社会に対する影響のモデリングと予測には、社会システムの複雑さに対処する方法が必要です。潜在的な方法には、ソーシャルシミュレーションとゲーム理論が含まれます。

3.人間の道徳的価値を、機械倫理や価値調整などの分野に密接に関連するアライメントに組み込む。 AIシステムが社会にますます統合されるようになるにつれて、社会的および道徳的整合性もより高いリスクに直面しています。したがって、関連する側面に関する研究は、AIの調整に関する議論の重要な部分になるはずです。

7。AIリソースWebサイトに沿った

AIの急速な発展により、AIは強く理解、推論、生成能力を備えた能力を備えた人々の生活により大きな影響を与えます。したがって、AIの調整は科学者向けの排他的なゲームではなく、誰もが理解して注意を払う権利があるという問題です。著者は、https://alignmentsurvey.com/ウェブサイト（以下「ウェブサイト」と呼ばれる）を提供します。これは、レビューに関与する研究コンテンツを読みやすいグラフィック素材に整理します。ウェブサイトには次の機能があります。

1。直感的で豊富なプレゼンテーションフォーム。著者は、Webサイトプラットフォームの柔軟な表現形式を使用し、写真、ビデオ、その他のメディアを使用して記事で紹介されたコンテンツをより詳細に表示し、研究者、初心者、および非科学的な研究者でさえもよりよく理解できるようにします。

例：アライメントの問題に関する部分的なスクリーンショット

2。構造化された知識システム。著者は、関連するAIアライメントの分野で古典文学を慎重に編集し、ツリー図の構造を使用して、各サブフィールドの接続と依存関係を示しました。シンプルなリソースの統合とスタッキングと比較して、ウェブサイトはコンテンツの構造化されたインデックスを確立し、読者が人工知能アライメント研究のための理解フレームワークを迅速に確立するのに役立つツリー図を提供し、必要な研究コンテンツを正確に見つけるように促進します。

例：読者は、ページの上部にある「スケーラブルな監視」の関連する研究分野を閲覧し、「detae」ボタンをクリックしてフィールドの古典的な記事についてすばやく学ぶことができます。

3。高品質の学習リソース。現在のAdvanced Alignment Method -RLHFについては、Webサイトは、北京大学のYang Yaodongが教える一連のコースを提供しています。古典的なRLアルゴリズムから始まるRLHFは、整列した視点から体系的にソートされ、要約されています。学習リソースの全範囲は、オンラインプレビューとダウンロードをサポートしています。

AIアライメントの観点からのRLHFシリーズTutoiral

4。外部リソース統合。 AIの調整は、チームや機関が個別に研究するトピックではなく、グローバルな問題ではありませんでした。このWebサイトは、AIアライメントの分野にあるフォーラム、コース、個人的なブログなどの関連するリソースリンクへのリンクをまとめており、より多様で豊かな情報を読者に提供することを目指しています。

ウェブサイトは、AIの調整に関連する個人調査、コース、ブログ、およびその他の学習リソースを収集および要約しています。

5。継続的な更新とメンテナンス。このWebサイトは、AIアライメントコミュニティに長い間公開され、AIアライメント分野でより広範かつ詳細な研究を促進するために、関連分野の研究コンテンツを維持および更新し続けます。これには、ニュースレター（alignmentsurvey.substack.com）が含まれ、通常のメールを送信して、最新の開発とアライメントフィールドの概要を紹介します。

著者は、AIの調整に関する研究がレビューペーパーに限定されることはないが、全員の注意に値する研究トピックになることを望んでいます。したがって、著者はウェブサイトの「オンラインペーパー」を積極的に維持し、AIアライメント研究作業を引き続き実行します。

<<: シングルポイントのエンドツーエンドのテキスト検出および認識フレームワークは 19 倍高速です。華中科技大学、華南理工大学などが共同でSPTS v2をリリース

>>: 一度に35万字の漢字を読める世界最強の長文モデル「Baichuan2-192K」がオンラインに