76ページのレビュー+300以上の参考文献で、Tiandaチームは大規模言語モデルアライメント技術を包括的に紹介しています。

76ページのレビュー+300以上の参考文献で、Tiandaチームは大規模言語モデルアライメント技術を包括的に紹介しています。

最近、天津大学の熊徳一教授のチームが大規模言語モデルアライメント技術に関するレビュー論文(以下、アライメントレビュー)を発表しました。論文全文は76ページあり、300以上の参考文献を網羅しています。AIアライメントの観点から、大規模言語モデルアライメントの関連技術を包括的に概観しています。大規模言語モデルのアライメントのマクロな視点を提供するために、このアライメントレビューでは、AI アライメントの起源と関連概念を紹介します。AI アライメントの観点から、大規模言語モデルで現在利用可能なアライメント関連の技術的方法と提案は、外部アライメント、内部アライメント、説明可能性の 3 つのカテゴリに分類されます。また、現在の大規模言語モデルのアライメント方法の脆弱性、アライメント評価方法とベンチマークについても議論し、大規模言語モデルのアライメント技術の将来の研究方向について期待を述べました。

概要

近年、大規模言語モデルは大きな進歩を遂げており、その中で最もよく知られているのは OpenAI の ChatGPT と GPT-4 です。これらのモデルは、数学、論理的推論、医学、法律、プログラミングなど、幅広い分野で人間に近いパフォーマンスを発揮します。しかし、大規模言語モデルの機能が急速に向上するにつれ、それがもたらす倫理的リスクや人類に対する潜在的な脅威についての懸念も高まっています。大規模な言語モデルは、偏見、差別、有害なコンテンツなどの有害な情報をトレーニング データに伝播させる可能性があります。トレーニング データ内の個人情報や機密情報が漏洩したり、誤解を招くような虚偽の情報が生成されたりする可能性があります。将来、これらの言語エージェントは私たちの日常生活にますます統合されるようになり、不一致があると意図しない結果につながる可能性があります。したがって、モデルの出力と動作を人間の期待と価値観と一致させるために、大規模言語モデルのアライメント技術の研究とブレークスルーを促進する必要があります。

現在、大規模言語モデルのアライメントに関する研究は、主に外部アライメントの分野に焦点を当てています。しかし、アライメントの全体的な理解には、広く研究されている外部アライメントだけでなく、内部アライメント、メカニズムの解釈可能性など、まだ初期段階にあり大きな可能性を秘めた領域も含まれる必要があります。これらの新興分野の研究の一部はまだ理論段階であったり、単なる思考実験であったりしますが、大規模言語モデルアライメント技術の研究と将来の発展には不可欠です。これを踏まえ、Tianda自然言語処理チームは、より広範なAIアライメントの観点から大規模言語モデルアライメント技術を検討し、さまざまな角度から詳細な議論を行いました。

論文アドレス: https://arxiv.org/abs/2309.15025

参考文献 Github URL: https://github.com/Magnetic2014/llm-alignment-survey。不足している参考文献がある場合は、お知らせください。追加してください。

大規模言語モデルのアライメントとは何ですか?

大規模言語モデルのアライメントに関連する作業を議論するための重要な背景として、アライメントレビューではまず AI アライメントの概要を示し、AI アライメントの起源、研究背景、関連概念を簡単に紹介します。近年登場した大規模言語モデルと比較すると、AI アライメントの研究は比較的早くから始まっていました。サイバネティクスの父、ノーバート・ウィーナーは、1960 年代初頭に次のような懸念を表明していました。「もし、目的を達成するために機械的なエージェントを使用し、その動作が開始すると、その動作が非常に高速かつ不可逆であるため、動作が完了する前に介入するためのデータがなく、効果的に介入できない場合、その機械の目的が、私たちが本当に使用したい目的と一致しているかどうかを確認し、単にその機械の鮮明な模倣にしてはならない」。この文章は、機械と人間の目標の整合性を強調し、「機械的エージェント」の目標が私たちが実際に望んでいるものと一致するようにすることの重要性を強調しています。しかし、長い間、そのような研究は、2010 年頃になってスチュアート ラッセルらがこの分野を徐々に研究し始め、それを「価値整合問題」と呼ぶまで、実際には行われていませんでした。ラッセル氏は、あらゆる状況においてAIシステムが人間に害を与えるのではなく、利益をもたらすようにするために、AIの目標を人間の価値観と一致させることの重要性を強調した。

上記の観点に触発され、アライメントレビューでは、アライメント研究の内容に基づいて AI アライメントを定義します。AI アライメントは、人工知能エージェントの外部目標と内部目標が人間の価値観と一致することを保証するテクノロジーです。外部目標は、AI 設計者が人間の価値観に基づいて定義した目標であり、内部目標は AI エージェントによって内部的に最適化された目標です。この定義に基づいて、アライメント レビューでは、直交性議論や手段的目標収束など、AI アライメントの分野における重要な概念と仮定について説明します。 AI アライメント研究で現在最も人気のある分野は大規模言語モデル アライメントであり、大規模言語モデル アライメントの多くの概念と方法論は、より広範な AI アライメント研究から生まれていることは注目に値します。

一方、大規模言語モデルは、新興の高性能 AI システムとして、AI アライメント研究のための強固な基盤を提供します。理論的仮定やアライメントの経験的手法など、多くの AI アライメントの概念や提案は、仮想的な超知能システムではなく、大規模な言語モデルで実験できます。一方、大規模言語モデル研究の急速な進歩は、AI アライメント研究の最前線を広げるだけでなく、AI アライメントのためのツールも提供します。もちろん、AI アライメントに対する大規模言語モデルのアライメントの重要性を強調することは、AI アライメントのコンテキスト外で大規模言語モデルのアライメント研究を実施できることを意味するものではありません。 AI アライメントに関する広範かつ徹底的な研究は、大規模な言語モデルのアライメントを確実に促進するでしょう。

大規模言語モデルの潜在的なリスク

大規模言語モデルのアライメントの必要性の実証

大規模言語モデルは、社会や科学技術の発展を一変させる変革的な AI 技術ですが、目に見えて予測可能なさまざまなリスクも伴います。まず、大規模な言語モデルは、人間の期待に応えないテキストを生成する可能性があり、差別、偏見、他人のプライバシーを暴露するコンテンツが含まれる可能性があります。第二に、大規模言語モデルは、その固有の幻覚問題により、真実ではない、一貫性のない、誤解を招くコンテンツを生成する可能性があります。

一方、大規模な言語モデルは、悪意のある行為を実行するために悪用される可能性もあります。たとえば、整列されていない大規模言語モデルは、本物と区別がつかない偽のニュースを生成する可能性があり、ネットワーク上のデバイスへの攻撃にも役立つ可能性があります。こうした悪意ある行為は私たちの日常生活に悪影響を及ぼし、社会全体に深刻な損害を与える可能性もあります。さらに、大規模な言語モデルのトレーニングと展開には膨大な計算リソースと電力が必要となり、人々の雇用にも影響を与えます。

大規模言語モデルの機能が向上を続けると、自己保存、自己強化、リソース獲得などの目標の「追求」も実証されるようになるかもしれません。これらは、ほぼすべての AI エージェントがサブ目標として使用する可能性が高いため、一般的な人工知能では道具的収束目標と呼ばれることがよくあります。大規模言語モデルのアライメントの概要 この論文では、上記の観点から大規模言語モデルのアライメントの必要性について詳しく説明します。

大規模言語モデルのアラインメント方法

AI アライメントは、AI システムの決定が人間の価値観、期待、目標と一致するように設計されたプロセスです。大規模言語モデルの整合について話すとき、これらのモデルは人間の言語を理解できるだけでなく、私たちが期待する方法で倫理的に応答できることを意味します。これには、AI 技術の発展が社会に悪影響を及ぼさないようにするための、社会、倫理、哲学、技術など多くの考慮事項が含まれます。具体的には、大規模言語モデルのアライメント研究は、外部アライメント、内部アライメント、解釈可能性という3 つの主要領域に分けられます。

外部アライメントの目的は、適切な損失関数または報酬関数を選択し、AI システムのトレーニング目標が人間の価値観と一致するようにすることです。言い換えれば、外部調整は、指定されたトレーニング目標をその設計者の目標と一致させようとします。研究者は外部調整のための多くの方法を提案してきました。各種アライメント方法の監視機能の範囲に応じて、アライメントレビューでは、非再帰的監視(Non-recursive Oversight)とスケーラブルな監視(Scalable Oversight)に分類します。非再帰的な監視では人間の能力の範囲内のタスクのみを監視できますが、スケーラブルな監視では監視の範囲を人間の能力の範囲を超えたタスクにまで拡張して、強力な AI モデルに適切に対処できます。

内部調整は、AI システムがトレーニング中に真に最適化され、設計者が設定した目標を達成することを保証することです。内部の調整の失敗は、深刻かつ検出が困難な結果をもたらす可能性があります。たとえば、ゲームで勝つようにトレーニングされた AI システムが、技術的には目標を満たしているもののゲームのガイドラインに違反する予期しない脆弱性を発見する場合があります。もう 1 つの例は、目標の誤一般化の問題です。これは、目標の仕様が正しい場合でも、分布外の堅牢性の問題により予期しない目標が発生する可能性があるという問題です。アライメントのレビューでは、内部アライメントが失敗する可能性のあるシナリオをまとめ、緩和された敵対的トレーニング、報酬サイドチャネル、クロスエピソード目標、目標の識別不可能性、ゼロショット目標、堅牢な報酬学習など、内部アライメントの主流の方法と提案の概要を示します。

説明可能性とは、AI システムの内部動作、決定、および動作を人間が理解しやすくする方法、モデル、およびツールを広く指します。アライメントレビューは、リバースエンジニアリングを通じて機械学習システム(特にニューラルネットワーク)の出力と動作をその内部状態、重み、モジュールに特定しようとするメカニズムの解釈可能性に焦点を当てています。異なる位置付けに応じて、アライメントレビューでは、関連する作業を自己注意、MLP、ニューロンの解釈可能性の 3 つのカテゴリに分類します。大規模言語モデルのパラメータの数が膨大であるため、大規模言語モデルのリバース エンジニアリングは非常に困難です。現在のメカニズムの解釈可能性の研究は、小さく単純化された Transformer モデルで行われることが多いです。しかし、これはニューラル ネットワークのアライメントに関する深い洞察を提供し、将来的には大規模言語モデルのアライメントの研究にブレークスルーをもたらすことが期待される、非常に有望な方向性です。

安全で信頼できる AI を構築するには、外部と内部の調整が重要です。これらのいずれかが失敗すると、人間の価値観や意図と一致しないシステムが作られる危険があります。大規模言語モデルの機能がますます強力になるにつれて、これらのアライメント問題の重要性も高まります。したがって、大規模言語モデルの機能に関する研究と比較して、大規模言語モデルのアライメントに関する研究は同等に、あるいはそれ以上に重要であることを認識する必要があります。同時に、説明可能性は整合を直接的に対象とするものではありませんが、そのツールとテクニックは外部および内部の整合に役立ちます。モデルがどのように進化し、決定を下すかを理解することで、バイアスがいつどこで発生するかをより適切に特定できます。たとえば、モデルが目標を達成するために予期しない近道をとった場合、解釈可能性によって、それがいつどのように起こったのかを理解できるようになります。さらに、解釈可能性により、モデルの内部推論プロセスに関する詳細な洞察が得られ、信頼性と透明性の高い大規模言語モデルの構築に役立ちます。

大規模言語モデルに対する攻撃方法

最近の研究では、整列した大規模言語モデルが悪意のある攻撃に対する防御機能を発揮できることが示されています。しかし、これは既存のアライメント技術が絶対確実であるという意味ではありません。たとえば、人間は繰り返しのやり取りを通じて、モデルを「騙して」有害なコンテンツを生成させることができます。これは「ジェイルブレイク」とも呼ばれます。アライメントレビューでは、ジェイルブレイクに加えて、アライメントモデルを攻撃する他の方法も紹介し、これらの方法をプライバシー攻撃、バックドア攻撃、敵対的攻撃の 3 つのカテゴリに分類しています。プライバシー攻撃とは、攻撃者がモデルの出力からトレーニング データに関する個人情報や機密情報を抽出しようとすることです。バックドア攻撃とは、モデルが特定の脆弱性を注入してトリガーすることで、特定の誤った出力を生成する手法です。敵対的攻撃とは、入力データに慎重に設計された小さな変動を導入して、モデルの動作を変更する手法です。これらの変動は人間には知覚できないことが多いですが、モデルが誤った出力や予期しない出力を生成する原因となる可能性があります。

大規模言語モデルのアラインメント評価

評価はアライメント研究にとって非常に重要であり、現在の大規模言語モデルのアライメント方法の欠点を理解するのに役立ちます。これに基づいて、アライメントレビューでは、事実性、倫理、毒性、ステレオタイプとバイアス、一般的な評価など、大規模言語モデルのアライメント評価に関連する方法とリソースについて詳しく説明します

事実性の評価: 機械生成コンテンツは事実と一致している必要があり、幻覚的なコンテンツの生成は避ける必要があります。さらに、生成されるすべての情報に含まれる事実は正確である必要があります。したがって、事実の評価には、事実の一貫性の評価と事実の正確性の評価が含まれます。

毒性評価: 毒性とは、人間関係、職場環境、その他の社会的状況に現れる有害で破壊的な行動や態度を指します。これは、他人を支配したり、操作したり、侮辱したり、悪意を持ったりする形で現れることがあります。これらの行動は明白であったり隠れていたりし、人の自尊心、安全、幸福に損害を与える可能性があります。大規模言語モデルの場合、毒性評価では通常、自傷行為につながる提案、ポルノや暴力的な内容、嫌がらせ/軽蔑的/攻撃的/侮辱的/ヘイトスピーチ、ネットいじめなどの攻撃的または暴力的な行動を促進する提案、違法な商品やサービスを見つけるためのガイドや手順など、さまざまな有害なテキストが対象となります。

ステレオタイプと偏見の評価: ステレオタイプと偏見とは、人種、性別、性的指向、宗教、またはその他の特性に基づく先入観を指します。これらの態度は否定的または肯定的である可能性がありますが、それはグループの一般的な判断であり、個人の実際の行動や特性に基づくものではありません。偏見は差別やその他の不公平な行動につながる可能性があり、大規模な言語モデルによって生成されたステレオタイプ化された偏ったコンテンツがこの状況を悪化させる可能性があることを考慮して、偏見を評価することが重要です。

一般的な評価: アライメント品質の特定の側面 (事実性、バイアスなど) の測定に重点を置いた上記の評価ベンチマークと評価方法に加えて、アライメントレビューでは、一般的な評価方法とベンチマークを含む、大規模言語モデル アライメントの一般的な評価、つまり 1 つの次元 (事実性、毒性など) のみを測定するのではなく、複数の次元のアライメントを同時に評価する方法も包括的に紹介しています。

今後の方向性の見通し

大規模言語モデルのアライメントに関する既存の関連研究の紹介に加えて、アライメントレビューでは、主に大規模言語モデルのアライメントに関する理論的研究、スケーラブルな監督、欺瞞的アライメント、大規模言語モデルの自動アライメント、説明可能性の研究、敵対的攻撃に基づく大規模言語モデルのアライメント評価、大規模言語モデルのアライメントを促進するための研究分野の構築の 7 つの方向に分かれた将来の研究方向についても展望しています。

大規模言語モデルのアライメントに関する理論的研究: 大規模言語モデルのアライメントが直面する課題は複雑かつ多様であり、さまざまな分野の複数のアイデアと方法を使用する必要があります。アライメントレビューでは、意思決定理論、修正可能性、世界モデルなど、アライメント理論研究のいくつかの重要な領域を要約して強調しています。このうち、決定理論は、大規模言語モデルの反事実的推論と潜在的な逆説的問題を深く研究することを目指しており、訂正可能性は、大規模言語モデルが抵抗や回避なしにユーザーの訂正を受け入れる能力を向上させる方法を研究することを目指しており、世界モデルは、大規模言語モデルが現実世界の変化を認識して適応できるように、現実世界に近い環境を大規模言語モデルに提供することを目指しています。

スケーラブルな監督: スケーラブルな監督は、AI テクノロジーが安全かつ責任ある方法で開発および使用されるようにすることを目的とした重要な研究分野です。 AI の急速な成長と発展に対応できるスケーラブルなフレームワークを開発することで、AI テクノロジーが社会に利益をもたらすと同時に、その潜在的な害を最小限に抑えます。スケーラブルな監視における中心的な課題は、AI システムが実行するように設計されたタスクの複雑さです。人間が直接判断して完了することが難しい複雑なタスクについては、AI アライメントによって適切なアライメント ソリューションが提案されていますが、これらのソリューションはまだ大規模な実証テストによって検証されていません。

欺瞞的なアライメント: 欺瞞的なアライメントとは、AI エージェントがトレーニング中に変更されるのを避けるために、基本目標にアライメントされているふりをすることです。変更されるリスクがなくなると、エージェントは基本目標の最適化を停止し、設計者が定義した基本目標とはまったく異なる、有害な可能性のある独自の固有目標の追求を開始する可能性があります。欺瞞的なアライメントは理論的にはよく研究されていますが、大規模な言語モデルの機能が急速に進歩していることを考えると、欺瞞的なアライメントが実際に発生するのではないかという懸念が高まっています。その可能性についてはまだ意見の相違があるものの、その深刻さは広く認識されています。この事態の深刻さを考えると、実際に起こる前に経験的なアプローチで監視するのが最善でしょう。

大規模言語モデルの自動アライメント: 大規模言語モデルの自動アライメントとは、人間によるアライメント研究の実施を支援する自動アライメント「研究者」の開発を指します。これらの方法により、監督者は AI モデルの動作を理解し、異常を検出し、不整合な動作をタイムリーに特定できるようになります。

解釈可能性の研究: 解釈可能性の研究は、大規模言語モデルのブラックボックス性を打破するのに役立ちます。ただし、大規模言語モデルの複雑さとサイズが増大し続けると、理解可能で透明性を維持することがますます複雑な作業になります。現在、説明可能性を探る多くの試みは、表面的な洞察しか提供できず、モデルの複雑な意思決定プロセスを詳しく調べることができません。 AI の学際的な性質を考慮すると、説明可能性の研究を前進させるには、機械学習研究者、倫理学者、神経科学者の継続的な協力が必要になる可能性があります。

敵対的攻撃に基づく大規模言語モデルのアライメント評価: 敵対的攻撃は、意図的に設計された入力を通じて人工知能システムを混乱させたり誤解させたりすることを目的とした、人工知能の分野における強力なツールです。大規模言語モデルの強力な機能を考えると、大規模モデルを攻撃者として使用してアライメントの敵対的サンプルを生成することは、別のモデルのアライメント機能をテストおよび評価する効果的な方法となる可能性があります。敵対的攻撃によって駆動されるこの動的テストは、大規模な言語モデルが予期しない入力に対して堅牢であることを保証するのに役立ちます。このアプローチは多少の複雑さを増しますが、これらの敵対的テストから得られる洞察は、アライメントに関するモデルの長所と短所を包括的に理解する上で非常に貴重です。

大規模言語モデルアライメント研究分野の構築を推進する:人工知能分野のアライメント研究コミュニティはまだ初期段階にあり、多くの疑問が解決されておらず、多くの課題が解決されていません。現状では、まとまりのある科学的パラダイムが欠如しており、理論、方法、実証的結果をめぐる論争が生じています。大規模言語モデルは、今日のアライメント手法の最も有望なテストベッドとして、思考実験や提案をテストするためのプラットフォームとして機能し、安定した研究手法の開発、主要な問題に関するコンセンサスの構築、AI アライメントのための一貫した科学的フレームワークの開発に役立ちます。一方、人工知能アライメントコミュニティの深いイデオロギーの蓄積は、大規模言語モデル研究コミュニティが大規模言語モデルの効率的なアライメントを達成することにもつながります。したがって、大規模言語モデルと AI アライメントの 2 つの研究コミュニティ間のつながりにより、双方に利益をもたらす好循環が確立されます。

<<: 

>>:  大規模モデルのニューロンを分解します!クロードチームの最新の研究が人気を集め、ネットユーザー:ブラックボックスを開けよう

ブログ    

推薦する

Googleの華博士がICCV2021で新モデルを発表、卵を泡立てるだけでパンケーキを作りたいかどうかがわかる

機械学習モデルが現実世界でますます使用され、導入されるようになると、AI の意思決定は人々の日常生活...

顔認識の背後にあるもの:怖いのは技術ではなく…

以前、AI顔変換ソフトウェアZAOが一夜にして人気を博したことで、サーバーが「満杯になって崩壊」する...

...

ディープラーニングは壁にぶつかる?ルカンとマーカスの間の争いを引き起こしたのは誰ですか?

今日の主人公は、AI の世界で互いに愛し合い、憎み合う古くからの敵同士です。ヤン・ルカンとゲイリー・...

Google GlassのDIY貧弱版、カスタムジェスチャーコントロール、Raspberry Piがまたもや新しい遊び方を開発

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

人工知能はますます急速に発展しています。将来、人工知能は人間に取って代わるのでしょうか?

人工知能の発展は人類の進化に似ていますが、そのプロセスはより短いものです。人間は自らの知恵を駆使して...

AIGCの第一波の人員削減が到来

著者: 徐潔成校正:Yun Zhao誰も予想していなかったのは、人工知能の火が世界中に広がっていた時...

文字列マッチングのためのボイヤー・ムーアアルゴリズム

前回の記事では、KMPアルゴリズムを紹介しました。ただし、これは最も効率的なアルゴリズムではなく、実...

警告! 「リップリーディング」キーでデータを盗む、AIは本当に怖い

コンピューターに頼って悪者を即座に見つけることができれば素晴らしいのですが、問題は AI システムが...

Google は人工知能の分野で「堀」を持っていないのでしょうか?

少し前、匿名の人物が、Google 社内の研究者による研究メモを Discord プラットフォームに...

...

...