RLHF は万能薬ではありません! MIT、ハーバード大学などの32人の研究チームが、250本以上の論文を網羅し、大規模モデルの仕組みに疑問を投げかけ、最大の弱点を明らかにした。

RLHF は万能薬ではありません! MIT、ハーバード大学などの32人の研究チームが、250本以上の論文を網羅し、大規模モデルの仕組みに疑問を投げかけ、最大の弱点を明らかにした。

現在、GPT-4 であれ、Llama 2 などの大規模言語モデルであれ、その背後にあるメカニズムは人間のフィードバック強化学習 (RLHF) です。

RLHF は大規模モデルに対する万能薬のようなもので、インテリジェント エージェントの学習をガイドし、そのパフォーマンスを向上させます。

しかし、それでも、個人データの漏洩、モデルの偏り、幻覚などの問題は未解決のままです。

最近、MIT、ハーバード大学などの研究機関から集まった合計32名の研究者が共同で250本以上の論文を調査し、大規模言語モデルにおけるRLHFの課題を総合的に分析しました。

論文アドレス: https://arxiv.org/abs/2307.15217

論文では、研究チームは主に RLHF が直面している 3 つの主要な問題を研究しました。

- 人間からのフィードバック

- 報酬モデル

- 戦略

さらに、より深い理解、改善、補足など、RLHF をより広範な技術安全フレームワークに組み込む方法を調査します。

最後に、研究者らは、RLHF を使用してトレーニングされたモデルに影響を与える業界の規範と規制を改善するという課題についても調査しました。具体的には、RLHF を使用する一部の企業は、説明責任と監査を改善する方法に関する特定の詳細を公開しています。

研究者らは、これらの課題を、機械的な問題と改善可能な問題の 2 つのカテゴリに分類しました。機械的な課題は、より大きな枠組みでの解決策を必要としますが、改善可能な課題は、主に技術を改善することで解決できます。

RLHF は「歴史的失敗の教訓を再検討する」ことと同じと言えるのでしょうか?

研究者らは、RLHF はモデルに新しい機能を提供するが、依然として多くの古い問題に直面していることを観察し、欠陥のある AI アライメント方法を再利用しないよう警告した。

RLHF の限界

この研究で、研究チームは、フィードバック収集、報酬モデリング、ポリシー最適化という 3 つの相互に関連するプロセスを組み合わせた手法を指すために RLHF を使用しています。

- 人間からのモデル出力の評価を得るためのフィードバック収集プロセス。

- 教師あり学習を使用してこれらの評価を模倣する報酬モデルをトレーニングする報酬モデリング プロセス。

- 報酬モデルから好ましい出力結果を生成するために AI システムを最適化する戦略最適化プロセス。

デモンストレーション、手作りの報酬関数、または報酬を指定または学習するその他の方法と比較して、RLHF は「良い」行動をより簡単に識別でき、その効果は顕著です。

RLHF は、人間の目的を満たす安全なモデルを作成することを目標として、LLM を微調整するための主要な戦略になりました。

しかしながら、RLHF を使用して微調整された導入モデルは、機密性の高い個人情報を漏洩し、幻覚、政治的偏見などの問題を起こしやすい傾向があります。

さらに、RLHF では、ジェイルブレイクやヒントの挿入/抽出による敵対的攻撃に対してモデルが耐性を持つわけではありません。

実は、こうした問題は誰もが多少は認識しているのですが、RLHF 問題を体系化した論文はまだありません。

研究者らは、この研究には3つの貢献があると指摘している。

- RLHFが直面する具体的な課題

- RLHFをより広範な技術安全フレームワークに統合する

- ガバナンスと透明性

課題

RLHF は、人間からのフィードバックの収集、報酬モデルの適合、RL を使用したポリシーの最適化という 3 つの主要なステップで構成されます。

実際には、RLHF はこれらの手順を繰り返すことによって反復的に(または同期的に)実行されます。

全体のプロセスは図に示されており、バイナリ プリファレンス フィードバックを備えた RLHF を使用して LLM が微調整されます。

論文では、研究者らは、Christiano らが提案した形式論に部分的に基づいた単純な RLHF 形式フレームワークを提案しました。

人間からのフィードバック

人間から高品質のフィードバックを得ることは困難であり、人間のフィードバックをシミュレートすることは最適ではありません。評価者の一貫性の欠如、監視の難しさ、データの品質、使用されるフィードバックの形式などから課題が生じる可能性があります。

一貫性のない評価者: 評価者は間違った目標を追求する可能性がある

- 改善すべき点 1:代表者を選出し、質の高いフィードバックを得てもらうことが難しい。

大規模な RLHF では、人間の評価者の選択と指導が必要ですが、これによってバイアスも生じます。

最近の研究では、ChatGPT は RLHF 後に政治的に偏向する傾向があることが判明していますが、この偏向の正確な理由は不明です。

しかし、OpenAI のデータ収集パイプラインでは、研究者の判断との一貫性を保つために人間の評価者が選ばれるプロセスが説明されています。これは、嗜好データ収集プロセスに明確な選択効果があることを示唆しています。

アンスロピックの前回の報告書には、白人評価者が 82% 含まれており、そのうち 68% が白人でした。

- 改善可能な問題 2:評価者の中には、有害な偏見や視点を持っている人もいます。この問題は、RL でトレーニングされた言語モデルが評価者のバイアスに対応するという事実によってさらに悪化します。

これは、大型モデルでは「お世辞」としても知られており、モデルのサイズが大きくなるにつれて悪化します。この問題は、事前トレーニング済みの言語モデルでも発生します。

-改善できる問題 3:人間の評価者がデータを汚染します。 RLHF でのデータ収集は通常、人間の介入によって生成されます。評価者がモデルをハッキングしようとした場合、これは有害となる可能性があります。

適切な監督は難しい

スケーラブルな監視とは、限られたリソースと帯域幅でモデルを効果的に監視する能力を指します。

高度な AI システムの監視が不完全なため、人間からのフィードバックは不明な形で偏ることが多く、モデリングが困難になります。

- 改善可能な問題 1:人間は、限られた時間と注意力のために単純なミスを犯してしまうことがあります。人間は、タスクへの興味の欠如、注意力の低下、時間的制約、人間の偏見などの要因により、間違いを犯すことがあります。

- 改善可能な問題 2:有望な結果の一部は、人間の評価者にも制限を与えます。人間に示される例に世界の状態に関するすべての情報が含まれていない場合、人間は有益なフィードバックを提供することができません。

- メカニズムの問題 1:人間は難しいタスクをうまく評価できないことがあります。例を評価するのが難しい場合、人間の評価者は、より多くの時間を与えられたとしても、例を評価することができません。

- メカニズムの問題 2:人間は誤解される可能性があります

データ品質

代表的で有用なデータを取得することは、未解決の技術的問題であることを知っておく必要があります。

- 改善可能な問題 1:データ セットを収集するとバイアスが生じます。フィードバック データを収集するには、関連情報を取得するために有用なインスタンスをサンプリングする必要があります。

理想的には、サンプリングされた分布はデプロイメント分布に似ている必要がありますが、報酬モデルにとって難しい例の表現が追加されます。

ただし、LLM の実際のアプリケーションでは、ユーザーは通常、モデルとの会話を通じて対話するか、モデルなしでオフラインで会話を生成するため、特定の分布と正確に一致するとは限りません。

- メカニズムの問題 1:人間のフィードバックを収集する場合、コストと品質のトレードオフが発生します。

フィードバックの種類の制限

- メカニズムの問題 1:必然的に、RLHF はフィードバックの豊富さと有効性の間でトレードオフを行う必要があります。

- 比較フィードバック: RLHF で使用される最も一般的なタイプのフィードバックは、2 組の例間のバイナリ プリファレンスです。しかし、このアプローチでは、好みの強さに関する正確な情報を提供することができません。

- ラベルのフィードバック: 場合によっては、人間が分類例の形でフィードバックを提供できることもあります。ラベルの選択は簡単かもしれませんが、与えられたオプションがデータを正しく記述するために必要なラベルを完全に網羅していない場合、選択セットの誤指定が頻繁に発生します。

- 修正フィードバック: フィードバックは、例に対する修正または調整の形で提供されます。

- 口頭によるフィードバック: 人間は言語を通じて各評価で大量の情報を伝えることができ、曖昧さを減らしてエラーを絞り込むことができます。

報酬モデル

問題の誤った定式化

報酬モデルを適合させて人間の価値を表現する標準的なアプローチは、二重の誤指定の問題です。

・仕組み上の問題1:報酬機能を通じて個々の人間の価値観が反映されにくい。

人間は、時間の経過とともに変化する複雑で状況に依存する一連の好みを持っており、それを正確にモデル化することは困難です。

さらに、非合理的な人間の好みをモデル化すると報酬の学習が困難になり、効率と精度の間でトレードオフが生じる可能性があります。

しかし、RLHFに関する現在の研究のほとんどは、人間の好みの個性や文脈依存性を考慮しておらず、追加の文脈がなければ、

バイナリ設定から混合報酬関数を識別する。

- メカニズム問題 2:単一の報酬関数では多様な人間社会を表現できません。

RLHF は、AI システムを 1 人の人間に合わせるためのソリューションとして捉えられることが多いですが、人間の好み、専門知識、能力は多種多様です。

しかし、評価者はしばしば意見が一致しません。研究によると、注釈者同士および注釈者と研究者の合意率は 63% から 77% の範囲であることがわかりました。

したがって、これらの違いを考慮せずに、さまざまな人間からのフィードバックを単一の報酬モデルに凝縮しようとするのは、根本的に間違っています。

さらに、現在の技術では、評価者間の差異を、意見の相違の潜在的に重要な原因としてではなく、ノイズとしてモデル化することがよくあります。したがって、好みが異なる場合、少数派の意見が不利になる可能性があります。

報酬の誤った一般化と操作的行動

報酬モデルは不完全であることが多く、報酬モデルの不完全さは報酬の操作につながります。

- 改善可能な問題 1 : トレーニング データが正しくラベル付けされていても、報酬モデルに一般化エラーが発生する可能性があります。

報酬モデルは、報酬を計算するために環境の予期しない特徴や偶発的な特徴を使用することがあり、原因と結果の混乱や分布外一般化の不十分さなどの問題につながります。

新しいモデルをトレーニングするためにそれを使用することは不可能かもしれません。

- メカニズムの問題 1 : 不完全な報酬モデルを最適化すると、報酬が操作される可能性があります。

報酬モデルは、誤った指定や誤った一般化により人間とは異なる場合があり、現実世界の機械学習システムは複雑な問題で最小限の損失を達成することができません。

さらに、報酬モデルは人間の関心ではなく人間の承認を反映するようにトレーニングされているため、人間の承認を得るが望ましくない行動につながる可能性があります。

不完全なターゲット エージェント メトリックを強制的に最適化すると、基礎となる目的に対するモデルのパフォーマンスが低下することがよくあります。たとえば、ベースモデルと微調整されたモデル間の KL ダイバージェンスをペナルティする正則化がなければ、RL を受ける LLM は意味のないテキストを出力するように学習することがよくあります。

この種の問題は「報酬操作」と呼ばれ、RLHF を使用してトレーニングされた AI システムで観察されています。

報酬モデルの実現可能性を評価する

- 改善可能な問題 1 : 報酬モデルの評価は困難で費用がかかります。

ほとんどの場合、報酬モデリングは、真の報酬関数が不明で直接評価が不可能な場合にのみ使用されます。

したがって、報酬モデルは、学習した報酬モデルを使用して RL ポリシーを最適化し、次に RL ポリシーによって生成された結果を評価することによって間接的に評価されることがよくあります。これにより、報酬モデルの評価はポリシー最適化プロセスと密接に結びつき、それ自体がコストがかかり、ノイズが多くなります。

間接評価のもう 1 つの問題は、報酬モデルの評価信号がトレーニング信号 (人間の承認) と同じであることです。したがって、トレーニングと評価の失敗は相関関係にあることになります。

戦略

このセクションでは、研究者は主に、ポリシーの最適化、誤った一般化、権力の追求、モデルの崩壊などの課題について議論します。

堅牢な強化学習を実現するのは難しい

展開時の安全性を確保するにはシステムパフォーマンスの堅牢性が求められますが、強化学習 (RL) のみを使用して AI システムをトレーニングすることは依然として困難です。

-改善可能な問題 1 : 効果的な最適化戦略は依然として困難な問題です。

RL エージェントは、独自のデータを収集するために環境と対話する必要があります。これには、探索行動と搾取行動のバランスが必要です。

このトレードオフのバランスを取ることは重要ですが、望ましい探索の程度を決定することは決断の問題であり、環境によって異なる場合があります。

この問題は、高次元の状態/アクション空間やスパース報酬の状況ではさらに複雑になります。深層強化学習における探索と活用のバランスをとることは、依然として重要ではあるが未解決の課題です。

Deep RL は不安定であり、その結果は初期化に非常に敏感で、再現が難しいことがよくあります。

これらは、強化学習における最適化関連の課題と困難の一部であり、特に深層強化学習の分野で顕著です。

AI システムを効果的にトレーニングし、実際の展開においてその堅牢性と安全性を確保するには、これらの問題を克服するための徹底的な研究と革新が必要です。

- 改善可能な問題 2 : 戦略は敵対者の悪用に対して脆弱であることが多い。

学習したポリシーが完全な報酬信号でトレーニングされ、トレーニングされたタスクで優れたパフォーマンスを発揮し、幅広いシナリオに一般化されたとしても、敵対的な状況ではパフォーマンスが低下する可能性があります。

これは差し迫った問題です。なぜなら、現実世界に展開されたモデルは、人間や他の AI システムによる敵対的な攻撃に対して脆弱になる可能性があるからです。

たとえ「超人的な」戦略であっても、それを悪用するために特別に設計された戦略に直面すると、完全に失敗するでしょう。

キューインジェクションとジェイルブレイクの場合、既存の深層強化学習アルゴリズムを再ターゲットするか、これら 2 つの方法を手動で最適化することで、敵対的戦略を見つけることができます。

これは特に言語モデルに当てはまります。アルゴリズムを破るための多くの敵対的戦略では、モデルへのブラックボックス アクセス (API 経由など) で十分ですが、ホワイトボックス アクセス (オープン ソースまたは漏洩したモデルの重み経由など) では、より破壊的なエクスプロイトが可能になります。

政策の誤った一般化

- メカニズムの問題 1 : トレーニング中に使用される報酬が正確であっても、実際の展開ではポリシーのパフォーマンスが低下する可能性があります。

展開時のデータ分布は、トレーニング時および評価時のデータ分布とは異なる可能性があります。正しい報酬信号があっても、実際の目標が他のイベントに関連付けられている場合、ポリシーは間違った目標を追求することを学習する可能性があります。

これまでの研究では、この種の問題について詳細に議論されてきました。たとえば、RLHF でトレーニングされたシステムは、一般化の際に、意図した目標ではなく、報酬管理メカニズム自体を誤って追求する可能性があります。

- メカニズムの問題 2 : 最適な RL エージェントは権力を追求する傾向があります。

RL エージェントは、可能な限り、目標を達成するのに役立つパワーを追求する動機を持っています。

RLHF が LLM を微調整するために使用される一般的な方法から、同様の状況の異なるバージョンが発生する可能性があります。

たとえば、RLHF でトレーニングされた質問応答 LLM は、難しいトピックを含む会話を避けるように人間の対話者に影響を与えるように動機付けられます。

あるいは、LLM は人間に対しておべっかを使う行動を示すかもしれません。

出力分配の課題

トレーニングの前後にモデルによって生成された出力を分配する際に課題が存在します。

- 改善可能な問題 1 : 事前トレーニング済みモデルはポリシー最適化にバイアスを導入します。

LLM の RLHF は通常、インターネット テキストで事前トレーニングされた事前トレーニング済みベース モデルに基づいて実行されます。

この基本モデルは、RL ポリシー ネットワークの初期化と KL 正則化の参照モデルの両方としてよく使用されます。

これまでの研究では、これらの KL ペナルティの下での RL が、事前の基礎モデルによって条件付けられたベイズ推論の一形態としてどのようにみなされるかが明らかにされています。

このメカニズムは実際には便利ですが、ベース モデルが最終モデルに大きな影響を与える可能性があります。

Web テキストで事前トレーニングされたベース モデルを使用することは、便利な初期化方法ですが、最適な方法ではありません。

さらに、インターネット テキストには、下流のモデルに継承される可能性のある有害なバイアス (人間の人口統計情報に含まれるものなど) が含まれています。

これらのバイアスは、RLHF トレーニング中も持続する可能性があります。

- 改善可能な問題 2 : RL によりモードが崩壊します。

RL 微調整により、モデルによって生成されるサンプルの多様性が減少します。これは「モード崩壊」現象として知られています。

OpenAI は、RLHF を使用して GPT-4 を微調整すると、質問応答の調整に影響が出ることを発見しました。

以前の研究でも、RLHF を使用して微調整された LLM は狭い政治的見解を表現することがわかっています。

モードの崩壊は、教師あり事前トレーニング目標から RL 目標への切り替えに一部起因している可能性があります。

RL 報酬戦略では、高スコアの完了が高確率で出力されますが、これはトレーニング分布とは異なることがよくあります。

モードの崩壊はさまざまな状況で有益にも有害にもなり得るため、この問題に対処するのは複雑です。

たとえば、LLM アシスタントの場合、質問に対する答えが「はい」であると 90% 確信できる場合、通常は「たぶん」と答えます。これは、90% の確率で「はい」と答え、10% の確率で「いいえ」と答えるよりも優れています。

報酬モデルとポリシーを同時にトレーニングする際の課題

RLHF は報酬モデルとポリシーの両方を同時にトレーニングすることに依存しており、これにより 2 つの固有の問題が発生します。

- 改善可能な問題 1 : 同時トレーニングにより分布のシフトが発生します。

報酬モデルとポリシーを同時に学習することは技術的に困難です。報酬モデルは学習したポリシーに影響を与え、ポリシーは報酬モデルのトレーニングに使用されるデータ分布を決定します。

一方、報酬モデルがオフライン データでトレーニングされると、誤って一般化される可能性が高くなります。

一方、ポリシーサンプルからのフィードバックを収集して報酬とポリシーを同時に学習すると、システムは「自律的に誘導される分布シフト」の影響を受けやすくなります。

フィードバック データでは、報酬が多すぎる特徴が徐々に増加し、報酬が少なすぎる特徴は徐々に消えていきます。

その結果、報酬モデルのエラーが蓄積され、ポリシーが多様な選択肢を生成しなくなると、これらのエラーを修正することが難しくなります。

- 改善可能な問題 2 : 戦略において効率性と過剰適合の回避のバランスを取ることが困難です。

RLHF の 3 つの主要なステップは同時に実行できますが、実際に LLM に実装される場合は、通常、異なるタイミングで段階的に実行されます。

この場合、報酬モデルは切断されたデータに対して不正確になる傾向があり、ポリシーはこの不正確さを学習します。

通常の解決策は、一定回数の反復後に設定ラベルを再取得することです。

このハイパーパラメータを適切に設定することが重要です。

設定が低すぎると、設定ラベルの情報が無駄になり、設定が高すぎると、ポリシーは報酬モデルが信頼できない領域に移動します。

ポリシーが探索している領域にラベル付けされた検証セットがない場合、トレーニング中に報酬の過剰最適化を検出することは困難です。

効果的な解決策としては、KL シフトを測定することや、報酬モデルのアンサンブルにおける不一致の度合いを追跡することなどが挙げられます。

RLHF で課題に立ち向かう

上記のように、RLHF には 3 つの大きな課題があります。研究者は、これらの課題は、RLHF パイプラインの一部をさまざまな方法で置き換えたり組み合わせたりすることで解決できると述べています。

次の図に示すように:

人間からのフィードバック

1. 人工知能の助けを借りてフィードバックを提供します。

人間の能力を強化する方法の 1 つは、AI ツールを利用してフィードバックを生成することです。 AI システムのエンジニアリングのヒントとそれを使用したフィードバックの自動化により、実用性とコスト効率が大幅に向上します。

2. きめ細かなフィードバック。

フィードバックに関する多くの問題には、フィードバック信号を介して正確な情報を伝達することが難しいことが関係しています。きめ細かいフィードバックにより、より高価な人間によるフィードバックを犠牲にして、学習した報酬モデルの品質が向上します。

3. プロセスに基づく監督。

問題を解決するために AI システムをトレーニングする際の課題の 1 つは、複数ステップのプロセスのパフォーマンスを監視することが難しいことです。現在、いくつかの研究では、プロセス監視下で多段階の数学の問題をより適切に解決できるように LLM をトレーニングしています。

4. 自然言語仕様を報酬モデルに変換します。

RLHF に関する多くの問題は、特定の制限された種類のフィードバックを使用して報酬関数を適合させることの難しさから生じます。もう 1 つのアプローチは、例に対するフィードバックのプロセスをバイパスして、自然言語の指示からより直接的に報酬信号を生成することです。

5. デモンストレーションによって学習を奨励する。

報酬モデルを学習する別のアプローチは、逆強化学習 (IRL) と呼ばれます。人間が必要なのは、モデルへのフィードバックを生成するためではなく、デモンストレーションを提供するためです。

報酬モデル

1. 人間による直接的な監督

報酬モデルの学習は効率的ですが、安全性が重要な状況では、RL トレーニングに直接報酬を提供することが必要になる場合があります。

2. 多目的監視

より豊富な多目的信号により、複数の目的に対する出力の評価が可能になり、より柔軟な監視が可能になります。

3. 学習した報酬関数を不確実なままにする

学習した報酬関数の不確実性を維持します。適切な報酬関数を正確に学習するという課題を考慮して、いくつかの研究では、学習した関数の不確実性を考慮することの重要性が強調されています。

戦略

1. トレーニング前に LLM を調整します。

LLM における RLHF は通常、不快なコンテンツを多く含むインターネット テキストで LLM を事前トレーニングすることから始まります。

2. 教師あり学習による LLM の調整。

LLM を人間の好みに一致させる手法はいくつかあり、RL の代わりに教師あり学習を使用することで RLHF に匹敵する結果を達成することができます。最も単純な方法は、慎重にキュレーションされたデータに対して標準的な教師あり学習を実行することです。

RLHF だけが必要なわけではありません: 安全なサプリメント戦略

- 堅牢性

- リスク評価と監査

- 解釈とモデルの編集

規制と透明性

透明性を継続的に重視することで、既存の RLHF 研究環境は安全性の面でより安定したものになります。

まず、いくつかの大規模な RLHF トレーニング プロセスの詳細を公開することで、モデルのレビューと安全性チェックに対する組織のアプローチが明らかになります。

第二に、既知のリスク軽減策の透明性を高めることで、安全に対するインセンティブが向上し、外部の利害関係者がモデルトレーニング企業に責任を負わせる手段を提供できるようになります。

第三に、この記事では、透明性によって AI 安全コミュニティの RLHF に対する理解が深まり、これらの課題に対処するための技術的な進歩を追跡できるようになります。

より具体的な戦略的推奨事項は研究の範囲外であったため、研究者らは今後これらのトピックをさらに調査したいと考えている。

しかし、研究者らは、さまざまな課題タイプについて、公開されればリスクが明らかになり、RLHF を使用して開発された AI システムを監査する際に考慮すべき具体的な詳細をいくつか提案しました (下の図を参照)。

人間からのフィードバック:

- 導入された可能性のあるバイアスを明らかにするために使用されたデータの詳細を含む、事前トレーニング プロセスの詳細な説明。

- 評価者が悪意を持っていたり、代表的でなかったり、無能であったりするリスクに関する情報を提供するために、人間の評価者を選択し、トレーニングするプロセスを開示します。

- フィードバック用の例を選択するプロセスを公開し、その代表性をチェックし、十分な敵対的トレーニングが実行されたかどうかを判断するのに役立ちます。公開されているアプリケーションから例をクラウドソーシングする場合は、データの汚染を避けるために講じられた対策の詳細を提供する必要があります。

- 不十分に強化されたフィードバックや適切なフィードバックから生じる可能性のあるリスクを示唆するために使用される人間によるフィードバックの種類 (バイナリ比較、スカラー フィードバックなど)。

- フィードバック収集と評価者間の一貫性に関する品質保証対策を公開し、効果的な品質管理対策が実施されていることを確認します。

報酬モデル:

- 報酬モデルを適合させるために使用される損失関数と、報酬モデルを適合させるときに不一致がどのようにモデル化されるか(たとえば、ノイズとして)を公開して、不一致の程度の分析に役立てます。

- 報酬モデルの評価と結果に関する開示レポートを作成し、一貫性のない報酬モデルから生じる可能性のある問題についてアドバイスします。評価にはレッドチームテストを含める必要があります。

戦略:

- 一貫性のない戦略から生じる可能性のある問題についてアドバイスするために、戦略の評価と結果について開示します。評価には、レッド チーム テストとリスク機能 (人間を欺く能力など) の評価を含める必要があります。

体系的な安全対策:

- 説明責任を確保し、特定されたリスクを公開するために、内部監査と外部監査、およびレッド チーム テストについて報告します。

- 説明責任を果たすために、予想されるリスクと予想される障害モードを報告します。

- 展開後のセキュリティをサポートするために、障害を監視して修正する計画。

社会的・経済的平等への配慮:

この記事は RLHF の技術的な課題に焦点を当てていますが、社会的および経済的問題も同様に重要であり、対処するには統治機関と業界の共同の取り組みが必要です。

たとえば、OpenAI はかつてケニアの知識労働者に時給 2 ドル未満しか支払っていませんでしたが、これは心理的にも感情的にも受け入れがたい仕事でした。

RLHF 研究で使用される被験者は、単に利便性や低コストという理由だけで最適であるとみなされるべきではありません。

RLHF モデルのコスト、利点、影響は、さまざまなグループ間で公平に分配される必要があります。

さらに、強力な AI システムは、大きな利益を生み出し、莫大な富と権力を少数の人々の手に集中させる可能性があります。

したがって、不平等に対処し、脆弱なグループ(影響を受けたコミュニティ、内部告発者など)を保護するための戦略を策定することがますます重要になります。

<<:  空飛ぶ車の将来展望は?

>>:  AIと5Gの相乗効果:デジタル時代の潜在能力を最大限に引き出す

ブログ    
ブログ    

推薦する

2021年、ついにスマートグラスの普及が到来

[[391934]]スマートグラスの技術は長い間、SF作家たちの想像力をかき立ててきました。理論上、...

...

Amazon SageMaker について

Amazon SageMaker は、開発者やデータサイエンティストがあらゆる規模の機械学習モデルを...

人工知能はどれくらい怖いのでしょうか?アメリカはAI兵器を開発し、イランの科学者は死亡した

[[358758]]人工知能はかつてはSF映画にしか登場しない言葉でした。しかし、通信、ビッグデータ...

米国のAI雇用市場の現在の規模を解読する

[[342720]] 人工知能の分野でのこの国の雇用機会はどのようなものでしょうか?私たちはすべてが...

RLHF が LLM トレーニングの鍵となるのはなぜですか? AI専門家が5つの代替案を検討し、Llama 2のフィードバックメカニズムのアップグレードを説明

ChatGPTが主導する大規模言語モデルの時代において、避けては通れないトピックが「人間のフィードバ...

EasyDL Professional Notebookモデリング機能の詳しい説明

Jupyter Notebook は、開発やドキュメントの作成からコードの実行、結果の表示まで、コン...

ドローンの違法飛行の新たな手口が出現:なぜそれを規制するのが難しいのか?

近年、民間ドローン産業が急速に発展し、さまざまなコストが大幅に削減されたため、民生用ドローンの普及が...

1時間から3.5分まで、Metaの新しいアルゴリズムは携帯電話で3D顔データを収集できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Appleの会話型AI予算は1日あたり数百万ドルに拡大

海外メディアは9月7日、事情に詳しい関係者の話として、アップルが人工知能の構築に必要なコンピューティ...

...

21 歳の SpaceX インターンが AI を使って大規模な考古学的事件を解決し、4 万ドルを獲得しました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Appleはすでに社内でAppleGPTを使用していると報じられている

7月24日、Appleは社内で従業員の業務を支援するためにチャットボットを使用しており、将来的には顧...

2022年のディープラーニングの5つのトレンド

ディープラーニングは、データから段階的に優れた高度な洞察を抽出するために複数の処理層を活用する人工ニ...

Gluon は AI 開発者に自己調整型機械学習をもたらします

概要: Microsoft と Amazon の共同作業により、MXNet と Microsoft ...