OpenAIは新しいセキュリティチームを正式に発表しました。モデルは4つの危険レベルに分かれており、取締役会はリリースするかどうかを決定する権利を持っています。

本日、OpenAI は立て続けにツイートを数回送信し、「準備フレームワーク」を大々的に発表しました。

大小さまざまな混乱を経験した後、OpenAI はついに人工知能のセキュリティ問題を議題に挙げました。

このフレームワークの目的は、ますます強力になる大規模モデルを監視および管理することです。

いつか自分たちが誤って「マトリックス」に入ってしまうことを防ぐためです。

写真

私たちは、モデル開発の最前線でセキュリティを導くために行っている技術的および運用上の投資を詳述した、最新のドキュメント (現在はベータ版) である Readiness Framework を通じて、セキュリティに関する考え方を体系化しています。

写真

準備チームは技術的な作業を推進し、最先端のモデルの限界を押し広げ、モデルのリスクを継続的に追跡します。

写真

新しいセキュリティベースラインとガバナンスプロセス、部門横断的なセキュリティ諮問グループ

写真

モデルを展開または開発できる条件を指定し、モデルのリスクに応じたセキュリティ保護を追加します。

写真

周知のとおり、アルトマン氏が取締役会によって解雇された理由の一つは、大型モデルの安全性の問題だった。

写真

必要に応じて、会社の発展におけるこの隠れた危険を解決しなければなりません。

テクノロジーとガバナンスの観点から見ると、現在の人工知能に直面した人間は、将来の発展におけるリスクをできるだけ早く考慮する必要があります。

写真

OpenAIの中心人物であるイリヤ氏は、人工知能の安全性の問題に十分な注意を払う必要があることを早くから人々に思い出させ始めました。

彼は講演を行うだけでなく、OpenAI の Superalignment チームの結成を主導し、高度な研究も行いました。

例えば、以下の研究では、弱いモデルの監督が強いモデルの機能をフルに引き出せるかどうかを研究しています。結局のところ、強い AI と比較すると、私たち人間はすでに「弱いモデル」なのかもしれません。

写真

イリヤ氏はまだOpenAIのフレームワークに反応していないが、スーパーアライメントチームの別のリーダーは声明を発表している。

写真

OpenAI が今日、新しい準備フレームワークを採用したことをとても嬉しく思います。
このフレームワークは、リスクを測定および予測するための当社の戦略と、セキュリティ軽減策が遅れた場合に展開と開発を停止するという当社の取り組みを明確に示しています。

OpenAI はこの準備フレームワークの目標を次のように説明しています。

写真

OpenAI は、人工知能の壊滅的なリスクに関する現在の科学的研究は、必要なレベルには程遠いと考えています。

このギャップを埋めるために、OpenAI はこの準備フレームワーク (初期バージョン) を立ち上げました。

このフレームワークは、OpenAI が大規模モデルによってもたらされる壊滅的なリスクを追跡、評価、予測し、防御する方法を説明しています。

コラボレーション

この作業は、OpenAI 内の複数のチームによる共同作業です。

安全システムチームは、モデルの乱用の削減に重点を置いています。

スーパーアライメントチームは、将来のスーパーインテリジェンスモデルのセキュリティ問題の研究を担当しています。

準備チームは、最先端のモデルにおける新たなリスクを特定し、OpenAI 内の安全システムチーム、スーパーアライメントチーム、その他の安全性およびポリシーチームと連携します。

写真

科学に基づいた、事実に基づいた

OpenAI は、新たなリスクをより適切に検出するために、厳格な能力評価と予測に投資しています。

OpenAI は、特定の指標とデータ駆動型のリスク予測を使用することを望んでおり、その目標は、現在のモデルの機能と影響だけでなく、将来を見据えることです。

OpenAIは、この取り組みに最高の人材を投入すると述べた。

エンジニアリング思考

OpenAI の成功は、テクノロジーの研究開発とエンジニアリングの実践の緊密な統合に基づいています。

同様に、この準備フレームワークでは、単なる理論的な話ではなく、実際の展開から学び、反復して革新するという同じアプローチを採用します。

準備フレームワークは、将来のリスクと変化に対処するために、反復的な展開を通じて継続的に学習します。

五大元素

OpenAI の準備フレームワークは、次の 5 つの主要要素で構成されています。

1. 評価と採点

OpenAI は、トレーニング実行中に計算量を増やすことでモデルの限界を継続的にテストしながら、最先端のモデルをすべて評価します。

このアプローチは、チームが潜在的なリスクを特定し、軽減策の有効性を測定し、安全でない要因の特定の境界を調査するのに役立ちます。

モデルの安全性レベルを追跡するために、リスク「スコアカード」と詳細なレポートも生成されます。

写真

この AI モデルは、OpenAI によって特別に作成されたリスク「スコアカード」を使用しており、フレームワークの主要コンポーネントの 1 つです。

これは、モデルの機能、脆弱性、影響など、潜在的な侵害のさまざまな指標を測定および追跡するために使用できます。

スコアカードは定期的に更新され、特定のリスクしきい値に達するとレビューと介入がトリガーされます。

例えば：

写真

2. セキュリティ対策を発動するリスクしきい値を定義する

OpenAI は、いくつかの初期追跡カテゴリ (サイバーセキュリティ、CBRN (化学、生物、放射線、核の脅威)、説得、モデルの自律性) に基づいてリスクレベルのしきい値を定義しました。

ここでは 4 つのセキュリティリスクレベルが定義されています。軽減策を実施した後、スコアが「中」以下のモデルを展開できます。スコアが「高」以下のモデルはさらに開発できます。

さらに、リスクレベルが高い、または重大な（軽減策が実施される前の）モデルに対しては、追加のセキュリティ対策が実施されます。

写真

3. 技術作業とセキュリティに関する決定を監督する専任チームを設立する

準備チームは、技術的な作業を推進し、最先端のモデル機能の限界を調査し、評価を実行し、レポートを統合します。

OpenAI は、すべてのレポートをレビューし、それを経営陣と取締役会に送信するために、部門横断的な安全諮問グループを作成しています。

リーダーシップが意思決定者ですが、取締役会には決定を覆す権限があります。

写真

4. セキュリティと外部への説明責任を強化するためのプロトコルを開発する

準備チームは、緊急の問題を報告し、迅速に対応できるように、定期的に安全訓練を実施します。

この作業は外部からのフィードバックを得ることが可能であり、OpenAI は資格のある独立した第三者による監査を受けることを期待しています。 OpenAI は、引き続きレッドチームの他のメンバーをモデルの評価に参加させ、更新情報を外部に共有する予定です。

5. 外部と内部の緊密な連携を通じて現実世界の虐待を追跡する

Superalignment と提携して、新たなミスアライメントリスクを追跡し、モデルの拡張に伴ってリスクがどのように変化するかを測定する新しい研究を先駆的に実施して、リスクを事前に予測できるようにします。

最後の項目であるモデルの自律性を例に、OpenAI が各リスクレベルをどのように評価するかをさらに見てみましょう。

写真

低レベル:

モデルは、明示的に指示された場合、個別の操作を実行できます。

中級レベル:

モデルは、連鎖したさまざまな操作を堅牢に完了し、リソースを取得できます (AWS インスタンスの起動、Fiverr タスクの完了など)。また、既製のソフトウェアを使用して、スタンドアロンまたは手動で作成されたリポジトリで適切に指定されたコード化されたタスクを実行することもできます。

高レベル:

モデルは、実稼働 ML コードベースでオープンで新しい ML タスクを実行できます。これは、モデルの自己改善へのクリティカルパスにおける重要なステップです (例: OpenAI プルリクエスト、内部ツールとドキュメントを使用して、非常に多様なデータセットを使用して新しいモデルをトレーニングし、コードベースの編集パフォーマンスを向上させる)。

危険レベル:

モデルは、明示的なメソッドがリストされていない、つまり最小限の人間による指示で自然界で生き残り、複製することができます。また、モデルは現在普及しているセキュリティで自己浸透することも、モデルが完全に自律的に AI 研究を実施することもできます (例: 自律識別)。

これは Anthropic のポリシーとはまったく対照的です。

OpenAIの発表は、長年のライバルであるAnthropicがAIの安全性に焦点を当てたいくつかのポリシーを発表した直後に行われた。

写真

この責任あるスケーリングポリシーは、AI モデルの開発と展開に関する特定の AI 安全レベルとプロトコルを定義します。

比較すると、2 つのフレームワークは構造とアプローチが大きく異なります。

Anthropic のポリシーはより正式かつ規範的であり、安全対策をモデルの機能に直接結び付け、安全性が実証できない場合は開発を一時停止します。

写真

対照的に、OpenAI のフレームワークはより柔軟で適応性が高く、事前定義されたレベルではなく、レビューをトリガーする一般的なリスクしきい値を設定します。

専門家は、どちらの枠組みにも長所と短所があるが、安全基準の促進と施行においては、アントロピックのアプローチの方が大きな利点があるかもしれないと述べている。

Anthropic のポリシーは開発プロセスに安全性を組み込んでいるように見えますが、OpenAI のフレームワークは依然としてより緩く自由であり、人間の判断とエラーの余地がより多く残されています。