ChatGPTの一般公開の1か月前に、OpenAIはケニアの弁護士Boru Golloを雇い、AIモデルGPT-3.5とその後のGPT-4がアフリカやイスラム教のグループに対して偏見を持っていないかをテストし、プロンプトを入力してチャットボットが有害で偏った誤った応答を生成するかどうかを調べた。 OpenAIが「レッドチーム」の一員として採用した約50人の外部専門家の1人であるゴロ氏は、ChatGPTにナイジェリア人を殺す方法のリストを表示するよう求めるコマンドを入力したが、このチャットボットが最終的に世界に公開される前にOpenAIはこの質問を削除した。 これらのリスクと、OpenAI がリスクを軽減または排除するために使用する安全策を一覧表示する GPT-4 のシステム カードには、他のレッド チーム メンバーが、Facebook に投稿して他の人にアルカイダへの参加を勧めたり、無許可で販売されている銃の発見を手伝ったり、自宅で危険な化学物質を製造するプログラムを作成したりといった、違法で有害な活動に GPT-4 のプレリリース バージョンが利用されることを奨励していたことが示されています。 AI システムが悪用されるのを防ぐために、レッドチームのハッカーは攻撃者の視点から考え、AI システムに変更を加えて、テクノロジーに内在する盲点やリスクを発見し、それらを排除できるようにします。テクノロジー大手が生成 AI ツールの構築とリリースを競う中、社内の AI レッド チームは、モデルが一般公開されても安全であることを保証する上で、ますます重要な役割を果たしています。たとえば、Google は今年初めに独立した AI レッドチームを立ち上げ、8 月には OpenAI の GPT3.5、Meta の Llama 2、Google の LaMDA など、数多くの人気モデルの開発者が、外部のハッカーに AI システムをクラックする機会を与えることを目的としたホワイトハウス後援のイベントに参加しました。 しかし、AI レッドチームのメンバーは、AI モデルの関連性と実用性を維持しながら、そのセキュリティのバランスを取るという綱渡りを強いられることがよくあります。 Forbes 誌は、Microsoft、Google、Nvidia、Meta の AI レッド チームのリーダーと話をし、AI モデルのクラッキングがトレンドになっている理由と、それを修正する課題について議論しました。 「すべてにノーと言うモデルは安全だが、役に立たないこともある」とフェイスブックのAIレッドチーム責任者、クリスチャン・カントン氏は言う。「トレードオフがある。モデルを役に立つものにすればするほど、何らかのリスクを伴い、安全でない応答を生成する可能性が高くなる」 レッド チーム ソフトウェアの実践は、システムが可能な限り強化されていることを確認するために敵対的攻撃をシミュレートした 1960 年代頃に始まりました。 「コンピューティングの世界では、『これは安全だ』とは決して言いません」と、ハーバード大学バークマン・クライン・インターネット・社会センターのセキュリティ技術者で研究員のブルース・シュナイアー氏は言う。「『試したが破れなかった』としか言いません」 しかし、生成AIは膨大なデータセットを使用してトレーニングされるため、AIモデルの保護は従来のセキュリティ対策とは異なると、Googleの新設AIレッドチームの責任者であるダニエル・ファビアン氏は述べた。 Google の AI レッド チームは、追加言語などの新機能を追加する前に、Bard などの製品にストレス テストを実施して不快なコンテンツを見つけ出します。 レッドチームは、AI モデルを照会して有害な応答を生成するだけでなく、ユーザーの名前、住所、電話番号などの個人を特定できる情報を明らかにするトレーニング データを抽出したり、コンテンツの一部を改ざんしてデータセットを汚染してからモデルのトレーニングに使用するなどの戦術を使用します。 「攻撃者は多かれ少なかれさまざまな攻撃方法を持っており、1つの攻撃がうまくいかなければ次の攻撃に移る」とファビアン氏はフォーブス誌に語った。 エヌビディアのソフトウェアセキュリティ担当副社長ダニエル・ローラー氏は、この分野はまだ初期段階にあるため、AIシステムの操作方法を知っているセキュリティ専門家の数は「非常に少ない」と述べた。そのため、AI レッド チームのメンバーの小グループが頻繁に調査結果を共有します。 Google のレッドチームのメンバーは AI モデルを攻撃する新しい方法についての研究を発表しており、一方、Microsoft のレッドチームは Counterfit などの攻撃ツールをオープンソース化して、他社が自社のアルゴリズムのセキュリティとセキュリティリスクをテストできるようにしています。 「私たちは、自分たちのレッドチーム演習をスピードアップするために、こうした粗悪なスクリプトを開発していました」と、5年前にこのグループを設立したラム・シャンカール・シヴァ・クマール氏は語る。「私たちは、それを、セキュリティ専門家全員が使い慣れて理解できるフレームワークで利用できるようにしたかったのです。」 AI システムをテストする前に、シヴァ・クマール氏のチームは、同社の脅威インテリジェンス チームからサイバー脅威に関するデータを収集します。同氏はこのチームを「インターネットの目と耳」と呼んでいます。その後、彼はマイクロソフトの他のレッドチームのメンバーと協力して、その AI システムのどの脆弱性をどのように攻撃するかを決定しました。チームは今年、GPT-4のテストに加え、脆弱性や欠陥を探すためにマイクロソフトの主力AI製品であるBing Chatもテストした。 一方、Nvidia のレッド チーム アプローチの 1 つの側面は、セキュリティ エンジニアや GPU などのコンピューティング リソースを Nvidia に依存している企業に、レッド チーム検出アルゴリズムの使用方法に関する短期集中講座を提供することです。 「各企業の AI エンジンとして、私たちは大きな増幅要因を持っています」とローラー氏は語った。「私たちが他の人にこれ (レッドチーム演習) を行う方法を教えることができるなら、Anthropic、Google、OpenAI はいずれもそれをうまく実行できるでしょう。」 AI アプリケーションはユーザーや政府からますます厳しい監視を受けるようになるため、レッド チームは AI 競争に参入するテクノロジー企業に競争上の優位性をもたらします。 「信頼とセキュリティが防壁になると思います」と、AIハッカーとセキュリティ専門家のコミュニティであるAI Villageの創設者スヴェン・キャッテル氏は言う。「『当社のAIシステムは最も安全です』といった広告を目にすることになるでしょう」 初期の先駆者は Meta の AI Red Team でした。 2019年に設立されたこのチームは、ヘイトスピーチ、ヌード写真、誤報、AI生成のディープフェイクを含む違法な投稿を検出して削除するInstagramとFacebookのコンテンツフィルターをハッカーが回避することを奨励するいくつかの社内チャレンジと「リスクアソン」を組織してきました。 Llama 2の開発の詳細を記した公開レポートによると、2023年7月、このソーシャルメディア大手は、最新のオープンソース大規模言語モデルであるLlama 2をテストするために、外部の専門家、請負業者、および約20人の社内チームを含む350人のレッドチームメンバーを雇用した。レッドチームは、脱税の方法、鍵なしで車を始動する方法、ポンジスキームをセットアップする方法などのヒントを入力しました。 「我々のAIレッドチームは『訓練では多く汗を流し、戦闘では少なく流す』というモットーを掲げている」とフェイスブックのレッドチームリーダー、カントン氏は語った。 このモットーは、8月初旬にラスベガスで開催されたハッカーカンファレンス「DefCon」で行われた最大規模のAIレッドチーム演習の精神に似ていました。 OpenAI、Google、Meta、Nvidia、Stability AI、Anthropicを含む8社が、出席した2,000人以上のハッカーにAIモデルを公開し、ハッカーがクレジットカード番号などの機密情報を漏らしたり、政治的な誤報などの有害なコンテンツを作成したりするように設計されたプロンプトを入力できるようにした。ホワイトハウスの科学技術政策局はイベント主催者と協力し、自動化システムを安全に設計、使用、起動する方法に関するガイドである AI 権利章典ブループリントに準拠するレッド チーム チャレンジを設計しました。 イベントの主催者であるAI Villageの創設者であるキャッテル氏は、当初これらの企業は、主にレッドチームテストを公開フォーラムで使用することによる評判リスクを懸念して、モデルの公開に消極的だったと述べた。 「グーグルやOpenAIの観点から見ると、我々はデフコンで遊んでいるだけの集団に過ぎない」と彼はフォーブスに語った。 しかし、彼らはテクノロジー企業に対し、モデルは匿名化され、ハッカーは誰のモデルを攻撃しているのか分からないと保証した上で、最終的に同意した。ハッカーによるAIモデルとの約17,000回のやり取りの結果は2月まで公表されないが、両社は最終的に、キャンペーン中に対処する必要のあるいくつかの新たな脆弱性を発見した。イベント主催者が発表した新しいデータによると、レッドチームのメンバーは、8つのAIモデル全体で、モデルに矛盾した発言をさせたり、本人の知らないうちにスパイする方法を指示したりするなど、約2,700の脆弱性を発見した。 参加者の一人、AI倫理研究者のアビジット・ゴーシュ氏は、複数のモデルに誤った計算を行わせ、タイ国王に関する偽のニュースレポートを生成し、存在しない住宅危機についての記事を書くことに成功した。 ゴーシュ氏は、システムにおけるこうした脆弱性により、特に一部のユーザーからAIが全知全能の存在とみなされる可能性がある場合には、レッドチームによるAIモデルのテストがさらに重要になると述べた。 「現実世界では、こうしたロボットは実際に知性があり、段階的な論理と推論を通じて医療診断などができると考えている人が何人かいます」と彼は言う。「しかし、それは事実ではありません。実際には、これはオートコンプリート機能なのです。」 しかし専門家は、生成AIは多頭の怪物のようなものだと述べている。レッドチームがシステムのいくつかの脆弱性を見つけて修正すると、別の脆弱性が別の場所に現れるのだ。 「この問題を解決するにはコミュニティ全体の協力が必要だ」とマイクロソフトのシバ・クマール氏は語った。 この記事はhttps://www.forbes.com/sites/rashishrivastava/2023/09/01/ai-red-teams-google-nvidia-microsoft-meta/から翻訳されています。転載する場合は元のアドレスを明記してください。 |
>>: 10人が2か月かけて大型模型を製作しました! 1年間でトップカンファレンスで発表された16本の論文: 市場で最も優れた論文はどれもオープンソースではない
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[382214]]編纂者:Qi Lubei編集者:陳彩仙機械学習の分野は非常にホットであり、新しい...
畳み込みニューラルネットワーク(CNN)と衛星画像データを使用して地域の所得レベルを予測する手法がま...
こんにちは、みんな。今日は、GPT-4 コード インタープリターがデータ分析、科学研究の描画、機械学...
Linux サーバー管理は、サーバーの安全、安定、効率的な運用を確保するための重要なタスクです。以下...
[[410937]]この記事では、カリフォルニア大学バークレー校の PyTorch をベースにしたア...
昨日、国内のAIスタートアップ企業Rokidは杭州で新製品発表会を開催し、Meスマートポータブルスピ...
データ中心の人工知能の構築は、今後のトレンドになりつつあります。 1年以上前、アンドリュー・ン氏は「...
LLM アーキテクチャに固有のメモリ制限により、生成は遅く、コストがかかります。この点に関して、多く...
[[397963]]誰もがビデオ AI による顔の修正について聞いたことがあるはずです。ビデオクリッ...