Patronus AI が LLM に懸念すべきセキュリティ上の欠陥を発見

Patronus AI が LLM に懸念すべきセキュリティ上の欠陥を発見

自動評価および安全性プラットフォームである Patronus AI は、大規模言語モデル (LLM) における主要な安全性リスクを明らかにする診断テスト スイートである SimpleSafetyTest の結果を公開しました。この発表により、AI モデルの限界が明らかになり、特に金融などの規制の厳しい業界での AI 使用事例において改善の必要性が強調されました。

Patronus AI の調査結果は、ChatGPT のような GenAI (生成型人工知能) システムの精度と、GenAI システムがクエリに対して有害な応答を返す可能性についての懸念が高まる中で発表された。 AI の使用に対する倫理的および法的監視の必要性も高まっています。

Patronus AI SimpleSafetyTest の結果は、SEC (米国証券取引委員会) 提出書類の中で最も人気のあるオープンソース LLM の一部をテストした結果に基づいています。このテストには、児童虐待、身体的危害、自殺など、優先度の高い危害領域における脆弱性をテストするために設計された 100 のテストプロンプトが含​​まれています。 LLM のテストでの正解率はわずか 79% でした。一部のモデルでは、20% を超える安全でない応答が生成されました。

心配になるほど低いスコアは、基礎となるトレーニング データの分布に問題があることが原因である可能性があります。 LLM には「幻覚的」になる傾向もあり、事実に矛盾したり、意図せず過度に甘やかされたり、まったく意味をなさないテキストが作成されます。 LLM が不完全なデータまたは矛盾したデータでトレーニングされると、システムが関連付けを間違え、誤った出力につながる可能性があります。

Patronus AI のテストでは、LLM が SEC に記録されていない数字や事実を幻覚的に作り出すことができることが示されました。この調査では、安全性を強調するプロンプトなどの「ガードレール」を追加すると、安全でない応答を 10% 削減できることも示されましたが、リスクは依然として存在します。

2023年に設立されたPatronus AIは、間違った回答が深刻な結果を招く可能性がある、規制が厳しい業界に重点的にテストを行っています。このスタートアップの使命は、AI モデルのセキュリティリスクを評価する信頼できる第三者になることです。早期導入者の中には、Patronus AI を「AI のムーディー」と表現する人もいます。

今年初め、Patronus AI の創設者 Rebecca Qian 氏と Anand Kannappan 氏はインタビューで Patronus AI のビジョンを共有し、「企業が自信を持って言語モデルを使用できるようにする初の自動検証および安全性プラットフォーム」となり、「企業が大規模に言語モデルのエラーを見つける」のを支援することを望んでいると述べました。

SimpleSafetyTest の最近の結果では、組織が GenAI を業務に取り入れようとしているときに AI モデルが直面するいくつかの課題が浮き彫りになっています。 GenAI の最も有望な使用例の 1 つは、重要な数値をすばやく抽出し、財務に関する説明を分析できる可能性です。しかし、モデルの精度に懸念がある場合、規制の厳しい業界での適用に重大な疑問が生じる可能性があります。

最近のマッキンゼーのレポートによると、銀行業界は GenAI テクノロジーから最も大きな恩恵を受ける可能性があるとのことです。これにより、業界に毎年 2.6 兆ドルから 4.4 兆ドル相当の価値が追加される可能性があります。

ほとんどの業界では、SimpleSafetyTest での誤った回答の割合は許容範囲を超えています。 Patronus AI の創設者たちは、これらのモデルが改良され続けることで、アナリストや投資家を含む金融業界に貴重なサポートを提供できると考えています。 GenAI の大きな可能性は否定できませんが、その可能性を真に実現するには、導入前に厳格なテストを行う必要があります。

<<:  Pangu-Agentの5つのイノベーション

>>:  15人の専門家が予測:AIは2024年にサイバーセキュリティのルールを変える

ブログ    
ブログ    
ブログ    

推薦する

...

テスラはどのようにしてPyTorchを使って自動運転を実現し、世界に挑戦したのでしょうか?

[[313367]]テスラのエンジニアたちは、データの拡大に伴ってエンジニアの数を増やすことなく、...

2021年、AIの想像力を再構築する

2020年という章が静かに変わり、多くの人々が安堵のため息をつくことができました。しかし、この一年は...

...

[技術的な詳細] 自動化プラットフォームの将来はどうなるのでしょうか? IBM Cloud Pak for Business Automationのコンポーネントを詳しく見る

数十年にわたる開発を経て、工場現場、銀行支店、製油所など、ほとんどの業界で自動化が見られるようになり...

2019年の人工知能の5つの主要な発展傾向

人工知能が開発を加速「中国人工知能産業市場展望及び投資戦略計画分析報告書」の統計によると、2017年...

...

1枚の写真を2分で3Dに変換します。テクスチャ品質とマルチビューの一貫性:新しいSOTA|北京大学が制作

写真を 3D に変換するのにかかる時間はわずか2 分です。さまざまな視点から見て、質感の品質と一貫性...

...

人工知能はデータの管理と処理を改善する素晴らしい方法です

初期の AI マシンは不完全であり、明確に定義された指示に従ってのみ動作できました。しかし、コンピュ...

PyGWalkerを使用して表形式のデータを視覚化および分析する

導入Jupyter Notebook に大量のデータがあり、それを分析して視覚化したいとします。 P...

人工知能の潜在能力を活かすための深層開発

[[244225]]人工知能は現実的な科学技術の力であり、需要、デジタル経済、高品質の開発に焦点を当...

AI陣営を理解するためのチャート: AIを学んで間違った側に立つと自滅につながる可能性がある

AIにはさまざまな手法があります。私たちがよく知っている「5大流派」に加え、この記事の著者はAIのさ...