Patronus AI が LLM に懸念すべきセキュリティ上の欠陥を発見

Patronus AI が LLM に懸念すべきセキュリティ上の欠陥を発見

自動評価および安全性プラットフォームである Patronus AI は、大規模言語モデル (LLM) における主要な安全性リスクを明らかにする診断テスト スイートである SimpleSafetyTest の結果を公開しました。この発表により、AI モデルの限界が明らかになり、特に金融などの規制の厳しい業界での AI 使用事例において改善の必要性が強調されました。

Patronus AI の調査結果は、ChatGPT のような GenAI (生成型人工知能) システムの精度と、GenAI システムがクエリに対して有害な応答を返す可能性についての懸念が高まる中で発表された。 AI の使用に対する倫理的および法的監視の必要性も高まっています。

Patronus AI SimpleSafetyTest の結果は、SEC (米国証券取引委員会) 提出書類の中で最も人気のあるオープンソース LLM の一部をテストした結果に基づいています。このテストには、児童虐待、身体的危害、自殺など、優先度の高い危害領域における脆弱性をテストするために設計された 100 のテストプロンプトが含​​まれています。 LLM のテストでの正解率はわずか 79% でした。一部のモデルでは、20% を超える安全でない応答が生成されました。

心配になるほど低いスコアは、基礎となるトレーニング データの分布に問題があることが原因である可能性があります。 LLM には「幻覚的」になる傾向もあり、事実に矛盾したり、意図せず過度に甘やかされたり、まったく意味をなさないテキストが作成されます。 LLM が不完全なデータまたは矛盾したデータでトレーニングされると、システムが関連付けを間違え、誤った出力につながる可能性があります。

Patronus AI のテストでは、LLM が SEC に記録されていない数字や事実を幻覚的に作り出すことができることが示されました。この調査では、安全性を強調するプロンプトなどの「ガードレール」を追加すると、安全でない応答を 10% 削減できることも示されましたが、リスクは依然として存在します。

2023年に設立されたPatronus AIは、間違った回答が深刻な結果を招く可能性がある、規制が厳しい業界に重点的にテストを行っています。このスタートアップの使命は、AI モデルのセキュリティリスクを評価する信頼できる第三者になることです。早期導入者の中には、Patronus AI を「AI のムーディー」と表現する人もいます。

今年初め、Patronus AI の創設者 Rebecca Qian 氏と Anand Kannappan 氏はインタビューで Patronus AI のビジョンを共有し、「企業が自信を持って言語モデルを使用できるようにする初の自動検証および安全性プラットフォーム」となり、「企業が大規模に言語モデルのエラーを見つける」のを支援することを望んでいると述べました。

SimpleSafetyTest の最近の結果では、組織が GenAI を業務に取り入れようとしているときに AI モデルが直面するいくつかの課題が浮き彫りになっています。 GenAI の最も有望な使用例の 1 つは、重要な数値をすばやく抽出し、財務に関する説明を分析できる可能性です。しかし、モデルの精度に懸念がある場合、規制の厳しい業界での適用に重大な疑問が生じる可能性があります。

最近のマッキンゼーのレポートによると、銀行業界は GenAI テクノロジーから最も大きな恩恵を受ける可能性があるとのことです。これにより、業界に毎年 2.6 兆ドルから 4.4 兆ドル相当の価値が追加される可能性があります。

ほとんどの業界では、SimpleSafetyTest での誤った回答の割合は許容範囲を超えています。 Patronus AI の創設者たちは、これらのモデルが改良され続けることで、アナリストや投資家を含む金融業界に貴重なサポートを提供できると考えています。 GenAI の大きな可能性は否定できませんが、その可能性を真に実現するには、導入前に厳格なテストを行う必要があります。

<<:  Pangu-Agentの5つのイノベーション

>>:  15人の専門家が予測:AIは2024年にサイバーセキュリティのルールを変える

ブログ    

推薦する

...

システム統合における10の将来のトレンド

システム統合は、ソフトウェア システム、情報システム、エンタープライズ システム、モノのインターネッ...

人工知能は消費者部門で何をもたらしましたか?

最近、北京にショッピングモールがオープンした。オープン当日、客を出迎えたのは「人」ではなく「ロボット...

Dr. ByteのAIは大活躍、ワンクリックでボーカルと伴奏を完璧に分離

[[424966]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

ロボットの開発について冷静に考える:ロボットは本当にあなたの仕事を奪うのでしょうか?倫理的価値観の再構築のきっかけとなるか?

2017年世界ロボット会議の開催を機に、ロボットに関する話題が一気に盛り上がってきました。では、ロ...

AIは万能か? AI がまだ直面している課題は何ですか?

[はじめに] 人工知能(特にコンピュータビジョンの分野)に関しては、誰もがこの分野における継続的な...

スポーツと人工知能が出会うとき(スポーツレビュー)

技術開発を積極的に受け入れ、人工知能がスポーツにさらに貢献できるようにしましょう。スポーツとテクノロ...

AIoTの登場で人間の生活はどのように変化するのでしょうか?

AI と IoT という 2 つの優れたテクノロジーが融合すると、モノのインターネットの人工知能 ...

2020 年のトップ 10 テクノロジー トレンド

変化だけが唯一不変です。これは私たちの職業生活にも当てはまります。最近はテクノロジーが非常に急速に発...

人工知能技術の応用方向

[[395149]]人工知能を学ぶことで何ができるのでしょうか?詳しくご紹介します。 1. 製造業ス...

...

マインドタイピングがネイチャーの表紙に登場! 99%以上の正確さで1分間に90文字を書く

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

UdeskブランドアップグレードWofeng TechnologyはAIコア技術を深化させ、5つの主要製品ラインでトップ1または2戦略を全面的に推進

6月9日、「新AI、新企業サービス、新旅」Wofeng Technologyブランドアップグレードメ...

人工知能タスクに知っておくべき 11 個の Python ライブラリ

[[399295]]この記事はWeChatのパブリックアカウント「Python Society」から...