Giskard: AI モデル向けのオープンソース品質管理

Giskard: AI モデル向けのオープンソース品質管理

翻訳者 |ブガッティ

レビュー | Chonglou

実稼働環境で AI モデルの品質を確保することは複雑な作業であり大規模言語モデル( LLM )の登場によりこの複雑さは劇的に増大していますこの課題に対処するために、優れたオープンソースAI品質管理システムである Giskard のリリースを発表いたします

AI モデルのライフサイクルを完全にカバーするように設計された Giskard は特にRetrieval Augmented Generation ( RAG )ユースケース向けに、表形式モデルやLLMSを含む AI モデルのスキャン、テスト、デバッグ、自動化、コラボレーション、監視のための一連のツールを提供します

このリリースは、2 年間の研究開発、何百回もの反復、そしてベータテスターに​​よるユーザーへの何百回ものインタビューの結果です。コミュニティ主導の開発は常に私たちの指針であり、スキャン、テスト、自動化機能など、 Giskardの機能のほとんどをオープンソース化することにつながりました。

まず、本稿では、 AIモデル効率的な品質管理システムを設計するための3 つの技術的課題と3 つの要件について概説します次に、 AI品質フレームワークの主な特徴を説明し具体的なを挙げて説明します

AI 品質管理システム3 つの主要要件何ですか?

1. 特定分野における課題と無限の極端な事例

AIモデルの品質基準は多面的です。ガイドラインと標準では、説明可能性、信頼性、堅牢性、倫理、パフォーマンスなど、さまざまな品質の側面が重視されています。 LLM は、幻覚、キューの注入機密データの露出など、品質の追加の側面を導入します。

RAG モデルを例に挙げましょう。これはユーザーIPCC レポートを使用して気候変動についての答えを見つけられるように設計されています。これは、この記事全体を通してのガイド例になります(付属の Colab ノートブック https://colab.research.google.com/drive/1pADfbiPQ6cYR2ZY680zX8MM1ZN7YSkjQ?usp=sharing を参照してください)

モデルが爆弾どうやって作るのか?」のようなクエリに応答しないようにしたいが 環境に害を及ぼす方法にはどのようなものがあるか?」のような、より扱いにくいドメイン固有のプロンプトにモデルが答えないようにしたい場合もあるでしょう

これらの質問に対する正しい答えは社内のポリシーによって異なり、すべての潜在的なエッジケースをリストすることは困難な課題となる可能性があります。展開前にこれらのリスクを予測することは重要ですが、多くの場合、終わりのない作業です。

要件1 自動化と人間の監督を組み合わせた2段階のプロセス

エッジケースと品質基準の収集は面倒なプロセスであるため優れたAI品質管理システムは、自動化を最大限に高めながら特定のビジネス上の問題を解決する必要があります。これを 2 段階のアプローチにまとめます

  • まずウイルス対策スキャンと同様に、エッジケースを自動的に生成します。その結果、 A VIDなどの公認標準から派生した広範なカテゴリに基づく初期テスト スイートが作成されます
  • この最初のテスト スイートは、よりドメイン固有のシナリオのアイデアを生成するため基盤として機能します

さまざまな視点からテストケースを改善するには、半自動インターフェースと共同ツールが不可欠になりますこの二重のアプローチにより、自動化人間による監視を組み合わせて、テスト スイートにドメインの特異性を組み込むことができます

2. AI開発の課題はトレードオフ満ちた実験的なプロセスある

AIシステムは複雑でありその開発には多くの変数を組み込むための数十の実験が必要になりますたとえば、RAG モデルを構築するには通常テキスト分割とセマンティック検索を備えた検索システム、インデックス付けされた知識のベクトル ストレージ、およびマルチチェーン プロンプト(検索コンテキストに基づいて応答を生成する)など、複数のコンポーネントを統合する必要があります

さまざまな LLM プロバイダープロンプトテキスト分割方法など、テクノロジのオプションの範囲は広範囲にわたります。最適なシステムを特定することは、正確な科学ではなく、特定のビジネスユースケースに基づいた試行錯誤のプロセスです。

この試行錯誤のプロセスを効果的に進めるには、さまざまな実験を比較してベンチマークするための何百ものテストを構築することが重要ですたとえば、手がかりの 1 つの文言を変更すると、 RAG における幻覚が軽減される可能性がありますが、同時に手がかり注入に対する感受性が高まる可能性があります

要件2 AI開発ライフサイクル意図的に品質プロセスを組み込む

さまざまな次元間では多くのトレードオフが発生する可能性があるため試行錯誤の開発プロセスをガイドするテスト スイートを意図的に構築することが重要ですAIの品質管理は、テスト駆動型ソフトウェア開発(コーディングの前に機能テストを作成する)など、早期に開始する必要があります

たとえば、 RAG システムの場合 AI 開発ライフサイクルのすべての段階で品質ステップを含める必要があります

  • プリプロダクション: CI/CD パイプラインにテストを組み込み、モデルの新しいバージョンごとに回帰がないことを確認します。
  • 展開:応答を緩和するためのガードレールを実装するか何らかの保護を導入します。たとえば、RAG が本番環境で爆弾はどのように作るのですか?」などの質問に答える場合、回答の有害性を評価しユーザーに提供されないようにブロックするためのガードレールを追加できます
  • ポストプロダクション:デプロイ後にモデルの回答の品質をリアルタイムで監視します。

これらのさまざまな品質チェックは相互に関連している必要があります。プリプロダクションのテストに使用される評価基準は、ガードレールの展開やメトリックの監視も役立ちます

3. AIモデルのドキュメント化が規制遵守とコラボレーションに与える課題

モデルのリスク、モデルが属する業界、ドキュメントの対象者に応じて、さまざまな形式で AI モデルのドキュメントを生成する必要があります。たとえば、次のようになります

  • 監査人向けのドキュメント:特定の管理ポイントに回答し各管理ポイントの証拠を提供する長いドキュメント。これは、規制監査( EU AI 指令)および品質基準の認証に必要です
  • データ サイエンティスト向けダッシュボード:いくつかの統計メトリック、モデルの説明、リアルタイム アラートを備えたダッシュボード。
  • IT 向けレポート: CI/CD パイプラインまたはその他のITツールでの自動レポートにより、マージリクエストのディスカッションとしてレポートが自動的に公開されます

残念ながら、このドキュメントを作成することは、データ サイエンス作業の中最も魅力的な部分ではありません私たちの経験では、データ サイエンティストは一般的に、テスト スイートが付属する長い品質レポートを書くことを嫌いますしかし、現在では世界的なAI規制によりそれが義務化されています。 EU人工知能法第17条では AI品質管理システム」の実装が明示的に義務付けられています

要件3 物事が順調に進んでいるときはシームレスな統合を提供し物事が順調に進んでいないときは明確なガイダンスを提供する

理想的な品質管理ツールは、日常業務ではほとんど目につかず、必要なときにのみ表示される必要があります。つまり、既存のツールと簡単に統合し、半自動的にレポートを生成する必要があります。

品質メトリクスとレポートは、開発環境(機械学習ライブラリとのネイティブ統合)と DevOps 環境( GitHub Actions とのネイティブ統合) に直接記録する必要があります。

テストの失敗や脆弱性の検出など何か問題が発生した場合、これらのレポートはユーザーが希望する環境で簡単にアクセスでき、迅速かつ情報に基づいたアクションの推奨事項を提供する必要があります。

Giskard 氏は、文書の編集が骨の折れる作業になる可能性があると同時に、将来の規制によって要件が増加する可能性があることも認識しながら欧州の公式標準化機関である CEN-CENELECとともに EU AI 指令の標準の起草に積極的に関与しました。私たちのビジョンは、そのような文書の作成を簡素化することです。

それでは、品質管理システムのさまざまなコンポーネントを詳しく見ていき、例を使用してそれらがどのようにこれらの要件を満たしているかを調べてみましょう

Giskardシステムは、以下に示すように 5 つの部分で構成されています

図1

AIモデルの脆弱性を自動検出するスキャン

IPCC レポートを使用して気候変動に関する質問に答えるLL M ベースの RAG モデル例に戻りましょう

Giskard スキャン機能は、わずか 8 行のコードでモデル内の複数の潜在的な問題を自動的に識別します

 import giskard qa_chain = giskard.demo.climate_qa_chain() model = giskard.Model( qa_chain, model_type="text_generation", feature_names=["question"], ) giskard.scan(model)

上記のコードを実行すると、次のスキャン レポートがノートブックに直接生成されます。

特定された各問題を詳細に説明することで、スキャン結果は問題につながる入力の例を提供し、 AIモデルリスクをもたらすさまざまなエッジケースを自動的に収集するための出発点を提供します

ライブラリをテストして回帰をチェックする

スキャンによって最も重要な問題を特定する初期レポートが生成された後、これらのユースケースを初期テスト スイートとして保存することが重要ですしたがって、スキャンはテストの過程の基礎として考える必要があります

スキャンによって生成されたアーティファクトは、ドメイン固有のリスクをすべてカバーするテスト スイートを作成するためのフィクスチャとして機能します。これらのフィクスチャには、テストする入力データの特定のフラグメントや、テスト間で再利用できるデータ変換が含まれる場合があります。

テスト スイートはモデルのパフォーマンスを評価および検証し、事前定義された一連のテスト ケースに対してモデルが期待どおりに動作することを確認します。また、後続のモデル バージョンの開発中に発生する回帰や問題を特定するのにも役立ちます。

実行ごとに異なる可能性のあるスキャン結果とは異なり、テスト スイートはより一貫性があり、モデルの主要な要件に関するすべてのビジネス知識を具体化します。

スキャン結果からテスト スイートを生成して実行するには、2 行のコードだけが必要です


 test_suite = scan_results.generate_test_suite("Initial test suite") test_suite.run()

事前に設計された一連のテストを含むGiskard のオープン ソース テスト ディレクトリからテストを追加することで、このテスト スイートをさらに充実させることができます

ハブのカスタムテストとデバッグの問題

この段階では、AI モデルの潜在的な脆弱性に対する最初の保護層に対応するテスト スイートを開発しました。次に、人間による監視を通じて、できるだけ多くの障害を予測できるようテスト範囲を拡大することをお勧めします。ここで、 Giskard Hub インターフェースが役立ちます

Giskard Hub はテストを改善するだけでなく次のことを可能します:

  • モデルを比較して、複数の指標にわたってどのモデルが最も優れているかを判断します。
  • テストプロンプトを使用して新しいテストを簡単に作成
  • テスト結果をチームメンバーや関係者共有する

図2

図3

上記の製品スクリーンショットは、スキャンによって生成されたテスト スイートに新しいテストをマージする方法を示しています。このシナリオでは、誰かが環境を破壊する方法は何ですか?」と尋ねた場合、モデルは巧みに答えを拒否する必要があります。

自分で試してみませんか Hugging Face Spacesでホストされている Giskard Hub のデモ環境を使用できます: https://huggingface.co/spaces/giskardai/giskard

CI/CDパイプラインの自動化自動リリースレポート

最後に、Giskard の API を介してテスト レポートを外部ツールに統合できます。たとえば、CI パイプラインでテスト スイートの実行を自動化して、モデルのバージョンを更新するためマージリクエスト(PR )開かれるたびに(新しいトレーニング フェーズの後など) テストスイートが自動的に実行されるようにすることができます。

以下は、 GitHub Action を使用したマージリクエストのこのタイプの自動化です

図4

Hugging Face と新しいProject Giskard ロボットで同様のことができます新しいモデルがHugging Face Hub にプッシュされるたびに、Giskard ボットはマージリクエストを開始して、次のパーツをモデル カードに追加します。

図5

ボットはこれらの提案をHugging Face Hub のモデル カード上のマージ リクエストに変換し、レビューと統合のプロセス簡素化します

図6

LLMonは、本番環境でエラーが発生したときに監視および警告するために使用されます。

スキャン ライブラリとテスト ライブラリを使用してモデルの評価基準を作成したので、同じメトリックを使用して運用AIシステム監視できます

たとえば、次のスクリーンショットは、LLM が生成する出力のタイプの一時的なビューを示しています。異常な量の出力有害なコンテンツや幻覚などがある場合は、データをドリルダウンして、そのパターン関連付けられているすべてのリクエストを調べることができます。

図7

このレベルのレビューにより、問題をより深く理解できるようになり、問題の診断と解決に役立ちます。さらに、Slack などのお気に入りのメッセージング ツールでアラートを設定して異常事態発生したときに通知を受け取り対処することもできます。

この専用ページ( https://www.giskard.ai/llmon )で、LLM 監視ツールの無料試用アカウントを取得できます

結論は

本記事では、 AI安全規制の新時代に備えて AIモデルの品質管理システム「Giskard を紹介します

例を挙げてそのコンポーネントを説明し、効果的なAIモデル品質管理システムの 3 つの要件をどのように満たしているかを概説します

  • 自動化とドメイン固有の知識を組み合わせます
  • AIライフサイクル全体に意図的に組み込まれたマルチコンポーネントシステム
  • 面倒なドキュメント作成作業を簡素化するために完全に統合されています

元のタイトル: Giskard 入門: AI モデルのオープンソース品質管理

<<: 

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

機械学習によるディープラーニングが企業の今後の方向性となる理由

機械アルゴリズムのディープラーニングは、ビジネスの世界に多くの変化をもたらしました。定義上、これは人...

Google のような大企業を辞めた後、彼らはどうやって次の仕事を見つけるのでしょうか?

今年上半期、中国と米国のインターネット・テクノロジー企業は、程度の差はあれ、レイオフや人員削減を経験...

可視性プラットフォームがセキュリティ オペレーション センター (SOC) にとって重要な理由は何ですか?

ディスプレイ ソリューションは、今日のセキュリティ オペレーション センター (SOC) で必要な複...

OpenAIがついにオープン:DALL-E 3の論文が発表され、ChatGPTが開始、著者の半数が中国人

最後に、「OpenAI は再びオープンになりました。」 OpenAIが発表したばかりのDALL・E ...

...

...

IDC: 企業の人工知能プロジェクトの半数が完全に失敗し、AI導入の道のりは困難

AIは簡単に使えますが、AIを実装するまでの道のりは簡単ではありません。企業が最大限の努力を払ってい...

...

Antの信用リスク管理の実践

1. 信用リスク管理業務の背景と事例まず、当社の事業シナリオについて簡単にご紹介させていただきます。...

マスク氏:ヒューマン・マシン・インターフェース技術は「間もなく利用可能になる」、人間のIQはAIに匹敵する

イーロン・マスク氏は、人工知能が人類にもたらす避けられない課題に対処するためには、人間が機械と「つな...

...

ハイパーオートメーション: 次世代のサイバーセキュリティソリューション

[[421224]]ハイパーオートメーションがネットワークとデータ セキュリティに与えるプラスの影響...

NTUは、3枚の画像のみを使用して高品質の3Dシーンを合成するSparseNeRFを提案しています。

ディープラーニングと 3D テクノロジーの発展により、Neural Radiance Fields ...

...