現段階では、人工知能 (AI) が社会に与える影響に関する議論のほとんどは、信頼性、公平性、悪用される可能性など、AI システムの特定の特性に要約できます。問題は、多くの研究者が堅牢で信頼性の高いモデル評価を確立することがいかに難しいかを十分に理解していないことです。現在入手可能な評価キットの多くは、さまざまな領域で制限されています。 AIスタートアップのAnthropicは最近、公式ウェブサイトに「AIシステム評価の課題」と題した記事を掲載した。記事によると、彼らは AI システムをより深く理解するために、長い時間をかけて AI システムの評価を構築したとのことです。 記事アドレス: https://www.anthropic.com/index/evaluating-ai-systems この記事では主に以下の点について説明します。
多肢選択式評価の課題多肢選択式評価は単純に思えるかもしれませんが、そうではありません。この論文では、MMLU (Measuring Multitask Language Understanding) および BBQ (Bias Benchmark for QA) ベンチマークにおけるモデルの課題について説明します。 MMLUデータセット MMLU は、数学、歴史、法律などを網羅した 57 個の多肢選択式質問応答タスクを含む英語評価データセットです。現在、主流の LLM 評価データセットとなっています。精度が高ければ高いほど、モデルは強力になります。しかし、この論文では、MMLU の使用には 4 つの課題があることがわかりました。 1. MMLU は広く使用されているため、このような状況に遭遇することは避けられません。トレーニング中にモデルが MMLU データを組み込む方が簡単です。これは学生が試験を受ける前に問題を見るのと同じで、不正行為です。 2. 選択肢を(A)から(1)に変更したり、選択肢と回答の間に余分なスペースを追加したりするなど、単純な書式変更に対する感受性が高く、評価の精度が約5%変動する可能性があります。 3. 一部の開発者は、少量学習や思考連鎖推論など、MMLU スコアを向上させるための手法に焦点を当てています。したがって、複数の研究室間で MMLU スコアを比較する際には、細心の注意を払う必要があります。 4. MMLU は慎重に校正されていない可能性があります。一部の研究者は、MMLU に誤ったラベルや回答できない質問の例を発見しました。 上で概説した問題があるため、この単純で標準化された評価を行う前に、ある程度の判断と思考を行う必要があります。この論文では、MMLU の使用時に遭遇する課題が、他の同様の多肢選択式評価にも一般的に当てはまることを示しています。 バーベキュー 複数選択式の評価では、AI の危険性も測定できます。具体的には、モデルにおけるこれらの害を測定するために、クロード、人類学の研究者たちは、集団に対するモデルの偏りを評価するための一般的なベンチマークである BBQ ベンチマークを使用しました。このベンチマークをいくつかの同様の評価と比較した結果、BBQ は社会的偏見を測る優れた指標であると確信しました。その作業には数か月かかりました。 この記事は、BBQ の実施が予想以上に難しいことを示唆しています。 1 つ目は、BBQ のオープン ソース実装が利用できなかったため、Anthropic の優秀なエンジニアが 1 週間かけて実装と評価テストを行いました。 MMLU の精度評価とは異なり、BBQ のバイアス スコアを定義、計算、解釈するには、ニュアンスと経験が必要です。 BBQ バイアス スコアの範囲は -1 から 1 です。1 は有意なステレオタイプ バイアス、0 はバイアスなし、-1 は有意なカウンターステレオタイプ バイアスを示します。 BBQ を実装した後、一部のモデルのバイアス スコアが 0 になったことが論文で判明しました。このことから研究者は楽観的になり、バイアスのあるモデル出力の削減に進展があったことが示されました。 第三者評価フレームワーク最近はサードパーティによる評価キットの開発も活発化しています。これまでに、Anthropic は BIG-bench とスタンフォード大学の HELM (言語モデルの総合的評価) の 2 つのプロジェクトに参加しました。第三者による評価は有用であるように思われますが、どちらのプログラムも新たな課題に直面しています。 ビッグベンチ BIG-bench には、科学から社会的推論まで幅広いトピックを網羅し、450 人以上の研究者によって実施された 204 の評価が含まれています。 Anthropic 社は、このベンチマークを使用する際にいくつかの課題に直面し、BIG-bench のインストールに多くの時間を費やしたと述べています。 BIG-bench は MMLU のようなプラグアンドプレイではありません。BBQ を使用する場合よりも実装にさらに多くの労力がかかります。 BIG-bench は効果的に拡張できず、204 の評価をすべて完了するのは非常に困難です。したがって、使用されているインフラストラクチャで適切に動作するように書き直す必要があり、これは膨大な作業になります。 さらに、実装の過程で、評価にいくつかのバグがあり、使用するのが非常に不便であることが判明したため、Anthropic の研究者はこの実験の後にそれを放棄しました。 HELM: 一連の評価のトップダウン計画 BIG-bench は「ボトムアップ」の取り組みであり、誰でも任意のタスクを提出することができ、その後、専門のオーガナイザーのグループによる限定的なレビューが行われます。一方、HELM は「トップダウン」アプローチを採用しており、専門家がモデルの評価に使用するタスクを決定します。 具体的には、HELM は、精度、堅牢性、公平性などの標準的なメトリックを使用して、推論シナリオや誤った情報を含むシナリオを含む複数のシナリオでモデルを評価します。 Anthropic は、HELM 開発者にモデルのベンチマークを実行するための API アクセスを提供します。 BIG-bench と比較して、HELM には 2 つの利点があります。1) 大規模なエンジニアリング作業が不要、2) 専門家に依頼して特定の高品質な評価を選択して解釈できる。 ただし、HELM にはいくつかの課題もあります。他のモデルを評価するために有効な方法が、Anthropic のモデルには有効でない可能性があり、その逆も同様です。たとえば、Anthropic の Claude シリーズのモデルは、Human/Assistant 形式と呼ばれる特定のテキスト形式に従うようにトレーニングされています。 Anthropic は、社内でモデルを評価する際にこの特定の形式に従います。この形式に従わないと、クロードは時々異常な応答をし、標準的な評価基準の結果の信頼性が低下します。 さらに、HELM の完了には長い時間がかかり、新しいモデルの評価には数か月かかる場合があり、外部の関係者との調整とコミュニケーションが必要になります。 人工知能システムは、オープンかつダイナミックな方法で人々と対話するように設計されているので、実際のアプリケーションに近い方法でモデルを評価するにはどうすればよいでしょうか。 クラウドソーシングによるA/Bテスト現在、この分野では主に(ただし、排他的ではない)基本的なタイプの人間による評価、つまりクラウドソーシング プラットフォームでの A/B テストに依存しています。このテストでは、人々が 2 つのモデルと自由形式の会話を行い、モデル A または B からの応答のどちらがより有益か、より有害でないかを選択し、その有益性または無害性に基づいてモデルをランク付けします。この評価方法には、実際の設定に対応し、さまざまなモデルをランク付けできるという利点があります。 ただし、この評価方法にはいくつかの制限があり、実験の実行には費用と時間がかかります。 まず、このアプローチでは、サードパーティのクラウドソーシング プラットフォームと連携して料金を支払い、モデル用のカスタム Web インターフェイスを構築し、A/B テスター向けの詳細な手順を設計し、結果データを分析して保存し、クラウドソーサーを雇う際の倫理的な課題に対処する必要があります。 無害なテストの場合でも、実験は人々を有害な出力にさらすリスクを伴います。人間による評価の結果は、人間の評価者の創造性、モチベーション、テスト対象システムの潜在的な欠陥を特定する能力のレベルなど、人間の評価者の特性によって大きく異なる場合もあります。 さらに、有用性と無害性の間には本質的な緊張関係が存在します。 「申し訳ありませんが、お手伝いできません」などの役に立たない応答を提供することで、システムの害を軽減できます。 役に立つことと無害であることの適切なバランスとはどのようなものでしょうか?モデルが十分に有用で無害であることを示す指標値は何ですか?多くの疑問は、その分野の研究者が答えを見つけるためにさらに研究を重ねることを必要とします。 詳細については、元の記事を参照してください。 |
>>: OpenAIの初の開発者会議が事前に「公開」され、新しいChatGPTプロトタイプGizmoが公開された
State of Report は今年で 6 年目を迎え、人工知能分野の風向計となっています。業界お...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
マイクロソフトは7月27日、NaturalSpeech2という音声モデルを発表しました。このモデルは...
自転車が「自力で歩ける」ようになるのはいつでしょうか? [[404743]]自転車は劣駆動システムで...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
英国の「ガーディアン」ウェブサイトは、この新しい研究所を設立した理由は、欧州原子核研究機構を設立した...
[[418851]] [51CTO.com クイック翻訳]非常に複雑な技術的アプリケーションで A...
AI がビジネスの世界に導入されたとき、AI は顧客体験に革命をもたらすなど、顧客のニーズをよりよ...
過去 1 年間で、50 社を超える Web 3 メタバース企業にインタビューを行ってきました。今日の...
情報の海の中で、価値ある洞察を見つけることが重要です。最新の情報管理は、高度なテクノロジーと革新的な...
科学技術の継続的な革新により、より多くの新しいインテリジェント製品が開発され、さまざまな業界で使用さ...