大規模モデルのスコアリングのためのベンチマークは信頼できるでしょうか? Anthropicは大きなレビューを出した

現段階では、人工知能 (AI) が社会に与える影響に関する議論のほとんどは、信頼性、公平性、悪用される可能性など、AI システムの特定の特性に要約できます。問題は、多くの研究者が堅牢で信頼性の高いモデル評価を確立することがいかに難しいかを十分に理解していないことです。現在入手可能な評価キットの多くは、さまざまな領域で制限されています。

AIスタートアップのAnthropicは最近、公式ウェブサイトに「AIシステム評価の課題」と題した記事を掲載した。記事によると、彼らは AI システムをより深く理解するために、長い時間をかけて AI システムの評価を構築したとのことです。

記事アドレス: https://www.anthropic.com/index/evaluating-ai-systems

この記事では主に以下の点について説明します。

複数選択評価。
BIG-bench や HELM などのサードパーティの評価フレームワークを活用します。
スタッフにモデルが有益か有害かを測定させます。
ドメイン専門家が関連する脅威のレッドチーム分析を実施します。
生成 AI を使用して評価方法を開発します。
非営利団体と協力して、モデルの害悪を監査します。

多肢選択式評価の課題

多肢選択式評価は単純に思えるかもしれませんが、そうではありません。この論文では、MMLU (Measuring Multitask Language Understanding) および BBQ (Bias Benchmark for QA) ベンチマークにおけるモデルの課題について説明します。

MMLUデータセット

MMLU は、数学、歴史、法律などを網羅した 57 個の多肢選択式質問応答タスクを含む英語評価データセットです。現在、主流の LLM 評価データセットとなっています。精度が高ければ高いほど、モデルは強力になります。しかし、この論文では、MMLU の使用には 4 つの課題があることがわかりました。

1. MMLU は広く使用されているため、このような状況に遭遇することは避けられません。トレーニング中にモデルが MMLU データを組み込む方が簡単です。これは学生が試験を受ける前に問題を見るのと同じで、不正行為です。

2. 選択肢を（A）から（1）に変更したり、選択肢と回答の間に余分なスペースを追加したりするなど、単純な書式変更に対する感受性が高く、評価の精度が約5％変動する可能性があります。

3. 一部の開発者は、少量学習や思考連鎖推論など、MMLU スコアを向上させるための手法に焦点を当てています。したがって、複数の研究室間で MMLU スコアを比較する際には、細心の注意を払う必要があります。

4. MMLU は慎重に校正されていない可能性があります。一部の研究者は、MMLU に誤ったラベルや回答できない質問の例を発見しました。

上で概説した問題があるため、この単純で標準化された評価を行う前に、ある程度の判断と思考を行う必要があります。この論文では、MMLU の使用時に遭遇する課題が、他の同様の多肢選択式評価にも一般的に当てはまることを示しています。

バーベキュー

複数選択式の評価では、AI の危険性も測定できます。具体的には、モデルにおけるこれらの害を測定するために、クロード、人類学の研究者たちは、集団に対するモデルの偏りを評価するための一般的なベンチマークである BBQ ベンチマークを使用しました。このベンチマークをいくつかの同様の評価と比較した結果、BBQ は社会的偏見を測る優れた指標であると確信しました。その作業には数か月かかりました。

この記事は、BBQ の実施が予想以上に難しいことを示唆しています。 1 つ目は、BBQ のオープンソース実装が利用できなかったため、Anthropic の優秀なエンジニアが 1 週間かけて実装と評価テストを行いました。 MMLU の精度評価とは異なり、BBQ のバイアススコアを定義、計算、解釈するには、ニュアンスと経験が必要です。

BBQ バイアススコアの範囲は -1 から 1 です。1 は有意なステレオタイプバイアス、0 はバイアスなし、-1 は有意なカウンターステレオタイプバイアスを示します。 BBQ を実装した後、一部のモデルのバイアススコアが 0 になったことが論文で判明しました。このことから研究者は楽観的になり、バイアスのあるモデル出力の削減に進展があったことが示されました。

第三者評価フレームワーク

最近はサードパーティによる評価キットの開発も活発化しています。これまでに、Anthropic は BIG-bench とスタンフォード大学の HELM (言語モデルの総合的評価) の 2 つのプロジェクトに参加しました。第三者による評価は有用であるように思われますが、どちらのプログラムも新たな課題に直面しています。

ビッグベンチ

BIG-bench には、科学から社会的推論まで幅広いトピックを網羅し、450 人以上の研究者によって実施された 204 の評価が含まれています。 Anthropic 社は、このベンチマークを使用する際にいくつかの課題に直面し、BIG-bench のインストールに多くの時間を費やしたと述べています。 BIG-bench は MMLU のようなプラグアンドプレイではありません。BBQ を使用する場合よりも実装にさらに多くの労力がかかります。

BIG-bench は効果的に拡張できず、204 の評価をすべて完了するのは非常に困難です。したがって、使用されているインフラストラクチャで適切に動作するように書き直す必要があり、これは膨大な作業になります。

さらに、実装の過程で、評価にいくつかのバグがあり、使用するのが非常に不便であることが判明したため、Anthropic の研究者はこの実験の後にそれを放棄しました。

HELM: 一連の評価のトップダウン計画

BIG-bench は「ボトムアップ」の取り組みであり、誰でも任意のタスクを提出することができ、その後、専門のオーガナイザーのグループによる限定的なレビューが行われます。一方、HELM は「トップダウン」アプローチを採用しており、専門家がモデルの評価に使用するタスクを決定します。

具体的には、HELM は、精度、堅牢性、公平性などの標準的なメトリックを使用して、推論シナリオや誤った情報を含むシナリオを含む複数のシナリオでモデルを評価します。 Anthropic は、HELM 開発者にモデルのベンチマークを実行するための API アクセスを提供します。

BIG-bench と比較して、HELM には 2 つの利点があります。1) 大規模なエンジニアリング作業が不要、2) 専門家に依頼して特定の高品質な評価を選択して解釈できる。

ただし、HELM にはいくつかの課題もあります。他のモデルを評価するために有効な方法が、Anthropic のモデルには有効でない可能性があり、その逆も同様です。たとえば、Anthropic の Claude シリーズのモデルは、Human/Assistant 形式と呼ばれる特定のテキスト形式に従うようにトレーニングされています。 Anthropic は、社内でモデルを評価する際にこの特定の形式に従います。この形式に従わないと、クロードは時々異常な応答をし、標準的な評価基準の結果の信頼性が低下します。

さらに、HELM の完了には長い時間がかかり、新しいモデルの評価には数か月かかる場合があり、外部の関係者との調整とコミュニケーションが必要になります。

人工知能システムは、オープンかつダイナミックな方法で人々と対話するように設計されているので、実際のアプリケーションに近い方法でモデルを評価するにはどうすればよいでしょうか。

クラウドソーシングによるA/Bテスト

現在、この分野では主に（ただし、排他的ではない）基本的なタイプの人間による評価、つまりクラウドソーシングプラットフォームでの A/B テストに依存しています。このテストでは、人々が 2 つのモデルと自由形式の会話を行い、モデル A または B からの応答のどちらがより有益か、より有害でないかを選択し、その有益性または無害性に基づいてモデルをランク付けします。この評価方法には、実際の設定に対応し、さまざまなモデルをランク付けできるという利点があります。

ただし、この評価方法にはいくつかの制限があり、実験の実行には費用と時間がかかります。

まず、このアプローチでは、サードパーティのクラウドソーシングプラットフォームと連携して料金を支払い、モデル用のカスタム Web インターフェイスを構築し、A/B テスター向けの詳細な手順を設計し、結果データを分析して保存し、クラウドソーサーを雇う際の倫理的な課題に対処する必要があります。

無害なテストの場合でも、実験は人々を有害な出力にさらすリスクを伴います。人間による評価の結果は、人間の評価者の創造性、モチベーション、テスト対象システムの潜在的な欠陥を特定する能力のレベルなど、人間の評価者の特性によって大きく異なる場合もあります。

さらに、有用性と無害性の間には本質的な緊張関係が存在します。「申し訳ありませんが、お手伝いできません」などの役に立たない応答を提供することで、システムの害を軽減できます。

役に立つことと無害であることの適切なバランスとはどのようなものでしょうか?モデルが十分に有用で無害であることを示す指標値は何ですか?多くの疑問は、その分野の研究者が答えを見つけるためにさらに研究を重ねることを必要とします。

詳細については、元の記事を参照してください。

<<:

>>: OpenAIの初の開発者会議が事前に「公開」され、新しいChatGPTプロトタイプGizmoが公開された

大規模モデルのスコアリングのためのベンチマークは信頼できるでしょうか? Anthropicは大きなレビューを出した

多肢選択式評価の課題

第三者評価フレームワーク

クラウドソーシングによるA/Bテスト

TSN タイムセンシティブネットワークテクノロジーの簡単な分析

科学者たちは人間のように「考える」ことができる人工知能を開発している

チューリング賞受賞者でAAAI次期会長がAIの今後10年を展望

400 万のトークンコンテキスト、推論がさらに 46% 加速されました。最新のオープンソースソリューションはMITの結果をアップグレードし、推論コストをさらに削減します

脳も学習を強化しています！「価値判断」は脳によって効率的にコード化され、ニューロンに公開される

OpenAIは利用ポリシーをひっそりと更新し、「軍事や戦争のための技術の使用を明示的に禁止する」という文言を削除した。

Pythonで完全な異常検出アルゴリズムをゼロから実装する

推薦する

OpenAI CLIPモデルポケット版、24MBでテキスト画像マッチングを実現、iPhoneでも実行可能

人工知能を使って手作業を置き換え、コストを削減し、効率を高めることは、まさに賢いことだ

人工知能は人間の生活水準をどのように向上させることができるのでしょうか?

産業用ロボットはセンサーなしでも動作できますか?

ニューラルネットワークはどのように学習するのでしょうか?

AES と RSA 暗号化アルゴリズムの違いと適用可能なシナリオの簡単な分析

AIデザイナー「ルバン」のコア技術が明らかに：1秒間に8,000枚のポスターをデザインする方法とは？

AIGCとアップグレードにより、PC販売は2024年に8%回復する可能性がある

「小学生」は荷物受け取りのためのFengchaoの顔スキャンシステムを解読できるのか？

最短経路問題の探究: ダイクストラのアルゴリズム