少し前、カリフォルニア大学バークレー校が主催する「LLM予選コンペティション」が業界で大きな注目を集めました。 さまざまなオープンソースモデルに加えて、GPT-4やPaLM 2などの「クローズドソース」モデルも多数存在し、「準中国語」ランキングリストさえあります。 最近、スタンフォード大学のチームも LLM 自動評価システムである AlpacaEval と、それに対応する AlpacaEval リーダーボードをリリースしました。 このスタンフォードのランキングでは、GPT-4 が依然として 95% を超える勝率で絶対的なリードを保ち、1 位を獲得しました。 これに続いてClaudeとChatGPTが続き、どちらも勝率は80%を超えています。その中で、Claude は 3% 未満の差で 2 位を獲得し、ChatGPT は 3 位にランクされました。 第4位は、予選ラウンドの新人であるMicrosoft中国チームがリリースしたWizardLMでした。 カリフォルニア大学バークレー校のビクーニャは引き続き安定した成績を残し、勝率70%以上で6位にランクインした。 それに比べて、スタンフォード大学のアルパカは16位にしかランクされていません... 実際、チームはオリジナルのアルパカの発売以来、大幅な改善を遂げており、勝率は 26% から 44% に増加しましたが、表彰台にはまだまだ遠い状況です。 これに対して、著者の一人は「私たちは何か間違ったことをしたのでしょうか?」と不満を表明した。 AlpacaEval: 使いやすく、高速で、低コスト、人間による注釈で検証済みAlpacaEval は AlpacaFarm と Aviary を組み合わせたものです。 一方では AlpacaFarm と同じコード (キャッシュ/シャッフル/ハイパーパラメータ) を使用し、他方では Aviary に似たソートヒントを使用します。 同時に、Aviary のプロンプトは、より長い出力に偏らないように変更されました。 チームは、AlpacaEval が優れた結果を示したと述べています。
モデルの出力は、各命令において text-davinci-003 (参照テキスト) よりも一定の割合で優れています。 具体的には、まず AlpacaEval データセットから各命令における期待モデルの出力ペアを収集し、各出力を同じ命令における参照モデル (text-davinci-003) の出力とペアにしました。 これらの出力は自動評価者に同時に送られ、どちらが優れているか(つまり、評価者の好み)が判断されます。 最後に、データセット内のすべての命令の優先順位を平均して、text-davinci-003 に対するモデルの勝率を取得します。 2 つのモデルが同点の場合、半分の優先順位とみなされます。 論文アドレス: https://arxiv.org/pdf/2305.14387.pdf
勝率の標準誤差(N-1 で正規化)、つまりさまざまな指示に対する平均の好み。 異なる評価者の比較チームは、収集された 2.5K の手動注釈 (各指示には平均 4 つの手動注釈が含まれています) と比較することにより、AlpacaEval データセット上のさまざまな自動注釈手順を評価しました。 以下は、スタンフォード評価ツール (alpaca_eval_gpt4)、以前の自動評価ツール (alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4)、人間 (humans)、およびさまざまなベースライン モデル (gpt4、claude、text_davinci_003、guanaco_33b、chatgpt) のテスト結果です。
単一の人間の注釈者 (表の人間の行) と大多数の間の一致を推定するには、まず単一の注釈を選択し、それが他の 3 つの注釈のモードを予測する際の精度を計算する必要があります。 次に、4 つの注釈と 650 の指示すべてにわたって精度を平均化することによって、つまり、期待される 1 つを除外した一致 (人間とサンプルの場合) を計算することによって、人間の一致が得られます。モードが一意でない場合は、モードの 1 つをランダムに選択します。 自動タグ付けでは、最終結果を比較できるようにまったく同じ計算を実行します。
人間の場合、これはクラウドワーカーにこれらの注釈付けを依頼する対価です(1時間あたり18ドル)。価格がコールアウトの計算に使用されるマシン (Guanaco など) によって異なる場合は、空白のままにします。
人間の場合、これは各クラウドワーカーが 1,000 個の例に注釈を付けるのにかかる平均時間です。 自動注釈機能の場合、これは注釈の実行に必要な平均時間です。これは、さまざまなユーザーの API 制限とクラスターが処理するリクエストの数によって異なる可能性があることに注意してください。 最後に、自動レビュー プロセスをさらに改善するために、チームは以下をリリースしました。
制限AlpacaEval は便利な比較モデルを提供しますが、包括的なモデル機能評価システムではありません。その制限は次のようにまとめられます。
|
<<: ルカンの弟子の超詳細なメモが公開され、メタワールドモデルが初公開!最初の「ヒューマノイド」モデルはどのようにして生まれたのでしょうか?
>>: テクノロジーはどのようにして人々を怠惰にするのでしょうか?
マスク氏はツイッターで新たな計画を発表した。音声通話とビデオ通話を提供します。電話番号は必要ありませ...
GPT-4 などの大規模言語モデル (LLM) は多くの推論タスクで優れたパフォーマンスを発揮します...
[[329518]]企業が損失を避けるために機械学習の博士号取得者にどれくらいの金額を要求すべきでし...
Meta は 9 月 4 日に、研究者がコンピューター ビジョン モデルのバイアスを確認するのに役立...
現在、中国ではデジタル革命が急速に進んでおり、デジタル変革は国内企業が課題に対処するための主な戦略と...
ソーシャルメディアFacebookの親会社Metaの主任人工知能研究者ヤン・ルカン氏は10月20日、...
[[271164]]人類史上初のプログラム可能なメモリスタ コンピュータが誕生しました。音声コマン...
人工汎用知能 (AGI) とは、人間のような認知能力を備え、さまざまな領域にわたって理解、学習、タ...
PyTorch と TensorFlow のどちらが優れているかという議論は、決して終わることはあ...
[[433830]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
2024 年までに、AI は企業で主流となり、クラウド サービス、セキュリティ、持続可能性も影響力を...
何をしたいのかを伝えるだけで、AI が自動的にコードを作成します。今、私たちはこの目標に一歩近づきま...