スタンフォード大学の最新LLMランキングが発表されました!自社のアルパカが最下位、中国チームのウィザードLMオープンソースが1位、GPT-4とクロードが1位と2位となった。

スタンフォード大学の最新LLMランキングが発表されました!自社のアルパカが最下位、中国チームのウィザードLMオープンソースが1位、GPT-4とクロードが1位と2位となった。

少し前、カリフォルニア大学バークレー校が主催する「LLM予選コンペティション」が業界で大きな注目を集めました。

さまざまなオープンソースモデルに加えて、GPT-4やPaLM 2などの「クローズドソース」モデルも多数存在し、「準中国語」ランキングリストさえあります。

最近、スタンフォード大学のチームも LLM 自動評価システムである AlpacaEval と、それに対応する AlpacaEval リーダーボードをリリースしました。

このスタンフォードのランキングでは、GPT-4 が依然として 95% を超える勝率で絶対的なリードを保ち、1 位を獲得しました。

これに続いてClaudeとChatGPTが続き、どちらも勝率は80%を超えています。その中で、Claude は 3% 未満の差で 2 位を獲得し、ChatGPT は 3 位にランクされました。

第4位は、予選ラウンドの新人であるMicrosoft中国チームがリリースしたWizardLMでした。

カリフォルニア大学バークレー校のビクーニャは引き続き安定した成績を残し、勝率70%以上で6位にランクインした。

それに比べて、スタンフォード大学のアルパカは16位にしかランクされていません...

実際、チームはオリジナルのアルパカの発売以来、大幅な改善を遂げており、勝率は 26% から 44% に増加しましたが、表彰台にはまだまだ遠い状況です。

これに対して、著者の一人は「私たちは何か間違ったことをしたのでしょうか?」と不満を表明した。

AlpacaEval: 使いやすく、高速で、低コスト、人間による注釈で検証済み

AlpacaEval は AlpacaFarm と Aviary を組み合わせたものです。

一方では AlpacaFarm と同じコード (キャッシュ/シャッフル/ハイパーパラメータ) を使用し、他方では Aviary に似たソートヒントを使用します。

同時に、Aviary のプロンプトは、より長い出力に偏らないように変更されました。

チームは、AlpacaEval が優れた結果を示したと述べています。

  • 人間の投票の大多数との一貫性は、一人の人間の注釈者よりも高い
  • 勝率は人間による注釈と高い相関関係にある(0.94)
  • lmsysベンチマークと比較して大幅な改善(63%から69%へ)

  • 勝率

モデルの出力は、各命令において text-davinci-003 (参照テ​​キスト) よりも一定の割合で優れています。

具体的には、まず AlpacaEval データセットから各命令における期待モデルの出力ペアを収集し、各出力を同じ命令における参照モデル (text-davinci-003) の出力とペアにしました。

これらの出力は自動評価者に同時に送られ、どちらが優れているか(つまり、評価者の好み)が判断されます。

最後に、データセット内のすべての命令の優先順位を平均して、text-davinci-003 に対するモデルの勝率を取得します。 2 つのモデルが同点の場合、半分の優先順位とみなされます。

論文アドレス: https://arxiv.org/pdf/2305.14387.pdf

  • 標準誤差

勝率の標準誤差(N-1 で正規化)、つまりさまざまな指示に対する平均の好み。

異なる評価者の比較

チームは、収集された 2.5K の手動注釈 (各指示には平均 4 つの手動注釈が含まれています) と比較することにより、AlpacaEval データセット上のさまざまな自動注釈手順を評価しました。

以下は、スタンフォード評価ツール (alpaca_eval_gpt4)、以前の自動評価ツール (alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4)、人間 (humans)、およびさまざまなベースライン モデル (gpt4、claude、text_davinci_003、guanaco_33b、chatgpt) のテスト結果です。

  • 人間の合意: 注釈者間の合意と、相互注釈セット内の人間の多数決

単一の人間の注釈者 (表の人間の行) と大多数の間の一致を推定するには、まず単一の注釈を選択し、それが他の 3 つの注釈のモードを予測する際の精度を計算する必要があります。

次に、4 つの注釈と 650 の指示すべてにわたって精度を平均化することによって、つまり、期待される 1 つを除外した一致 (人間とサンプルの場合) を計算することによって、人間の一致が得られます。モードが一意でない場合は、モードの 1 つをランダムに選択します。

自動タグ付けでは、最終結果を比較できるようにまったく同じ計算を実行します。

  • 価格: 1,000 注釈あたりの平均価格

人間の場合、これはクラウドワーカーにこれらの注釈付けを依頼する対価です(1時間あたり18ドル)。価格がコールアウトの計算に使用されるマシン (Guanaco など) によって異なる場合は、空白のままにします。

  • 時間: 1000 個の注釈を計算するのに必要な平均時間

人間の場合、これは各クラウドワーカーが 1,000 個の例に注釈を付けるのにかかる平均時間です。

自動注釈機能の場合、これは注釈の実行に必要な平均時間です。これは、さまざまなユーザーの API 制限とクラスターが処理するリクエストの数によって異なる可能性があることに注意してください。

最後に、自動レビュー プロセスをさらに改善するために、チームは以下をリリースしました。

  • 簡単にカスタマイズできるプロセス
  • モデルと自動評価者のリーダーボード
  • 自動評価ツールを分析するためのツールキット
  • 18K の人間による注釈
  • 2K ヒトクロスラベリング

制限

AlpacaEval は便利な比較モデルを提供しますが、包括的なモデル機能評価システムではありません。その制限は次のようにまとめられます。

  • 説明は比較的簡単です
  • 事実よりもスタイルで評価されるかもしれない
  • モデルが引き起こす可能性のある害を測定していない

<<:  ルカンの弟子の超詳細なメモが公開され、メタワールドモデルが初公開!最初の「ヒューマノイド」モデルはどのようにして生まれたのでしょうか?

>>:  テクノロジーはどのようにして人々を怠惰にするのでしょうか?

ブログ    
ブログ    

推薦する

予知保全: 畳み込みニューラル ネットワーク (CNN) を使用したセンサー障害の検出

[[266977]]機械学習では、予知保全のトピックが時間の経過とともにますます人気が高まっています...

よく使われる8つのソートアルゴリズム - Javaコード実装

1. バブルソート改良版: 2. 選択ソート3. 挿入ソート4. シェルソート5. クイックソート6...

速報、劉強東が核爆弾を投げる!宅配便は早く消えます!

本当に信じられません、この時代の変化のスピードは想像を絶します!革新!革新!再びイノベーション!次か...

DeepMind の巨額損失の背後で、今日の AI は正しい方向を選んだのでしょうか?

DeepMind は研究に重点を置く世界最大の AI 企業かもしれないが、過去 3 年間の損失は ...

AI Factory がコンセプトから産業化まで迅速かつ安全に移行する方法

[[374390]]人工知能 (AI) は、組織によって競争上の優位性を獲得するための重要なテクノロ...

「バーチャル老黄」はあなたを騙しましたが、夏玉氷の手に触れることができますか?

昨年のNVIDIAのGTCで「Virtual Huang」はどのようにして作られたのでしょうか? ブ...

マイクロソフトの社内文書が公開:パノス・パナイ氏が退社後、WindowsとSurfaceの将来について説明

マイクロソフトは9月21日午前1時、ニューヨーク市でSurfaceの新製品発表会を開催する。海外テク...

なぜスマートグリッドはエネルギーの未来なのでしょうか?

要約すると、集中型電力ネットワークは、一日のどの時間でも過負荷にならない安定性を確保するために、特定...

2020年のサイバーセキュリティの転換点: 人工知能

先日終了したRSAC2020カンファレンスのテーマは「ヒューマンファクター」でした。業界では、この重...

死角なしの360度!カリフォルニア大学バークレー校、中国で3DHMフレームワークをリリース:1枚の写真であらゆるビデオアクションを模倣可能

任意のポーズの写真を入力し、写真の人物に「指定された動画」の動きを真似してもらうのは簡単ではありませ...

人工知能はどのような通信分野に応用されていますか?

1. 異常なネットワークトラフィックの検出コンピュータネットワークは現代人の生活に欠かせないもので...

ChatGPTがチップ設計に力強く参加します!専門的なハードウェア記述言語を学ぶ必要はなく、人間の言語を話すだけでよい

CPU 開発における大きな問題は、ChatGPT とのチャットで解決できるでしょうか?ニューヨーク州...

海外メディア:ウルトラマンのOpenAIへの復帰は主にチェスキー氏とナデラ氏の支援にかかっている

12月25日のニュース、シリコンバレーのテクノロジー企業の幹部たちは理解しにくい人々の集まりだ。彼ら...

AI応用分野トップ10: AIはかつてないほど優れている

1956 年のダートマス会議で AI が提案されて以来、AI 研究はいくつかの浮き沈みを経験してきま...

マイクロサービスにおける電流制限ロジックとアルゴリズム

[[341117]]この記事はWeChatの公開アカウント「Invincible Coder」から転...