GPT-4 の王冠は落ちていません!クロード3アリーナの人間投票結果が発表されました: 3位のみ

GPT-4 の王冠は落ちていません!クロード3アリーナの人間投票結果が発表されました: 3位のみ

クロード 3 のアリーナ ランクがついに登場:

わずか 3 日間で 20,000 票が集まり、リストのトラフィックが前例のないレベルに達しました。

最終的に、Claude 3 の最強の「Big Cup」モデル Opus が 1233 点を獲得し、GPT-4-Turbo と競争できる最初のプレーヤーになりました。

「中」の Sonnet も、GPT-4 の 2 つの古いバージョンと同等で、かなり優れています。

写真

しかし、全体的には、GPT-4 シリーズが依然として優位に立っています。

クロード3号のパフォーマンスは宣伝されていたものとは少し違っていました。ネットユーザーは次のようにまとめている。

GPT-4 は依然として大規模モデルの王様です!

しかし、無料の「中」の Claude 3 (Sonnet) はさらにコストパフォーマンスに優れていました。

写真

アリーナの大型模型が公開、「新王者」は3位に

Claude 3 がリリースされたとき、公式の宣伝では、あらゆる面で GPT-4 を上回っているとされていましたが、それが GPT-4 のどのバージョンであるかについては言及されていませんでした。

写真

アリーナ リーダーボード (LMSYS チャットボット アリーナ リーダーボード) の最新アップデートにより、そのことが分かります。

詳細を見てみましょう。

1位は、昨年11月にOpenAIがリリースしたGPT-4 Turboです。

GPT-4-1106-プレビュー。

より強力かつ安価で、128,000 のコンテキストがあり、トレーニング データは 2021 年 9 月から 2023 年 4 月まで更新されます。

1位は今年1月にリリースされたGPT-4 Turboの最新バージョンです。

GPT-4-0125-プレビュー。

トレーニングデータはより広範囲にわたり、2023 年 12 月まで延長されます。

両者とも1251点を獲得しました。

次はクロード3号(トレーニングデータは2023年8月まで)です。

最も強力なバージョンである Opus のスコアは 1233 で、GPT-4 Turbo より 18 ポイント低い結果となりました。

写真

このギャップは比較するとそれほど大きくありません。結局のところ、下を見てください。

これは、GPT-4 の 2 つのバージョン (0314 と 0613) よりもそれぞれ 48 ポイントと 72 ポイント高い値です。

中程度のパフォーマンスの Claude 3 Sonnet は、GPT-4 の 2 つのバージョンの間で 6 位にランクされています。

しかし、0314版より5ポイント低いだけであり、一気に追い抜く可能性は大きい。

写真

したがって、一般的に、公式の宣伝には何ら問題はありません。すべての面で GPT-4 の旧バージョンを上回っていますが、GPT-4 Turbo からはまだ少し離れていますが、それほど遠くはありません。

——このリストの評価メカニズムなどから判断すると、その結果は業界でかなり認知されているようですね。

これは「Vicuna」の著者チームによって開始されました。

しかし、審査員は「ラマ」や GPT-4 ではなく、人間の好みに基づいています。

詳細には、2 つの匿名モデルにランダムに任意の質問をし、それぞれの回答を評価して、より良い回答に投票します。

写真

1 ラウンドで投票できない場合は、質問を続けることもできます。チャット中にモデルが誤って自分の身元を明らかにした場合、投票は無効になります。

特に、スコアリング ルールでは公平性を確保するために Elo メカニズムが使用されます (King of Glory をプレイしている友人はこれをよく知っています)。

たとえば、モデルが負けた場合、そのモデル自体が弱いため、スコアが必ずしも低くなるわけではありません。これは予想どおりです。

これまでのところ、このリストは非常に人気があり、世界中から73人のモデルがチャレンジに参加し、ネットユーザーから37万票以上を獲得しています。

同義千文がトップ10入り

クロード3号に加えて、好成績を収めた他の選手も見てみましょう。

まず最初に言及すべきは、Gemini Pro をベースにした Bard で、GPT-4Turbo と Claude 3 に次いで 4 位にランクされています。

写真

ちょっと意外とも言えるかもしれません。

ネットユーザーは冗談を言った。

Google は文字通りランキングに穴を開けてしまいました。

彼はすぐにジェフ・ディーンとディープマインドのトップをタグ付けした。「おい、もっと頑張れよ(王仔)」

写真

次に、Alitong Yi Qianwen(バージョン 1.5、先月リリース)についてお話しします。

このランキングではトップ10入りし、9位タイとなり、国内プレーヤーの中では最高の成績を収めました。

写真

他の国内プレーヤーに加え、Claude 2、Gemini Pro、GPT-3.5なども残しています。

完全なリスト: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
参考リンク: https://twitter.com/lmsysorg/status/1765774296000172289

<<:  AR/VRが製造業の自動化とロボット工学の発展を促進する方法

>>:  アルトマンの巨大な AI 帝国を深く探ります。核融合プラントから不死技術センターまで、その規模は驚異的です。

ブログ    
ブログ    
ブログ    

推薦する

陳丹奇と清華大学特別賞受賞学生が新たな成果を発表:Google BERTが提案したトレーニングルールを破る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

最高人民検察院は、虚偽訴訟の監視に人工知能とビッグデータを活用することを検討している。

虚偽の訴訟は、他人の正当な権利と利益を侵害するだけでなく、社会の健全性を著しく損ない、司法の公平性、...

絶対に対立なんかじゃない!短期的にはAIが人間に取って代わることができない5つの分野

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

ガートナー:2025年までにベンチャーキャピタル投資の75%がAIを活用して意思決定を行うようになる

海外メディアの報道によると、市場調査会社ガートナーは最近、投資家が人工知能やデータ分析技術をますます...

Capital One は NLP を使用して SMS 経由で顧客と潜在的な詐欺行為について話し合う

[[412098]] [51CTO.com クイック翻訳]キャピタル・ワンのモバイル、ウェブ、会話型...

...

機械学習の卒業生は就職に不安を感じ始めています!卒業生と企業のどちらがより厳しいでしょうか?

機械学習を専攻する学生も就職について不安を感じ始めているのでしょうか?昨日、あるネットユーザーがRe...

AIのデジタルシールド:インフラのサイバーセキュリティ戦略の強化

技術革新の時代において、人工知能 (AI) は変革の力として際立っています。パーソナライズされた推奨...

AIの第一人者ジェフ・ディーン氏がGoogleのAI事業を統括

Googleの人工知能事業のトップレベルで人事異動があった。19年間Googleに在籍してきた人工知...

...

...

ボストン・ダイナミクスの最新倉庫ロボットは1時間あたり800個のレンガを移動できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

教師なしニューラル機械翻訳: 単一言語コーパスのみを使用する

概要: ニューラル機械翻訳 (NMT) は最近、標準ベンチマークで大きな成功を収めていますが、大規模...

MITが「計算能力」に関する警告を発令:ディープラーニングは計算能力の限界に近づいている

ディープラーニングの人気は、基本的に人々の計算能力の追求によるものです。最近、MIT は警告を発しま...

最もわかりやすいAIチップレポート!才能とテクノロジーのトレンドがすべてここにあります

2010年以降、ビッグデータ産業の発展により、データ量は爆発的な増加傾向を示し、従来のコンピューティ...