GPT-4はバードに追い抜かれても納得せず、最新モデルが市場に投入された

GPT-4はバードに追い抜かれても納得せず、最新モデルが市場に投入された

「ビッグモデル予選コンペティション」チャットボット アリーナの公式リストが更新されました:

Google Bard は GPT-4 を上回り、GPT-4 Turbo に次ぐ 2 位にランクされました。

しかし、多くのネットユーザーはこれに対して「不満」や「不公平」といった意見を表明した。

Google AIの責任者であるジェフ・ディーン氏は、Bardに新しい大型モデルであるGemini Proスケールが搭載されたことにより、そのパフォーマンスが大幅に向上したことを明らかにした。

これは、「予選ゲーム」でプレイするバードがインターネットに接続できることを意味します。

ネットユーザーの疑問は、次の点に集中している。

同じリーダーボードにオンラインとオフラインの大規模モデルを混在させると、非常に誤解を招きます。

ハギング・フェイスの「チーフ・アルパカ・オフィサー」オマール・サンセビエロ氏も次のように語った。

その場合、検索機能付きのMixtralもlmsysに送信できますか?

さまざまな疑問に直面して、Imsys は公式に回答し、次のように指摘しました。

  • アリーナのリーダーボードはリアルタイムなので、質問がある場合は、モデルを比較したり、アリーナ内で直接投票したりできます。
  • 投票データはオープンかつ透明であり、ユーザープロンプトの多様性と投票品質に関する研究と対応するデータセットがまもなく公開される予定です。

ネットユーザーが最も懸念している、バードに抜かれたGPT-4が非インターネット版であるという点について、イムシスは「リアルタイムデータへのアクセスがユーザー体験を向上させることができるなら、ランキングはそれを反映するだろう」と述べた。

彼はまた、OpenAI、Bing、Microsoft の幹部である Mikhail Parakhin に直接 @ を送り、GPT-4 のネットワーク バージョンや Bing Copilot の分野で喜んで参加すると述べました。

最新ニュースとしては、OpenAI の最新モデル gpt-4-0125-preview が現在アリーナに登場しており、ユーザーの投票を待っているところです。

Bard はどのようにして GPT-4 を上回ったのでしょうか?

Chatbot Arena は、カリフォルニア大学バークレー校の研究者が率いる Imsys (Large Model Systems Organization) によって作成された大規模モデルの権威あるリストです。

このランキングは匿名の 1V1battle 投票ルールを採用しており、Elo レーティング システムに基づいてランク付けされます。

具体的には、投票ページは以下のようになります。モデルAとモデルBはどちらも匿名です。ユーザーは複数の質問をした後、モデルの回答を評価します。選択肢は全部で4つあります。Aの方が良い、Bの方が良い、AとBは同じくらい良い、AもBも良くない、です。

なお、質疑応答の過程でモデルの身元が漏洩した場合、投票は無効となります。

現在のリストによると、アリーナには 56 個の大型モデルがあります。

これまで、GPT-4 は「はるかにリードする」スコアで長い間ランキングを独占していました。しかし、Bard の新バージョンがリリースされた後、GPT-4 の 2 つのバージョンを直接上回り、1 位の GPT-4 Turbo にわずか 34 ポイント差で 2 位に躍り出ました。

さらに詳しく言うと、同点のないモデル A 対 B のすべての対戦では、モデル A の勝利の割合は次のようになります。

各モデルのペアのヘッズアップマッチ(同点なし)の数は次のとおりです。

さらに、Chatbot Arena リーダーボードでは、ブートストラップ法を使用して、Elo レーティング推定値のランダム サンプルを 1,000 個実行し、信頼区間などを評価します。

単一モデルと他のすべてのモデルとの比較における平均勝率は次のとおりです。

ただし、アリーナのランキングはリアルタイムであることは注目に値します。バードは現在2位ですが、合計投票数は3,000票強しかありません。

それに比べて、GPT-4 Turbo は 30,000 票以上を獲得しており、上回った 2 つのバージョンは Bard よりも数倍多くの票を獲得しています。

GPT-4の最新バージョンが市場に投入されたので(ランキングはまだ更新されていませんが)、フォローアップの結果を待つ必要があります〜

参考リンク: https://twitter.com/lmsysorg/status/1752035632489300239.

<<:  AIGC教育産業パノラマレポート:AIティーチングアシスタントと家庭教師が現実のものとなり、学習マシンが新たな機会をもたらす

>>: 

ブログ    
ブログ    
ブログ    

推薦する

ハンドルとペダルがない?アップルは2025年までに自動運転車を発売する予定

スペインの新聞「ヴァングアルディア」によると、アップルは2025年にハンドルもペダルもない自動車を発...

人工知能は人類のより良い生活を可能にする

新世代人工知能の活発な発展は、科学技術革新と産業のアップグレードと変革の産業推進の焦点となり、経済社...

...

AIはディープフェイクの世界から人々を救うことができるのか

業界の専門家マイク・エルガンが、偽造における人工知能の役割について説明します。例えば、彼はこう語った...

1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

大きなモデルはすべてコンテキスト ウィンドウをロールアップしました。Llama -1 のときは、標準...

プログラマーのための上級書籍リスト: アルゴリズム

アルゴリズムの図解通常のアルゴリズムの本は、読む人を眠くさせ、理解不能で読みにくく、非常にイライラさ...

Nature: DeepMind の大規模モデルが 60 年前の数学的問題を突破、その解決法は人間の認識力を超える

Google DeepMind の最新の成果が再び Nature に掲載され、大規模なモデルを使用し...

...

...

メタヘッドセットが舌トラッキング機能を追加、ネットユーザー衝撃「理由は聞かないし、知りたくもない」

突然でしたね… Meta の MR ヘッドセットは舌を追跡できるようになりました。効果は次のようにな...

AI導入を成功させるために最も重要なスキル

実践により、人工知能 (AI) が適切に導入されなければ多くのリスクをもたらすことがわかっているため...

顔認証闇市場:実在人物認証ビデオは1セット100元、アプリで検証可能

「1セット100元で、身分証明書の表裏の写真、身分証明書を持っている写真、うなずいたり首を振ったり口...

...

...

このアリは写真を撮ることができます!プリンストン大学は、50万分の1の大きさに縮小されたミクロンレベルのカメラを開発した。

最近、プリンストン大学の研究者らは、世界初の高品質ミクロンスケール光学イメージングデバイス「ニューラ...