ChatGPTを超える最初のオープンソースモデルが登場?ネットユーザーはそれを信じない

ChatGPTを超える最初のオープンソースモデルが登場?ネットユーザーはそれを信じない

大型モデルが人気となり、毎日さまざまな「ビッグ」ニュースを目にするようになりました。

写真

今日、もう一つ大きなニュースがあります。新しくオープンソースになった大規模モデルが ChatGPT を上回りました。

それは正確には何ですか?

OpenLLM は、極めて小規模で多様性に富んだ高品質のマルチターン会話データセットに基づいて微調整されたオープンソース言語モデルのファミリーです。

過去 2 日間で、著者らはこの一連のモデルを更新し、OpenChat モデルが AlpacaEval で 80.9% の勝率を達成し、Vicuna GPT-4 評価ではパフォーマンスが ChatGPT の 105% に達したことを発表しました。

写真

つまり、上記の Twitter スクリーンショットでは、2 人のブロガーが主張するオープンソース モデルが ChatGPT/GPT-3.5 を上回っています。

OpenLLM は、LLaMA オープンソース モデルに基づくモデルを備えており、わずか 6,000 個の GPT4 ダイアログのデータセットで微調整され、非常に優れた結果が得られています。

更新されたモデルとレビュー結果は次のとおりです。

  • OpenChat: LLaMA-13B に基づくと、コンテキストの長さは 2048 です。
  • Vicuna GPT-4評価でChatGPTスコアの105.7%を達成。
  • AlpacaEvalで勝率80.9%を達成しました。
  • OpenChat-8192: LLaMA-13B に基づいており、コンテキストの長さが 8192 に拡張されています。
  • Vicuna GPT-4評価でChatGPTスコアの106.6%を達成。
  • AlpacaEvalで勝率79.5%を達成しました。

つまり、どちらのモデルも Vicuna GPT-4 評価リストで ChatGPT を上回りました。

しかし、このレビュー+宣伝という手法は、すべての人に認知されているわけではないようです。

ネットユーザー:誇張

Twitterでの議論では、一部のネットユーザーがこれは誇張だと指摘した。

写真

この「ビッグ」ニュースが発表されると、ビクーニャの関係者もすぐに反応した。

実際、Vicuna ベンチマークは廃止され、より高度な MT-bench ベンチマークが採用されています。このベンチマークは、より困難なタスクでテストされ、gpt4 評価のバイアスと制限に対処します。

MT-benchでは、OpenChatのパフォーマンスはwizardlm-13bと同様です。つまり、オープンソース モデルと GPT-3.5 の間にはまだ一定のギャップが存在します。これはまさに MT-bench が強調していることです。オープンソース モデルは完璧ではありませんが、これによりチャットボットの評価が向上します。

写真

写真

先日、Machine Heart さんが「アルパカたちはどこまで来たのか?」というコンテンツを報告しました。研究によれば、最高のものは GPT-4 のパフォーマンスの 68% を達成できる」とされており、オープンソース モデルのパフォーマンスも評価しています。

また、この評価では、どの評価においても、最良モデルの平均パフォーマンスは ChatGPT の 83%、GPT-4 の 68% に達することが示されており、このギャップを縮めるには、より優れたベースモデルと命令チューニング データをさらに構築する必要があることを示しています。

興味のある読者は原文を確認してください。

<<:  大規模言語モデルと知識グラフに関する共同研究のレビュー:2つの相補的な技術的利点

>>:  大きな言語モデルに目を向けると、その画像認識性能は CLIP を超えています。スタンフォードのよ​​うな新しい方法では、マルチモーダル事前トレーニングは不要である

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能の時代では、次の7つの重要な要素を念頭に置く必要があります

政府は、他の経済的、社会的進歩と同様に、AI とデータの競争力を重視すべきです。研究への投資や技術リ...

450、バックトラッキング アルゴリズムとは何ですか? 一度見れば理解できますが、実際に書いてみると失敗します。

バックトラッキングアルゴリズムとは何ですか? Baidu 百科事典では、バックトラッキング アルゴリ...

運転教習業界にも「AI」の波が吹き荒れる、普及規模に注目

[[422314]]近年、都市化と道路交通建設の加速により、自動車旅行の需要が継続的に増加しており、...

スマート教育を開発することの価値は何でしょうか? 5GとAIが重要な役割を果たす

国内の感染予防・抑制状況が基本的に安定してきたため、各地で大学や小中学校などで「授業再開」が実施され...

機械学習に必須の Python ライブラリ トップ 10

[51CTO.com クイック翻訳] 現在、Python は人気があり広く使用されているプログラミ...

...

Alimama は曲率空間学習フレームワークと連合学習ソリューションをオープンソース化し、共通の進歩のために AI 技術を一般に公開します。

9月15日、Alimamaは、曲率空間学習フレームワークと連合学習ソリューションという2つのAI技...

サービス最適化における人工知能の利点と欠点は何ですか?

AI は、複雑なデータセットを迅速に解析し、そのデータに基づいて洞察を生成することで、企業が IT...

...

ジェネレーティブAIは伝統的な医師と患者の関係を破壊している

「医者はいつも正しい」という考えが何十年も続いた後、伝統的な医師と患者の関係は重大な岐路に立たされて...

大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる

「大きなモデルがベンチマークによって台無しにされないようにしてください。」これは、中国人民大学情報学...

Sitechi スマートオペレーションプラットフォームがスマートシティの求心力を生み出す

デジタル トレントは、さまざまな新興テクノロジーが成熟し、新しいビジネスや新しいアプリケーションが出...

すべての最大共通部分列を見つけるためのアルゴリズムの実装

1. LCS分析まず、サブシーケンスとは何でしょうか?定義は書きませんが、一目でわかるように例を挙げ...

収集する価値のあるAIツールメモ8つ

緊急時のメモとしても使える、コレクションする価値のあるAI写真を8枚シェアします。最初の RTF フ...