ChatGPTを超える最初のオープンソースモデルが登場?ネットユーザーはそれを信じない

ChatGPTを超える最初のオープンソースモデルが登場?ネットユーザーはそれを信じない

大型モデルが人気となり、毎日さまざまな「ビッグ」ニュースを目にするようになりました。

写真

今日、もう一つ大きなニュースがあります。新しくオープンソースになった大規模モデルが ChatGPT を上回りました。

それは正確には何ですか?

OpenLLM は、極めて小規模で多様性に富んだ高品質のマルチターン会話データセットに基づいて微調整されたオープンソース言語モデルのファミリーです。

過去 2 日間で、著者らはこの一連のモデルを更新し、OpenChat モデルが AlpacaEval で 80.9% の勝率を達成し、Vicuna GPT-4 評価ではパフォーマンスが ChatGPT の 105% に達したことを発表しました。

写真

つまり、上記の Twitter スクリーンショットでは、2 人のブロガーが主張するオープンソース モデルが ChatGPT/GPT-3.5 を上回っています。

OpenLLM は、LLaMA オープンソース モデルに基づくモデルを備えており、わずか 6,000 個の GPT4 ダイアログのデータセットで微調整され、非常に優れた結果が得られています。

更新されたモデルとレビュー結果は次のとおりです。

  • OpenChat: LLaMA-13B に基づくと、コンテキストの長さは 2048 です。
  • Vicuna GPT-4評価でChatGPTスコアの105.7%を達成。
  • AlpacaEvalで勝率80.9%を達成しました。
  • OpenChat-8192: LLaMA-13B に基づいており、コンテキストの長さが 8192 に拡張されています。
  • Vicuna GPT-4評価でChatGPTスコアの106.6%を達成。
  • AlpacaEvalで勝率79.5%を達成しました。

つまり、どちらのモデルも Vicuna GPT-4 評価リストで ChatGPT を上回りました。

しかし、このレビュー+宣伝という手法は、すべての人に認知されているわけではないようです。

ネットユーザー:誇張

Twitterでの議論では、一部のネットユーザーがこれは誇張だと指摘した。

写真

この「ビッグ」ニュースが発表されると、ビクーニャの関係者もすぐに反応した。

実際、Vicuna ベンチマークは廃止され、より高度な MT-bench ベンチマークが採用されています。このベンチマークは、より困難なタスクでテストされ、gpt4 評価のバイアスと制限に対処します。

MT-benchでは、OpenChatのパフォーマンスはwizardlm-13bと同様です。つまり、オープンソース モデルと GPT-3.5 の間にはまだ一定のギャップが存在します。これはまさに MT-bench が強調していることです。オープンソース モデルは完璧ではありませんが、これによりチャットボットの評価が向上します。

写真

写真

先日、Machine Heart さんが「アルパカたちはどこまで来たのか?」というコンテンツを報告しました。研究によれば、最高のものは GPT-4 のパフォーマンスの 68% を達成できる」とされており、オープンソース モデルのパフォーマンスも評価しています。

また、この評価では、どの評価においても、最良モデルの平均パフォーマンスは ChatGPT の 83%、GPT-4 の 68% に達することが示されており、このギャップを縮めるには、より優れたベースモデルと命令チューニング データをさらに構築する必要があることを示しています。

興味のある読者は原文を確認してください。

<<:  大規模言語モデルと知識グラフに関する共同研究のレビュー:2つの相補的な技術的利点

>>:  大きな言語モデルに目を向けると、その画像認識性能は CLIP を超えています。スタンフォードのよ​​うな新しい方法では、マルチモーダル事前トレーニングは不要である

ブログ    
ブログ    
ブログ    

推薦する

ソフトウェア開発における人工知能: 自動化と最適化

最先端技術である人工知能(AI)は、さまざまな分野で大きな可能性を見せています。ソフトウェア開発の分...

...

生成 AI の「生産性パラドックス」: Microsoft はすでに利益を上げていますが、他のクラウド大手はいつ成果を実感するのでしょうか?

1987 年のノーベル経済学賞受賞者であるボブ・ソローは、「生産性統計を除けば、コンピュータ時代は...

サイバーセキュリティにおける AI の 4 つの主要なユースケースを理解する

サイバーセキュリティは、おそらく今日すべての企業が直面している最大の脅威です。これらの課題は新しいも...

ハーバード大学の科学者がシャコの「バネ仕掛けの拳」機構を模倣したマイクロロボットを開発

海外メディアの報道によると、シャコは世界で最も速い動物種の一つだが、シャコがどのようにしてこのような...

AI が電子商取引におけるウェブサイト アクセシビリティ訴訟のリスクを最小限に抑える方法

進化する人工知能により、電子商取引分野におけるウェブサイトのアクセシビリティ訴訟のリスクを最小限に抑...

...

AIとIoTの完璧な組み合わせ

AI と IoT が広く使用されるようになるにつれて、これら 2 つのテクノロジーがどのように連携し...

最近 IT 業界で起こったいくつかの大きな出来事についてお話ししましょう。

新年が明けたばかりですが、新しい技術、新しい知識、新しいコンテンツが次々と登場し、新年早々も怠けるこ...

致命的な幻覚問題、GPU 代替品の開発、大規模モデルが直面するその他の 10 の課題

ChatGPT、GPT-4などのリリースにより、大規模モデル(LLM)の魅力が明らかになった一方で、...

...

AIは現実世界に対応できる準備ができているでしょうか?

人工知能技術は、今日の状況に対応し、現実世界に適用するのに苦労しています。テクノロジーに興味があるな...

...

AI の可能性を最大限に引き出す: 企業での導入を成功させる 5 つの鍵

ビジネスとテクノロジーに関心のある人なら誰でも、AI がすでに業界や日常生活に大きな変化をもたらして...

あらゆる角度から監視されることへの不安:AI はプライバシー侵害にどう対抗できるか?

インテリジェント時代では、アルゴリズムと計算能力の継続的な進歩により、AI 技術が急速に発展しました...