大型モデルが人気となり、毎日さまざまな「ビッグ」ニュースを目にするようになりました。 写真 今日、もう一つ大きなニュースがあります。新しくオープンソースになった大規模モデルが ChatGPT を上回りました。 それは正確には何ですか? OpenLLM は、極めて小規模で多様性に富んだ高品質のマルチターン会話データセットに基づいて微調整されたオープンソース言語モデルのファミリーです。 過去 2 日間で、著者らはこの一連のモデルを更新し、OpenChat モデルが AlpacaEval で 80.9% の勝率を達成し、Vicuna GPT-4 評価ではパフォーマンスが ChatGPT の 105% に達したことを発表しました。 写真 つまり、上記の Twitter スクリーンショットでは、2 人のブロガーが主張するオープンソース モデルが ChatGPT/GPT-3.5 を上回っています。 OpenLLM は、LLaMA オープンソース モデルに基づくモデルを備えており、わずか 6,000 個の GPT4 ダイアログのデータセットで微調整され、非常に優れた結果が得られています。 更新されたモデルとレビュー結果は次のとおりです。
つまり、どちらのモデルも Vicuna GPT-4 評価リストで ChatGPT を上回りました。 しかし、このレビュー+宣伝という手法は、すべての人に認知されているわけではないようです。 ネットユーザー:誇張Twitterでの議論では、一部のネットユーザーがこれは誇張だと指摘した。 写真 この「ビッグ」ニュースが発表されると、ビクーニャの関係者もすぐに反応した。 実際、Vicuna ベンチマークは廃止され、より高度な MT-bench ベンチマークが採用されています。このベンチマークは、より困難なタスクでテストされ、gpt4 評価のバイアスと制限に対処します。 MT-benchでは、OpenChatのパフォーマンスはwizardlm-13bと同様です。つまり、オープンソース モデルと GPT-3.5 の間にはまだ一定のギャップが存在します。これはまさに MT-bench が強調していることです。オープンソース モデルは完璧ではありませんが、これによりチャットボットの評価が向上します。 写真 写真 先日、Machine Heart さんが「アルパカたちはどこまで来たのか?」というコンテンツを報告しました。研究によれば、最高のものは GPT-4 のパフォーマンスの 68% を達成できる」とされており、オープンソース モデルのパフォーマンスも評価しています。 また、この評価では、どの評価においても、最良モデルの平均パフォーマンスは ChatGPT の 83%、GPT-4 の 68% に達することが示されており、このギャップを縮めるには、より優れたベースモデルと命令チューニング データをさらに構築する必要があることを示しています。 興味のある読者は原文を確認してください。 |
<<: 大規模言語モデルと知識グラフに関する共同研究のレビュー:2つの相補的な技術的利点
>>: 大きな言語モデルに目を向けると、その画像認識性能は CLIP を超えています。スタンフォードのような新しい方法では、マルチモーダル事前トレーニングは不要である
[[361430]]文/Quiu Yueye 編集/Tan Lu新年、自動運転は私たちをどこへ連れ...
最近では、「顔スキャン」、つまり顔認識技術を使うことで、解決できることが増えています。買い物の際の「...
[[266977]]機械学習では、予知保全のトピックが時間の経過とともにますます人気が高まっています...
この記事は、Google Brain エンジニアの Zhou Yuefeng 氏が QCon Sha...
皆さん、GPT-4 のパラメータは 1 兆を超える可能性があります。最近、アメリカの有名なハッカーで...
科学技術の継続的な革新により、より多くの新しいインテリジェント製品が開発され、さまざまな業界で使用さ...
[[264168]] 3年前、人工知能の時代が始まり、「人工知能はますます多くのこと、ほぼすべての...
最近、2021年世界ロボット大会が北京で盛大に開幕しました。ロボット分野の最先端技術と最新の成果が展...