Llama 2を破り、GPT-3.5と競合するStability AIの新モデルがオープンソースの大規模モデルのリストでトップに

Llama 2を破り、GPT-3.5と競合するStability AIの新モデルがオープンソースの大規模モデルのリストでトップに

「たった30分の昼休みを取っただけで、私たちの分野はまた変わってしまったのか?」最新のオープンソースの大規模モデルランキングを見て、AI分野の起業家が自問自答した。

写真

リーダーボードリンク: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

上の写真の赤いボックス内の「新参者」は、Stability AI と CarperAI ラボの 2 つの大型モデル、FreeWilly 1 と FreeWilly 2 です。たった今、3日前にMetaがリリースしたLlama-2-70b-hfを抜いて、HuggingFaceのOpen LLMランキングリストでトップに躍り出ました。

さらに驚くべきことは、FreeWilly 2 が ChatGPT (GPT-3.5) を多くのベンチマークで上回り、GPT-3.5 と真に競合できる最初のオープンソースの大規模モデルになったことです。これは Llama 2 が達成できなかったことです。

写真

FreeWilly 1 は、オリジナルの LLaMA 65B ベース モデルに基づいて構築されており、標準 Alpaca 形式の新しい合成データセットを使用して、慎重に監督され微調整 (SFT) されています。 FreeWilly2 は、最新の LLaMA 2 70B ベース モデルに基づいて構築されています。

Stability AI が公開したブログから、2 つの新しいモデルの詳細を確認できます。

データソース

FreeWilly モデルのトレーニング方法は、Microsoft が論文「Orca: GPT-4 の複雑な説明トレースからの漸進的学習」で先駆的に開発した方法から直接ヒントを得ています。 FreeWilly のデータ生成プロセスは似ていますが、データ ソースに関しては両者の間に違いがあります。

FreeWilly データセットには 600,000 のデータ ポイント (元の Orca 論文で使用されたデータセットの約 10%) が含まれており、言語モデル生成のヒントとして Enrico Shippole が作成した次の高品質の指示データセットを使用して生成されました。

  • COT サブミックス オリジナル
  • NIV2 サブミックス オリジナル
  • FLAN 2021 サブミックス オリジナル
  • T0 サブミックス オリジナル

このアプローチを使用して、研究者はより単純な LLM モデルを使用して 500,000 個の例を生成し、さらにより複雑な LLM モデルを使用して 100,000 個の例を生成しました。公平な比較を確実にするために、これらのデータセットを慎重に選別し、評価ベンチマークから例を削除しました。オリジナルの Orca 論文と比べてトレーニング サンプルの数が 10 分の 1 しかないにもかかわらず (これにより、オリジナルの論文と比較してモデルのトレーニングにかかる​​コストと炭素排出量が大幅に削減されます)、結果として得られた FreeWilly モデルはさまざまなベンチマークで優れたパフォーマンスを発揮し、合成データセットを使用したアプローチの有効性を検証しました。

パフォーマンスデータ

これらのモデルを社内で評価するために、EleutherAI の lm-eval-harness ベンチマークを使用し、AGIEval を追加しました。

非営利の人工知能研究ラボ EleutherAI とその基盤となる HuggingFace Open LLM リーダーボードによって作成された lm-eval-harness ベンチマークは、Hugging Face コンピューティング クラスターのアイドル サイクル中に評価を実行し、結果をデータセットに保存してから、オンライン リーダーボード スペースに表示します。

AGIEval は Microsoft によって作成され、数学コンテストや司法試験などの「人間中心」の標準テストにおける基本モデルのパフォーマンスを評価するために特別に設計されています。

どちらの FreeWilly モデルも、複雑な推論、言語の微妙なニュアンスの理解、法律や数学の問題などの専門分野に関わる複雑な質問への回答など、多くの分野で非常に優れたパフォーマンスを発揮しました。

lm-eval-harness ベンチマークにおける 2 つのモデルの評価結果は次のとおりです (これらの FreeWilly テスト結果は Stability AI の研究者によって評価されました)。

写真

AGIEval ベンチマークにおける 2 つのパフォーマンスは次のとおりです (すべて 0 ショット)。

写真

さらに、GPT4ALL ベンチマーク (すべて 0 ショット) でも 2 つのモデルをテストしました。

写真

全体的に、これら 2 つのモデルのパフォーマンスは優れており、ChatGPT などのトップ AI モデルとの差がさらに縮まっています。モデルを入手したい学生は、次のリンクをクリックしてください。

フリーウィリー 1: https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

フリーウィリー 2: https://huggingface.co/stabilityai/FreeWilly2

各方面の反応から判断すると、FreeWilly モデルの登場は、あまりにも急な登場だったため、皆に少々の衝撃を与えたようです。結局のところ、Llama 2 は発売されてから 3 日しか経っておらず、ランキングのトップにも入っていません。ある研究者は、最近手術を受け、1週間ニュースを見ていなかったが、まるで1年間昏睡状態にあったかのような気分だったと語った。つまり、これは「瞬きしない」期間です。

写真

ただし、両方のモデルはオープン アクセスですが、Llama 2 とは異なり、非商用ライセンスの下でリリースされており、研究目的でのみ使用できることに注意することが重要です。

写真

しかし、この行為はネットユーザーの間で疑問を引き起こしている。

写真

これに対し、Stability AIの研究者らは、この状況(研究目的のみ)は一時的なものであり、将来的にはFreeWillyもLlama 2のように商用利用が許可される予定であると述べた。

写真

さらに、テストで使用されたベンチマークに疑問を呈する人もいます。

写真

これも現時点ではかなり難しい問題です。以前、HuggingFaceのランキングでファルコンモデルがラマを圧倒した事件が議論を呼んだ。その後、事件は完全に覆され、ラマはファルコンに圧倒されていないことが証明された。HuggingFaceはこのためにランキングコードも書き換えた。今日では大規模なモデルが多数登場しており、これらのモデルを効果的に評価する方法は依然として議論する価値のある問題です。したがって、ランキング上位のモデルについてはより慎重になり、さらなる評価結果が出るのを待つ必要があります。

<<:  12 のモダリティ、1 つの学習フレームワーク、Meta-Transformer がバックボーン ネットワークの統合を実現

>>: 

ブログ    
ブログ    
ブログ    

推薦する

李開復氏:将来、人間の仕事の半分はAIに奪われるが、失業しない分野は2つだけ

中関村オンラインニュース:李開復氏は先日、未来フォーラムで人工知能をテーマにしたメディアインタビュー...

私の目が支配者です! 80億のパラメータを備えたOtterHDは、清明節のラクダを数えるのに役立ちます。南洋理工大学の中国チームによって作成されました

「清明節の河沿い」には何頭のラクダがいるか知りたいですか? UHD 入力をサポートするこのマルチモー...

...

AIは進化すればするほど、人間の脳に似てきます!メタは機械の「前頭前野」を発見し、AI学者と神経科学者は驚いた

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

200 の優れた機械学習チュートリアルの要約「史上最も完全」

この記事には、これまでで最も優れたチュートリアル コンテンツであると一般に考えられている内容が含まれ...

ディープラーニングの将来の発展に向けた3つの学習パラダイム:ハイブリッド学習、コンポーネント学習、簡易学習

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AIは消費者行動にどのような影響を与えるのでしょうか?

著者: ユン・チャオ[51CTO.com からのオリジナル記事]コンピュータ プログラミングを使用し...

Baidu PaddlePaddleがソフトウェアグリーンアライアンス開発者会議に登場。最新の2つの成果は産業実装に直接つながるものだった。

11月19日、アリババ、百度、ファーウェイ、テンセント、網易など国内有名企業が企画・主催する201...

これまで見たことのないアルゴリズムのダンス(ビデオ)

[[21488]]サピエンティア大学の以下のビデオをご覧ください。学生たちが中央ヨーロッパの民族舞...

TCP/IPトランスポート層におけるTCP BBRアルゴリズムについての簡単な説明

0x00. はじめにこれは、TCP/IP プロトコル スタック シリーズの 3 番目の記事です。前回...

人工知能の成長がデータセンターの再設計を促している

現在進行中のデータ センターの再設計の主な側面は、AI の大規模で複雑なワークロードと、グラフィック...

OpenAIの最強のライバルトレーニングAIがLLMブラックボックスを分解し、ビッグモデルの「魂」を予期せず垣間見る

大規模なモデルの「ブラックボックス」を解体するために、人類解釈可能性チームは、新しいモデルをトレーニ...

...

美団の店舗ビジネスにおける異種広告混合配置の探求と実践

著者 | 屈譚旭洋 他LBS (位置情報サービス) の距離制約により、候補数が少ないと店内広告ランキ...

完璧な意思決定ツリーを作成する方法

[51CTO.com クイック翻訳] ご存知のとおり、決定木は実生活で多くの実用的なシナリオで利用さ...