ゼロワンエブリシングYi-34B-Chat微調整モデルがオンラインになり、複数の権威あるリストに掲載されました

ゼロワンエブリシングYi-34B-Chat微調整モデルがオンラインになり、複数の権威あるリストに掲載されました

最近、業界の多くの大規模なモデルベンチマークが、「強度値」のアップデートの新たなラウンドを導入しました。

11月初旬にZero One ThingsがYi-34Bベースモデルをリリースした後、Yi-34B-Chat微調整モデルがオープンソース化され、11月24日に発売されました。短期間で世界中の多くの権威ある英語と中国語の大型モデルリストに掲載され、再び世界中の開発者の注目を集めました。

中でも、スタンフォード大学が提唱する大規模言語モデル評価ベンチマークAlpacaEvalにおいて、Yi-34B-ChatはLLaMA2 Chat 70B、Claude 2、ChatGPTを94.08%の勝率で上回りました。Alpaca認定モデル部門ではGPT-4に次ぐ英語対応力を持つ業界の大規模言語モデルとなり、Alpacaから公式認定を受けた数少ないオープンソースモデルの一つとなっています。

AlpacaEval リーダーボード (2023 年 12 月 7 日公開)

同時に、カリフォルニア大学バークレー校が主導するLMSYS ORGランキングでは、Yi-34B-ChatはEloスコア1102で最新のオープンソースSOTAオープンソースモデルに昇格し、その性能はGPT-3.5と同等でした

さまざまな大型モデルの評価の中で、Berkeley LMSYS ORGは非常に特殊です。ユーザーエクスペリエンスに近い「チャットボットアリーナ」評価モードを採用し、多くの大型言語モデルが評価プラットフォーム上でランダムに1対1の戦いを行い、実際のユーザーをクラウドファンディングしてオンラインでリアルタイムのブラインドテストと匿名投票を実施します。11月には、合計25,000人の実際のユーザー投票に基づいて、20の大型モデルの合計スコアが算出されました。 Elo スコアが高いほど、実際のユーザー エクスペリエンスでモデルのパフォーマンスが優れていることを意味します。これは、多数の大規模なモデル評価セットの中で「真実の瞬間」を最もよく示す、ユーザー指向のエクスペリエンス対決であると言えます。

オープンソースモデルの中で、Yi-34B-Chatの英語能力は比較的高いレベルに達しています。LMSYS ORGは12月8日に11月の総合ランキングを公式発表した際、「オープンソースコミュニティでは、Yi-34B-ChatとTulu-2-DPO-70BがすでにGPT-3.5に追いついている」とコメントしました。

LMSYS ORG リスト(2023 年 12 月 8 日公開)

中国語能力の面でも、Yi-34B-Chatの微調整モデルは進歩を遂げています。

SuperCLUE は中国語能力のランキングであり、基礎能力、専門能力、中国語特有の能力という 3 つの異なる側面からモデルの能力を評価します。 11月末に発表された「SuperCLUE中国大型モデルベンチマーク評価レポート2023」によると、11月下旬に初公開されたYi-34B Chatは、多くの優秀な国産大型モデルと同等の「優秀リーダー」象限に昇格しました。複数のベンチマーク評価における「SuperCLUE大型モデルバトル勝率」の重要指標において、Yi-34B-Chatは31.82%の勝率を達成し、GPT4-Turboに次ぐ2位となりました。

中国版SuperCLUEランキング(2023年11月28日発表)

開発者向けに、Yi-34B-Chat 微調整モデルは 4 ビット/8 ビットの量子化バージョン モデルを提供しており、そのうち Yi-34B-Chat 4 ビットの量子化バージョン モデルは、RTX 3090 などのコンシューマー グレードのグラフィック カードで直接使用できます。

Yi-34B-Chat はさまざまな会話シナリオでどのように機能しますか?より直感的な問題のデモンストレーションを見てみましょう。

【知識と生成】:Transformerモデル構造はAGIに向かって進むことができるか?

[クリエイティブ コピー]: 小紅書で私のためにコピーを生成して、みんなにあんこの色の口紅を勧めてください。

【中国語の理解】: 肖王がリーダーに贈り物をした後。リーダーは言いました。「シャオ・ワン、これはどういう意味ですか?」シャオ・ワン:「これはちょっとした感謝の気持ちです。」リーダー:「それは思いやりが足りません。」シャオ・ワン:「これはちょっとした贈り物です、ちょっとした贈り物です。」リーダー:「シャオ・ワン、あなたは本当に面白い人です。」シャオ・ワン:「他に意味はありません。」リーダー:「それなら私はとても恥ずかしいです。」シャオ・ワン:「はい、恥ずかしいです。」これは正確にはどういう意味ですか?

Zero One Everythingによると、Yi-34B-Chatモデルが現在達成している機能は、Yiシリーズの強力な基盤の貢献だけでなく、人工知能アライメント(AI Alignment)などのテクノロジーの恩恵も受けているという。研究チームは、一連の革新的な調整戦略を採用しました。慎重に設計された指示の微調整プロセスを通じて、モデルの人間のニーズを理解して適応する能力を強化しただけでなく、有用性、誠実さ、無害性などの人間の価値観とモデルを一致させました。

強力なベース設定の下で、チームは、単一機能の強化と複数機能の統合という 2 つの段階をカバーする軽量の命令微調整ソリューションを採用しました。

その中で、個々の能力には、一般的な指示の遵守、創造的なコンテンツの生成、数学、推論、プログラミング、汎 COT、会話によるインタラクションなどが含まれます。多数のアブレーション実験を通じて、単一の機能の構築とモデルの複数の機能の統合における当社独自の認知経験をまとめました。

データの量と質の面では、一方では、研究チームは、少量のデータ(数個から数百個)のみで強力なベースモデルに基づいてモデルの特定の単一機能を刺激するという目標を達成しました。他方では、データの品質は量よりも重要であり、少量の高品質データは大量の低品質データよりも優れています。モデルの能力を超えた「低品質」データに焦点を当てることで、モデルの「幻覚」が軽減されます。

研究チームは、指示の多様性と難易度の点において、各能力項目の下にタスクシステムを構築することで、トレーニングデータ内の指示のバランスの取れた配分を実現し、モデルの一般化を大幅に向上させました。複合命令構築と命令難易度進化により、モデル効果が向上するだけでなく、データ量の需要も大幅に削減されます。

スタイルの一貫性に関して、研究チームは、トレーニングデータのスタイルがモデルの収束速度と能力の上限への接近度に影響を与えることを発見しました。そのため、応答スタイルを統一しました。たとえば、CoTの応答スタイルは、軽量SFT条件下でスタイルの不一致によって悪化するモデルの「メモリ」現象を回避するために、重点的に設計されました。

マルチ機能融合段階では、研究チームはグリッド検索法を使用してデータ比率とハイパーパラメータ設定を決定し、ベンチマークテストの結果と独自に構築した評価セットを通じて検索プロセスを導き、モデルのマルチ機能融合を成功裏に達成しました。

Zero One Everythingは、大規模言語モデルのエコロジカルな発展を促進するために、世界中の開発者を招待し、Yi-34B-Chatモデル機能の使用を共同でテストし、Yiオープンソースモデルのアプリケーションエコシステムを構築すると発表しました。

易モデルオープンソース1ヶ月、イノベーションエコシステムは徐々に充実

Yiモデルがオープンソース化されてから1か月で、Hugging Faceコミュニティのダウンロード数は168,000に達し、MoDaコミュニティのダウンロード数は12,000に達しました。また、GitHubでは4,900以上のスターを獲得しました。

CheetahのOrionStarが発表したOrionStar-Yi-34B-Chatモデルや、南方科技大学と広東・香港・マカオ大湾区デジタル経済研究所(IDEA研究所)の認知コンピューティングおよび自然言語研究センター(CCNLセンター)が共同で発表したSUS-Chat-34Bなど、多くの有名企業や機関がYiモデルベースに基づいて微調整されたモデルを発表しています。 AMD と Hugging Face が共同で実施した GPU アクセラレーションによる大規模モデル実験でも、Yi-6B がサンプル プロジェクトとして選ばれました。

著名な技​​術ライターのスー・ヤン氏は、最近見たHugging Faceリストでは、トップ30のうち半分以上がYiや他のユーザーによって微調整されたYi-34Bの派生型だったと述べている。当初リストのトップだった68Bと70Bのモデルは、今ではわずか数個だ。「この観点から見ると、オープンソースエコシステムに対するYiの貢献は依然として非常に大きい」

エリック・ハートフォード:Yi-34Bの熱心なファンになる

Hugging Face のコミュニティ開発者、Eric Hartford 氏

Yi-34B のオープンソースリリース後、開発者の Eric Hartford 氏はこのモデルに小さな問題があることを発見しました。

彼はメールの中で、「素晴らしいモデルを提供していただきありがとうございます。Yi モデルは LLaMA モデルとまったく同じアーキテクチャを使用していますが、2 つのテンソルの名前を変更しています。LLaMA アーキテクチャには多くの投資とツールがあるため、テンソル名の一貫性を保つことは重要です」と書いています。エリックは、Yi が広く普及する前にテンソル名を復元することを提案しました。

Zero One Everythingは、命名問題の怠慢により開発者に不便をかけたことを認識し、Eric氏や他の開発者に説明して心から謝罪し、モデルとコードをさまざまなオープンソースプラットフォームに迅速に再提出し、オープンソースコミュニティ向けのバージョンアップデートを完了しました。

しかし、エリック氏は、彼の提案が、Yi モデルが LLaMA を「コピー」したかどうかについて中国で世論の疑念を引き起こすとは予想していませんでした。

大規模モデルの世界では、技術的なアーキテクチャ、微調整、データが同様に重要です。 Zero One Everything チームは、オープンソース コミュニティで一般的に使用されている LLaMA アーキテクチャに基づいて、高品質のデータ セット、独自に開発したトレーニング サイエンス、AI インフラを使用して、Yi-34B を含む一連のモデルを作成しました。 Zero One Everythingは、比較実験を行うために、いくつかの推論パラメータの名前が変更されたと述べました。当初の出発点は、ソースを故意に隠すことではなく、モデルを完全にテストすることでした。

世論の高まりに直面して、エリックは率先して李氏を擁護した。

彼はX(ツイッター)に「彼らは何も嘘をついていない。すべてのモデルは互いにアーキテクチャを借用している。アーキテクチャは学術研究の成果であり、論文として発表されており、誰でも自由に使用できる。これはYiチームの業績を損なうものではない。彼らは自ら作成したデータセットを使用してYiをゼロからトレーニングしており、オープンソース分野への貢献は称賛に値する」と書いた。

彼はさらに、「Llama アーキテクチャを使用することには何の問題もありません。トレーニングが鍵です。Yi はこれまで入手可能な最高のモデルを提供してくれました。不満はありません。」と付け加えました。

蘇楊:Yi-34Bは多くの細分化されたシナリオでGPT-3.5を置き換えることができる

Su Yang、デジタル起業家、開発者、テクニカルライター

Su Yang氏は、自身の機械学習ホストを使用して、純粋なCPU環境とCPUとGPUの混合環境でYi-34Bモデルをテストしてみたが、結果は予想よりも良好だったと語った。

コミュニティによって微調整されたバージョンは、ニュースや調査レポートの要約、および非構造化情報からのエンティティの識別と抽出において非常に優れたパフォーマンスを発揮します。また、公式チャットバージョンがまだリリースされていなかった初期の頃は、コミュニティからのチャットバージョンも、一般的な歴史に関する質疑応答など、会話の過程で非常にうまく機能していました。もちろん、Zero One がトレーニング プロセス中にセキュリティ上の理由からコーパスをフィルタリングしすぎたため、一部のローカライズされたコンテンツがまだ十分な深さではない可能性があります。

現在、Hugging Face リストでは、トップ 30 のうち半分以上が、Yi 氏や他のユーザーによって微調整された Yi-34B の派生型です。リストのトップにランクされていた 68B と 70B モデルは、わずか数個しか残っていません。この観点から見ると、Yi 氏のオープン ソース エコシステムへの貢献は依然として非常に大きいと言えます。

68Bや70Bモデルと比較すると、一般ユーザーは頑張れば34Bを比較的低コストで運用でき、パフォーマンスもそれほど変わりません。つまり、企業が導入して活用する場合には、必要なコストを大幅に節約できることになります。

現在、国産の大型モデルは既にオープンソースリストの第一層に位置しているが、クローズドソースモデル、特に海外モデルにまで競争範囲が拡大すると、まだまだ道のりは長い。現在の一般的な経験では、オープンソース モデルは最大でも GPT-3.5+ レベルです。

蘇楊氏は、国産の大型モデルがすぐにトップクラスに追いつくだろうと信じている。

しっかりとした基盤があり、正しいオープンソースのルートと方法に従い、ローカルへの適応と調整をうまく行えば、希望はあります。

Yiモデルアドレス:

  • https://huggingface.co/01-ai/
  • https://www.modelscope.cn/organization/01ai

<<: 

>>:  誇張する! EMNLPには約5,000本の論文が提出され、賞が発表されました。北京大学とテンセントが最優秀長編論文賞を受賞しました。

ブログ    

推薦する

...

安定性、効率性、俊敏性:適応型AIの利点

人工知能にはさまざまなものがあります。コンピューターを使って知的なことを行うこともあれば、コンピュー...

GPT-4が「愚か」になったと誰もが不満を言っていますが、これはアーキテクチャの再設計が原因かもしれません。

OpenAI が GPT-4 を最初にリリースしてから約 4 か月が経ちました。しかし、時間が経つ...

Gemini と GPT-4V のどちらが優れていますか?視覚言語モデルの総合的な比較と併用

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

インタビュアー: アルゴリズムの時間計算量と空間計算量についてどう思いますか?計算方法は?

[[424483]] 1. はじめにアルゴリズムとは、データを操作し、プログラムの問題を解決するた...

機械学習に必要なエンジニアリングの量は将来大幅に削減されるだろう

将来的には、ML 製品の構築がより楽しくなり、これらのシステムはより良く機能するようになります。 M...

...

Android マーケットのランキングアルゴリズムとルールの分析

ご存知のとおり、検索エンジンとして始まった Google は、(A×a% + B×b% + C×c%...

...

...

Google Gemini の大きな転換? Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

Gemini の推論能力は本当に GPT-4 よりも弱いのでしょうか?以前、Google の大ヒット...

流行を予防し制御するために、人工知能はまだ3つの大きな問題を解決する必要がある

新型コロナウイルス感染症は、中華人民共和国成立以来、最も急速に広がり、最も広範囲に及び、最も困難な公...

...

...