GPT-4に次ぐ、李開復のYi-34B-Chatの最新成果が発表されました—— アルパカ認定モデル部門では、勝率94.08%でLLaMA2 Chat 70B、Claude 2、ChatGPTを上回りました! 写真 それだけでなく、カリフォルニア大学バークレー校が主導する LMSYS ORG ランキングでも、Yi-34B-Chat は Elo スコア 1102 で最新のオープンソース SOTA オープンソース モデルにランクされ、そのパフォーマンスは GPT-3.5 と同等でした。 各種の大型モデル評価の中で、Berkeley LMSYS ORGランキングは、ユーザー体験に最も近い「チャットボットアリーナ」という特別な評価モードを採用しています。評価プラットフォーム上で多数の大型言語モデルがランダムに1対1のバトルを繰り広げ、実際のユーザーによるクラウドファンディングでオンラインのリアルタイムブラインドテストと匿名投票を実施します。11月には、合計25,000件の実際のユーザー投票に基づいて、20の大型モデルの合計スコアが算出されました。 Elo スコアが高いほど、実際のユーザー エクスペリエンスでモデルのパフォーマンスが優れていることを意味します。これは、多数の大規模なモデル評価セットの中で「真実の瞬間」を最もよく示す、ユーザー指向のエクスペリエンス対決であると言えます。 写真 △LMSYS ORGリスト(2023年12月8日公開)中国語の言語機能に関しては、Yi-34B-Chat の微調整モデルも同様に印象的です。 SuperCLUE は中国語能力のランキングであり、基礎能力、専門能力、中国語特有の能力という 3 つの異なる側面からモデルの能力を評価します。 11月末に発表された「SuperCLUE中国大型モデルベンチマーク評価レポート2023」によると、11月下旬に初公開されたYi-34B Chatは、多くの優秀な国産大型モデルと同等の「優秀リーダー」象限に急速に進出しました。複数のベンチマーク評価における「SuperCLUE大型モデルマッチ勝率」の重要指標において、Yi-34B-Chatは31.82%の勝率を達成し、GPT4-Turboに次ぐ2位となりました。 △中国版SuperCLUEランキング(2023年11月28日発表) 会話シーンテストYi-34B-Chat モデルはさまざまな会話シナリオでどのように機能しますか?より直感的な問題のデモンストレーションを見てみましょう。 たとえば、Yi-34B-Chat に次の質問を「フィード」します。 Transformer モデル構造は AGI につながるのでしょうか? 写真 Yi-34B-Chat の回答が合理的かつ根拠のあるものであることは容易にわかります。 次: あんこの色の口紅を皆さんにお勧めするために、小紅書のコピーを作成してください。 写真 その答えは、小紅書における現在の主流の商品販売スタイルと非常に一致していると言える。 中国語の理解に関しては、もう一つ疑問があります。
写真 非常に「複雑な」中国語でも、Yi-34B-Chat は正確に習得していることがわかります。 Zero One Everythingによると、Yiシリーズの強力な基盤の貢献に加えて、Yi-34B-Chatモデルの有効性は、AIアライメントチームが採用した一連の革新的なアライメント戦略からも恩恵を受けているという。慎重に設計された指示の微調整プロセスを通じて、モデルの人間のニーズを理解して適応する能力が強化されるだけでなく、有用性、誠実さ、無害性などの人間の価値観にも沿うようになります。 強力なベース設定の下で、チームは、単一機能の強化と複数機能の統合という 2 つの段階をカバーする軽量の命令微調整ソリューションを採用しました。 データの量と質の面では、一方では、強力なベースモデルに基づくチームは、モデルの特定の単一機能を刺激するために少量のデータ(数個から数百個の項目)のみを必要とします。他方では、データの品質は量よりも重要であり、少量の高品質のデータは大量の低品質のデータよりも優れています。モデルの能力を超えた「低品質」データに焦点を当てることで、モデルの「幻覚」が軽減されます。 指示の多様性と難易度の点では、チームは各能力項目の下にタスク システムを構築することでトレーニング データ内の指示のバランスの取れた分散を実現し、モデルの一般化を大幅に向上させました。複合命令構築と命令難易度進化により、モデル効果が向上するだけでなく、データ量の需要も大幅に削減されます。 スタイルの一貫性に関しては、トレーニングデータのスタイルがモデルの収束速度と能力の上限への接近度合いに影響を与えることを発見したため、チームは応答スタイルを統一しました。たとえば、軽量SFTの場合、スタイルの不一致によって悪化するモデルの「メモリ」現象を回避するために、CoTの応答スタイルの設計に重点を置きました。 マルチ機能統合段階では、グリッド検索法を使用してデータ比率とハイパーパラメータ設定を決定し、ベンチマークテストの結果と独自に構築した評価セットを通じて検索プロセスをガイドし、モデルのマルチ機能統合を正常に達成しました。 それだけでなく、Yi モデルのオープンソース化の最初の 1 か月のデータも印象的でした。 Hugging Faceコミュニティのダウンロード数は168,000件、MoDaコミュニティのダウンロード数は12,000件です。 GitHub で 4900 以上のスターを獲得しました。 その優れた性能により、多くの有名企業や機関がYiモデルベースに基づいて微調整されたモデルをリリースしており、例えばCheetahのOrionStarがリリースしたOrionStar-Yi-34B-Chatモデルや、南方科技大学の認知コンピューティングおよび自然言語研究センター(CCNLセンター)と広東・香港・マカオ大湾区デジタル経済研究所(IDEA研究所)が共同でリリースしたSUS-Chat-34Bなどがあり、いずれも優れた性能を誇っています。 AMD と Hugging Face が共同で実施した GPU アクセラレーションによる大規模モデル実験でも、Yi-6B がサンプル プロジェクトとして選ばれました。 著名な技術ライターのスー・ヤン氏は、最近見たHugging Faceリストでは、トップ30のうち半分以上がYiや他のユーザーによって微調整されたYi-34Bの派生型だったと述べている。当初リストの上位を占めていた68Bと70Bのモデルは、今ではわずか数個になっている。「この観点から見ると、オープンソースエコシステムに対するYiの貢献は依然として非常に大きい」 実際のユーザーからのフィードバックYi-34B がオープンソースとしてリリースされた後、開発者の Eric Hartford 氏はこのモデルに小さな問題があることを発見しました。 彼はメールにこう書いた。
Zero One Everythingは、命名問題の怠慢により開発者に不便をかけたことを認識し、Eric氏や他の開発者に説明して心から謝罪し、モデルとコードをさまざまなオープンソースプラットフォームに迅速に再提出し、オープンソースコミュニティ向けのバージョンアップデートを完了しました。 しかし、エリック自身は、自分の提案が中国で誤解され、Yi モデルが LLaMA を「盗作」したのではないかという世間の疑念を引き起こすとは予想していませんでした。 実際、モデルの核となる技術的な強みはアーキテクチャに基づいています。データトレーニングを通じて得られるパラメータとコードは、オープンソースコミュニティで一般的に使用されている LLaMA アーキテクチャに基づいています。 Zero One Everythingチームによれば、彼らはゼロから始めて、高品質のデータセット、独自に開発したトレーニング科学、AIインフラを使用して、Yi-34Bを含む一連のモデルを作成したという。比較実験を行うために、いくつかの推論パラメータの名前が変更されました。当初の出発点は、ソースを故意に隠すことではなく、モデルを完全にテストすることでした。 この世論の嵐の中心にいるエリックは、X(ツイッター)にもこう書いている。 彼らは何も嘘をつきませんでした。すべてのモデルは互いにアーキテクチャを借用しています。このアーキテクチャが学術研究の成果であり、論文として発表され、誰でも自由に使用できるという事実は、Yi 氏のチームの成果を決して損なうものではありません。独自に作成したデータセットを使用して Yi をゼロからトレーニングしたため、オープンソース分野への彼らの貢献は称賛に値します。 写真 そして彼はこう付け加えた。「Llama アーキテクチャを使用することには何の問題もありません。トレーニングが鍵です。Yi はこれまで入手可能な最高のモデルを提供してくれました。不満はありません。」 現在、Eric 氏は Yi-34B の熱心なファンになっています。彼は Yi-34b-200k データセットを使用して他のモデル製品をトレーニングし、その非常にスムーズなトレーニング体験に驚嘆しています。 デジタル起業家、開発者、テクニカルライターの Su Yang 氏は、次のように述べています。
写真
参考リンク: |
<<: AI アシスタントの人気が高まっていますが、次に購入するスマートフォンはなぜ電話なのでしょうか?
近年、人工知能の人気が急上昇しており、画像認識、音声認識、機械翻訳、自動運転車など、AI の能力と威...
生成モデルとシーケンス モデルは、常に私を魅了してきました。これらのモデルは、機械学習を初めて学ぶと...
[[434146]]ビジネス インテリジェンス テクノロジーが推進する市場において、人工知能は企業に...
リカレント ニューラル ネットワーク (RNN) は、ネットワークに追加の重みを追加してネットワーク...
[[384489]]広告システムに取り組んでいたとき、接続されたプラットフォーム上のほとんどの広告シ...
[[194770]]私はずっと、人工知能がどのように提案されたのか、その背後にはどのような物語がある...
AppleがSiriを発表してから7年、そしてジェフ・ベゾスがスタートレックにインスピレーションを得...
何か大きなことが起こりました!数か月前、マイクロソフトの AI 研究チームは、大量のオープンソースの...
2019年7月現在、AIの現状はどうなっているのでしょうか。最新の調査、研究、予測に基づき、AI技術...