ラマ事件じゃないよ！李開復の大型モデルが貝殻論争に巻き込まれ、チームの2度目の反応がここに！

ノアとシャオウが編集

制作：51CTO テクノロジースタック（WeChat ID：blog）

昨日、テクノロジーコミュニティのHacker Newsに突然ニュースが登場し、少し前にリリースされた大型モデルYi-34Bを直接指摘し、2つのテンソルの名前が変更された以外は、完全にLlamaアーキテクチャを採用していると伝えました。

写真

公開情報によると、Yi シリーズのオープンソースモデルでは、オープンソースライセンスに Llama について言及されていません。元の投稿にはほとんどコメントがなかったものの、それでも注目を集めました。結局のところ、「Yi」はつい最近リリースされ、非常に期待されています。

今年3月、李開復はWeChatモーメンツにメッセージを投稿し、Zero One Everythingチームの設立を正式に発表した。わずか7か月後、Zero One Everythingはオープンソースの中国語・英語バイリンガルモデル「Yi」をリリースしました。関連情報によると、イノベーションワークス、アリババクラウド、その他非公開の投資家から資金調達した後、ゼロワンワンウーの評価額は10億ドルを超えた。

さらに注目すべきは、ゼロワンエブリシングの公式発表によると、Yi-34Bはダークホースとして複数のSOTA国際最高性能指標認定を獲得しただけでなく、これまでにHugging Faceグローバルオープンソースモデルランキングでトップに立った唯一の国産モデルとなったことです。

そのため、サークル内外を問わず、誰もが「イー」がこの質問にどのように向き合い、その後どのような反応を示すのかに注目しています。

1. 投稿による疑惑：コミュニティの疑惑、賈陽青の皮肉疑惑

この事件は、Hugging Faceに掲載された投稿によって引き起こされた。

ehartford という名前の開発者が 9 日前にコミュニティにメッセージを残しました。彼はまず、自分の知る限り、Yi は 2 つのテンソル (input_layernorm、post_attention_layernorm) の名前を変更したことを除いて、Llama と同じアーキテクチャを使用していると指摘しました。

さらに重要なのは、Llama アーキテクチャには多くの投資とツールがあるため、テンソルに同じ名前を使用することに価値があるということです。そこで彼は、モデルが広く採用される前に、オープンソースコミュニティが Yi を再リリースし、「テンソルの名前を変更して、Llama アーキテクチャに適合するバージョンにする」ことを期待しています。

写真

下記の投稿をした開発者らは、Meta LlaMA 構造、そのコードベース、および関連するすべてのリソースを採用する場合は、LLaMA が規定するライセンス契約に従う必要があることも指摘しました。 Yi モデルを LlaMA 形式で正式にリリースすることを義務付けると、Yi ライセンス条項の強制力が損なわれるため問題があります。

その後、一部の熱狂的なネットユーザーが、アリババの元副社長である賈陽清氏がWeChatモーメンツに投稿した写真を発掘し、その中で彼は、ある国内の大型モデルが実はLlaMAの盗作であり、違いを示すためにいくつかの変数名が変更されていると率直に述べました。彼はさらに、次のように鋭い発言もしました。「オープンソースのモデルアーキテクチャの場合は、名前を変更しないでください。そうしないと、名前の変更に適応するためだけに多くの作業を行わなければなりません。」賈陽清は名前を挙げなかったが、この件に注目する人々は、その人物に自分を重ね合わせずにはいられなかった。

写真

2. 最初の標的型対応：命名問題はチームの過失だった

この論争に対して、ゼロワンエブリシングはその後独自の回答を出した。

ちょうど昨日、チームのオープンソースディレクターであるリチャード・リン氏は、Hugging Face コミュニティの元の投稿で、「命名の問題はチームの怠慢でした。多数のトレーニング実験で、実験の要件を満たすためにコードの名前を何度も変更しました。しかし、正式版をリリースする前に、元に戻すのを忘れました。このことについて深くお詫びするとともに、混乱を招いたことについてもお詫び申し上げます。」と指摘しました。

写真

リチャード・リン氏は、テンソル名の変更は不適切であったことを元の投稿者に対して認めた。「テンソル名についてはあなたのおっしゃる通りです。私たちはあなたの提案どおり、名前を Yi から Llama に変更します。私たちはまた、正確かつ透明性のある方法で作業を完了することを非常に重視しています。」

同時に、彼は解決策も示しました。問題を発見した開発者にこれらの変更を含むプルリクエストを送信するよう依頼するか、必要に応じてそのチームに更新を処理させて同じリポジトリで新しいバージョンをリリースし、Llama アーキテクチャに準拠するように Yi のテンソル名の変更を完了させるかのいずれかです。

最後に、リチャード・リン氏は、同様のミスが二度と起こらないようワークフローの改善に全力で取り組むと改めて述べ、「次はすべてのコードを再度チェックし、残りのコードが正確であることを確認します」と述べた。

3. 再び世論の反応: 大規模モデルの核心的なブレークスルーは、アーキテクチャだけでなく、トレーニングを通じて得られるパラメータにある。

LLaMa はオープンソースモデルであり、LLaMa のアーキテクチャを使用することは大規模なモデルをトレーニングする際の通常のステップであると言う人もいます。さらに、中国でリリースされているオープンソースモデルのほとんども、徐々に業界標準になりつつある GPT/LLaMA アーキテクチャを採用しています。優れたモデルをトレーニングするには、アーキテクチャに加えて、優れたトレーニングデータと、トレーニング方法および特定のパラメーターの正確な制御も必要です。

Zero One Everythingが本日午後に発表した発表では、次のように述べられています。「大規模モデルの継続的な開発とブレークスルーの追求の鍵は、アーキテクチャだけでなく、トレーニングを通じて得られるパラメータにあります。」

写真

この記事の核心は次のように要約できます。

国内のオープンソースモデルのほとんどはGPT/LLaMAアーキテクチャを採用しています。大規模モデルの継続的な開発とブレークスルーの追求の鍵は、アーキテクチャだけでなく、トレーニングを通じて得られるパラメータにあります。
Zero One Everything チームは、基本的なモデル構造と比較して大きな役割と価値を持つ科学的モデルトレーニングに関する体系的な作業を数多く完了しました。
Zero One Everything チームは、トレーニング方法、データ比率、データエンジニアリング、詳細なパラメーター、ベビーシッター (トレーニングプロセスの監視) テクニックなどの調整にほとんどのエネルギーを費やしました。モデルアーキテクチャを超え、研究とエンジニアリングを進歩させ、最先端かつ画期的な一連の研究開発タスクは、まさにモデルトレーニングの核心にとって最も重要であり、大規模モデル技術の堀のノウハウ蓄積を形成できます。
実験名が変更された後に一部の LLaMA 推論コードを使用する際の見落としについては、当初の出発点はモデルを十分にテストすることであり、ソースを故意に隠蔽することではなく、各種オープンソースコミュニティのバージョン更新ができるだけ早く完了することになっています。

4. ローカル大規模モデルの迷路をナビゲートすることの難しさ：シェルの定義方法

実際、地元の大型モデルが「砲撃」されたとして問題視されたのは今回が初めてではない。

つい最近、外の世界でも、Baichuan Intelligent のオープンソースモデル Baichuan-7B が LLaMa のシェルであるかどうかが疑問視されていました。当時、王小川氏は、検索会社で20年間勤務した経験から、チームは言語データに対する深い理解を持ち、高品質のコーパスを取得するチャネルを知っており、モデルの反復速度が非常に速いと述べ、「国内のオープンソースモデルの能力は、今やLLaMaに匹敵する」と語った。

では、シェリングとは一体何なのでしょうか。また、既存のオープンソースの結果の合理的な使用法とは何でしょうか。ご存知のとおり、同じアーキテクチャを選択した場合でも、異なるデータセットでトレーニングされたモデルは異なります。しかし、今回 Yi が引き起こした論争の焦点は、オープンソースモデルアーキテクチャの「魔法の変更」という命名にあります。それで、事件自体に戻ると、それは本質的には「結果を活用しながらブランドを変える」という話です。

Yi-34Bが初めてリリースされたとき、Kai-Fu Lee氏は海外メディアTechCrunchのインタビューで、オープンソースのLLMをZero One Everythingの最初の製品として導入するという決定は、社会に「恩返し」する方法であると語った。 LlaMA が自分にとって「天の恵み」だと感じる人々にとって、「私たちは魅力的な代替手段を提供します。」今のところ、それが人々を納得させることができるかどうかは、時間の経過とともに試される必要があるようです。