ラマ事件じゃないよ!李開復の大型モデルが貝殻論争に巻き込まれ、チームの2度目の反応がここに!

ラマ事件じゃないよ!李開復の大型モデルが貝殻論争に巻き込まれ、チームの2度目の反応がここに!

ノアとシャオウが編集

制作:51CTO テクノロジースタック(WeChat ID:blog)

昨日、テクノロジーコミュニティのHacker Newsに突然ニュースが登場し、少し前にリリースされた大型モデルYi-34Bを直接指摘し、2つのテンソルの名前が変更された以外は、完全にLlamaアーキテクチャを採用していると伝えました。

写真

公開情報によると、Yi シリーズのオープンソース モデルでは、オープンソース ライセンスに Llama について言及されていません。元の投稿にはほとんどコメントがなかったものの、それでも注目を集めました。結局のところ、「Yi」はつい最近リリースされ、非常に期待されています。

今年3月、李開復はWeChatモーメンツにメッセージを投稿し、Zero One Everythingチームの設立を正式に発表した。わずか7か月後、Zero One Everythingはオープンソースの中国語・英語バイリンガルモデル「Yi」をリリースしました。関連情報によると、イノベーションワークス、アリババクラウド、その他非公開の投資家から資金調達した後、ゼロワンワンウーの評価額は10億ドルを超えた。

さらに注目すべきは、ゼロワンエブリシングの公式発表によると、Yi-34Bはダークホースとして複数のSOTA国際最高性能指標認定を獲得しただけでなく、これまでにHugging Faceグローバルオープンソースモデルランキングでトップに立った唯一の国産モデルとなったことです。

そのため、サークル内外を問わず、誰もが「イー」がこの質問にどのように向き合い、その後どのような反応を示すのかに注目しています。

1. 投稿による疑惑:コミュニティの疑惑、賈陽青の皮肉疑惑

この事件は、Hugging Faceに掲載された投稿によって引き起こされた。

ehartford という名前の開発者が 9 日前にコミュニティにメッセージを残しました。彼はまず、自分の知る限り、Yi は 2 つのテンソル (input_layernorm、post_attention_layernorm) の名前を変更したことを除いて、Llama と同じアーキテクチャを使用していると指摘しました。

さらに重要なのは、Llama アーキテクチャには多くの投資とツールがあるため、テンソルに同じ名前を使用することに価値があるということです。そこで彼は、モデルが広く採用される前に、オープンソース コミュニティが Yi を再リリースし、「テンソルの名前を変更して、Llama アーキテクチャに適合するバージョンにする」ことを期待しています。

写真

下記の投稿をした開発者らは、Meta LlaMA 構造、そのコード ベース、および関連するすべてのリソースを採用する場合は、LLaMA が規定するライセンス契約に従う必要があることも指摘しました。 Yi モデルを LlaMA 形式で正式にリリースすることを義務付けると、Yi ライセンス条項の強制力が損なわれるため問題があります。

その後、一部の熱狂的なネットユーザーが、アリババの元副社長である賈陽清氏がWeC​​hatモーメンツに投稿した写真を発掘し、その中で彼は、ある国内の大型モデルが実はLlaMAの盗作であり、違いを示すためにいくつかの変数名が変更されていると率直に述べました。彼はさらに、次のように鋭い発言もしました。「オープンソースのモデル アーキテクチャの場合は、名前を変更しないでください。そうしないと、名前の変更に適応するためだけに多くの作業を行わなければなりません。」賈陽清は名前を挙げなかったが、この件に注目する人々は、その人物に自分を重ね合わせずにはいられなかった。

写真

2. 最初の標的型対応:命名問題はチームの過失だった

この論争に対して、ゼロワンエブリシングはその後独自の回答を出した。

ちょうど昨日、チームのオープンソースディレクターであるリチャード・リン氏は、Hugging Face コミュニティの元の投稿で、「命名の問題はチームの怠慢でした。多数のトレーニング実験で、実験の要件を満たすためにコードの名前を何度も変更しました。しかし、正式版をリリースする前に、元に戻すのを忘れました。このことについて深くお詫びするとともに、混乱を招いたことについてもお詫び申し上げます。」と指摘しました。

写真

リチャード・リン氏は、テンソル名の変更は不適切であったことを元の投稿者に対して認めた。「テンソル名についてはあなたのおっしゃる通りです。私たちはあなたの提案どおり、名前を Yi から Llama に変更します。私たちはまた、正確かつ透明性のある方法で作業を完了することを非常に重視しています。」

同時に、彼は解決策も示しました。問題を発見した開発者にこれらの変更を含むプル リクエストを送信するよう依頼するか、必要に応じてそのチームに更新を処理させて同じリポジトリで新しいバージョンをリリースし、Llama アーキテクチャに準拠するように Yi のテンソル名の変更を完了させるかのいずれかです。

最後に、リチャード・リン氏は、同様のミスが二度と起こらないようワークフローの改善に全力で取り組むと改めて述べ、「次はすべてのコードを再度チェックし、残りのコードが正確であることを確認します」と述べた。

3. 再び世論の反応: 大規模モデルの核心的なブレークスルーは、アーキテクチャだけでなく、トレーニングを通じて得られるパラメータにある。

LLaMa はオープンソース モデルであり、LLaMa のアーキテクチャを使用することは大規模なモデルをトレーニングする際の通常のステップであると言う人もいます。さらに、中国でリリースされているオープンソースモデルのほとんども、徐々に業界標準になりつつある GPT/LLaMA アーキテクチャを採用しています。優れたモデルをトレーニングするには、アーキテクチャに加えて、優れたトレーニング データと、トレーニング方法および特定のパラメーターの正確な制御も必要です。

Zero One Everythingが本日午後に発表した発表では、次のように述べられています。「大規模モデルの継続的な開発とブレークスルーの追求の鍵は、アーキテクチャだけでなく、トレーニングを通じて得られるパラメータにあります。」

写真

この記事の核心は次のように要約できます。

  • 国内のオープンソースモデルのほとんどはGPT/LLaMAアーキテクチャを採用しています。大規模モデルの継続的な開発とブレークスルーの追求の鍵は、アーキテクチャだけでなく、トレーニングを通じて得られるパラメータにあります。
  • Zero One Everything チームは、基本的なモデル構造と比較して大きな役割と価値を持つ科学的モデルトレーニングに関する体系的な作業を数多く完了しました。
  • Zero One Everything チームは、トレーニング方法、データ比率、データ エンジニアリング、詳細なパラメーター、ベビーシッター (トレーニング プロセスの監視) テクニックなどの調整にほとんどのエネルギーを費やしました。モデルアーキテクチャを超え、研究とエンジニアリングを進歩させ、最先端かつ画期的な一連の研究開発タスクは、まさにモデルトレーニングの核心にとって最も重要であり、大規模モデル技術の堀のノウハウ蓄積を形成できます。
  • 実験名が変更された後に一部の LLaMA 推論コードを使用する際の見落としについては、当初の出発点はモデルを十分にテストすることであり、ソースを故意に隠蔽することではなく、各種オープンソース コミュニティのバージョン更新ができるだけ早く完了することになっています。

4. ローカル大規模モデルの迷路をナビゲートすることの難しさ:シェルの定義方法

実際、地元の大型モデルが「砲撃」されたとして問題視されたのは今回が初めてではない。

つい最近、外の世界でも、Baichuan Intelligent のオープンソース モデル Baichuan-7B が LLaMa のシェルであるかどうかが疑問視されていました。当時、王小川氏は、検索会社で20年間勤務した経験から、チームは言語データに対する深い理解を持ち、高品質のコーパスを取得するチャネルを知っており、モデルの反復速度が非常に速いと述べ、「国内のオープンソースモデルの能力は、今やLLaMaに匹敵する」と語った。

では、シェリングとは一体何なのでしょうか。また、既存のオープンソースの結果の合理的な使用法とは何でしょうか。ご存知のとおり、同じアーキテクチャを選択した場合でも、異なるデータセットでトレーニングされたモデルは異なります。しかし、今回 Yi が引き起こした論争の焦点は、オープンソース モデル アーキテクチャの「魔法の変更」という命名にあります。それで、事件自体に戻ると、それは本質的には「結果を活用しながらブランドを変える」という話です。

Yi-34Bが初めてリリースされたとき、Kai-Fu Lee氏は海外メディアTechCrunchのインタビューで、オープンソースのLLMをZero One Everythingの最初の製品として導入するという決定は、社会に「恩返し」する方法であると語った。 LlaMA が自分にとって「天の恵み」だと感じる人々にとって、「私たちは魅力的な代替手段を提供します。」今のところ、それが人々を納得させることができるかどうかは、時間の経過とともに試される必要があるようです。

参考リンク:

https://news.ycombinator.com/item?id=38258015

https://huggingface.co/01-ai/Yi-34B/discussions/11#6553145873a5a6f938658491

https://techcrunch.com/2023/11/05/valued-at-1b-kai-fu-lees-llm-startup-unveils-open-source-model/

https://baijiahao.baidu.com/s?id=1782591118774975071

<<:  解説: ジェネレーティブ AI の仕組みとその違い

>>: 

ブログ    
ブログ    

推薦する

李開復、胡宇、張亜琴の GMIC 2018 対談: AI 戦略と AI 人材育成における中国と米国の違いは何ですか?

[[227402]]人工知能が急成長を遂げている現在、AI人材の不足は中国だけでなく、世界全体が直...

Google の AI 覇権を解決する別の方法は?開発プラットフォームのエコシステム包囲

編集者注:この記事はWeChatパブリックアカウント「脑极体」(ID:unity007)からのもので...

プライベートコレクション、オープンソースのトップディープラーニングプロジェクト9つ

[[203962]]過去数年間で、コンピューター科学者は人工知能 (AI) の分野で大きな飛躍を遂げ...

自己回帰デコードが64倍高速化、Googleが新たな画像合成モデルMaskGITを提案

生成トランスフォーマーは、高忠実度かつ高解像度の画像を合成するために急速に人気を集めています。しかし...

...

2020 年の人工知能におけるトップ 10 の技術進歩

2020年が過ぎようとしています。今年、人工知能の分野ではどんな大きな進展がありましたか?以下で一緒...

RLHFの2%ハッシュレートを使用してLLMからの有害な出力を阻止するために、ByteはLLM忘却学習を提案した。

大規模言語モデル (LLM) の開発により、実務者はより多くの課題に直面しています。 LLM からの...

協働ロボットは従来のロボットとどう違うのでしょうか?

協働ロボットは従来のロボットとどう違うのでしょうか? [[418520]]本質的には、協働ロボットと...

...

現代の分散ストレージシステムをサポートするアルゴリズム

アプリケーションによって処理されるデータの量が増え続けるにつれて、ストレージの拡張はますます困難にな...

「星から来た」ロボットは自閉症の子供たちを治せるのか?

[[236328]]私の友人のチャンさんは、8歳の自閉症の男の子の母親です。彼女の息子は2歳のとき...

カリフォルニア大学バークレー校のDeepMindと他の企業が共同で、仮想と現実の境界を打ち破る現実世界シミュレーターをリリースした。

現実世界のシミュレーターが登場!トレーニングされた大規模モデルが現実の物理世界に適応できないのではな...

人生の意味とは何でしょうか?ステーションBのUP司会者がAIに「究極の質問」を投げかけた

人生の意味とは何でしょうか?人はなぜ生きるのか?これらの「宇宙の究極の疑問」は、歴史を通じて数え切れ...

...

古代東洋の究極の秘密 - 知的な美しさ

[51CTO.com からのオリジナル記事] 伝説によると、古代の神秘的な東洋の世界には、秘密で偉大...