李開復のLLaMAに基づく企業モデルだが、テンソル名が異なっており論争を巻き起こしたが、公式の回答が来た。

李開復のLLaMAに基づく企業モデルだが、テンソル名が異なっており論争を巻き起こしたが、公式の回答が来た。

少し前に、オープンソースのビッグモデル分野に新しいモデル「易」が導入されました。このモデルはコンテキストウィンドウのサイズが 200k を超え、一度に 400,000 の中国語文字を処理できます。

この大型模型は、イノベーションワークスの会長兼CEOである李開復氏が設立した大型模型会社「ゼロワンエブリシング」によって製作されたもので、Yi-6BとYi-34Bの2つのバージョンが含まれています。

英語版オープンソースコミュニティプラットフォーム「Hugging Face」と中国語版C-Eval評価リストによると、Yi-34Bは打ち上げ時に複数のSOTA国際最高性能指標認定を獲得し、LLaMA2やFalconなどのオープンソースの競合企業に勝ち、グローバルオープンソース大型モデルの「ダブルチャンピオン」となった。


Yi-34Bは、当時の国産モデルとしては唯一、Hugging Faceの世界オープンソースモデルランキングでトップに輝き、「世界最強のオープンソースモデル」と呼ばれた。

このモデルは発売後、国内外の多くの研究者や開発者の注目を集めました。

しかし最近、一部の研究者は、Yi-34B モデルは基本的に LLaMA アーキテクチャを採用しているが、2 つのテンソルの名前を変更していることを発見しました。

元の投稿リンク: https://news.ycombinator.com/item?id=38258015

この投稿には次のようにも書かれています。

Yi-34B コードは実際には LLaMA コードを再構築したものですが、大きな変更は加えられていないようです。このモデルは明らかにオリジナルの Apache 2.0 LLaMA ドキュメントに基づいた編集ですが、LLaMA については何も言及されていません。  

Yi と LLaMA のコード比較。コードリンク: https://www.diffchecker.com/bJTqkvmQ/

さらに、これらのコード変更はプルリクエストを通じてトランスフォーマー プロジェクトに送信されず、外部コードとして添付されるため、セキュリティ上のリスクが生じたり、フレームワークでサポートされなくなったりする可能性があります。 HuggingFace リーダーボードでは、カスタム コード戦略がないため、最大 200K のコンテキスト ウィンドウでこのモデルをベンチマークすることすらできません。

彼らはこれが 32K モデルであると主張していますが、4K モデルとして構成されており、RoPE スケーリング構成はなく、スケーリング方法の説明もありません (注: Zero One Thing は以前、モデル自体は 4K シーケンスでトレーニングされているが、推論フェーズ中に 32K にスケーリングできると述べています)。現時点では、その微調整データに関する情報はゼロです。また、疑わしいほど高い MMLU スコアを含むベンチマークを再現するための手順も提供されていません。

AI の分野で一定期間働いたことがある人なら、このことに気づかないはずがありません。これは虚偽広告ですか?ライセンス規制に違反していますか?実際のベンチマーク不正行為?誰が気にする?次の論文に切り替えるか、この場合はベンチャーキャピタルの資金をすべて受け取ります。 Yi はベースモデルなので、少なくとも標準以上であり、パフォーマンスも良好です。

数日前、Zero One Everything Huggingface コミュニティで、ある開発者が次のように指摘しました。

私たちの知る限り、Yi は 2 つのテンソルの名前が変更されたことを除いて、LLaMA アーキテクチャ全体を使用しました。 (入力レイヤーノルム、ポスト注意レイヤーノルム)

議論の中で、一部のネットユーザーは、Meta LLaMA アーキテクチャ、コード ベース、および関連するすべてのリソースを実際に使用する場合は、LLaMA が規定するライセンス契約に従う必要があると述べました。

LLaMA のオープンソース契約に従うために、開発者は名前を元に戻し、huggingface に戻しました。

01-ai/Yi-34B、テンソルの名前が標準の LLaMA モデル コードに合わせて変更されました。関連リンク: https://huggingface.co/chargoddard/Yi-34B-LLaMA

これを見ると、数日前にアリババを辞めて自分のビジネスを始めた賈陽青が友人の間でどの会社の名前を挙げていたかが分かる。

この件に関しては、マシンハートもゼロワンエブリシングに確認済み。 Zero One Everythingは次のように答えた。

GPT は業界で認められた成熟したアーキテクチャであり、LLaMA は GPT に関する概要を作成しました。 Zero One Everythingが開発した大型モデルの構造設計は、GPTの成熟した構造に基づいており、業界トップの公開成果を活用しています。同時に、Zero One Everythingチームは、モデルとトレーニングに関する理解に基づいて多くの作業を行ってきました。これは、最初のリリースで優れた結果を達成するための基礎の1つです。同時に、ゼロワンエブリシングは、モデル構造レベルでも本質的なブレークスルーの探求を続けています。

モデル構造はモデルトレーニングの一部にすぎません。 Yiオープンソースモデルは、データエンジニアリング、トレーニング方法、ベビーシッター(トレーニングプロセスの監視)技術、ハイパーパラメータ設定、評価方法、評価指標の本質に対する深い理解、モデル一般化機能の原理に関する徹底的な研究、業界をリードするAIインフラ機能など、他の側面にも多くのエネルギーを費やし、研究開発と基礎作業に多額の投資を行ってきました。これらの作業は、多くの場合、基本構造よりも大きな役割を果たし、より大きな価値を持っています。これらは、大規模モデルの事前トレーニング段階におけるZero One Everythingのコア技術的堀でもあります。

多数のトレーニング実験中に、実験実行の要件によりコードの名前が変更されました。オープンソース コミュニティからのフィードバックを尊重し、コードを更新して、Transformer エコシステムへの統合を強化します。

コミュニティからのフィードバックに大変感謝しています。私たちはオープンソースコミュニティを始めたばかりですが、皆さんと協力して豊かなコミュニティを作りたいと考えています。Yi Open-source は今後も進歩を続けられるよう最善を尽くします。

<<:  Googleに買収された後、大規模なモデル競争がOpenAIに遅れをとる理由がようやく分かった

>>: 

推薦する

中国 NeurIPS の著者の 54% が米国へ:ケンブリッジ AI パノラマ レポートが発表

NeurIPSに受理された論文のうち、著者の29%は中国の大学で学士号を取得していますが、そのうち...

機械学習と人工知能がサイバーセキュリティを向上させる方法

[[375875]]今日、サイバー攻撃はますます蔓延しており、組織が導入しているセキュリティ ツール...

Java データ構造とアルゴリズム分析 (VIII) - スプレー ツリー

ストレッチツリーの紹介スプレー ツリーは特殊な二分探索ツリーです。特別なのは、バイナリ検索ツリーであ...

ビジネスオートメーション、斗山の市場成功の鍵

ますます激化する競争の中で、どのように効率的に生産するかと問われれば、答えは自動化の助けを借りること...

李開復:中国の大型モデル競争は非常に激しく、最終的には大きな勝者が数人出るだろう

12月28日、ベンチャーキャピタリストで元Google China社長の李開復氏の予測によれば、中国...

...

Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

9月15日、北京人工知能産業サミットおよび中関村科学城科学技術イノベーションコンテスト授賞式において...

ゼロシューテクノロジーのCTO、ラン・チュンジア氏:ブロックチェーンと人工知能の交差点はデータにある

「ブロックチェーンが停滞期に入ることは必ずしも悪いことではありません。この期間中、私たちはゆっくりと...

...

見逃せない 7 つのディープ ニューラル ネットワーク可視化ツール

TensorBoard: TensorFlow 統合可視化ツールGitHub 公式プロジェクト: h...

...

...

...

「検索」は終わり、「レコメンド」も終わるのか?

ザッカーバーグ氏は最近、苦境に立たされている。 Facebookが名前を「Meta」に変更して以来、...

米国のパイロットがエイリアンの存在を確認!米国は10年間UFOのリバースエンジニアリングを行っており、マスク氏はそれを否定していない

ちょうど昨日、米国議会は、米国政府が不時着したエイリアンの宇宙船とエイリアンの遺体を発見し、それを隠...