李開復のLLaMAに基づく企業モデルだが、テンソル名が異なっており論争を巻き起こしたが、公式の回答が来た。

李開復のLLaMAに基づく企業モデルだが、テンソル名が異なっており論争を巻き起こしたが、公式の回答が来た。

少し前に、オープンソースのビッグモデル分野に新しいモデル「易」が導入されました。このモデルはコンテキストウィンドウのサイズが 200k を超え、一度に 400,000 の中国語文字を処理できます。

この大型模型は、イノベーションワークスの会長兼CEOである李開復氏が設立した大型模型会社「ゼロワンエブリシング」によって製作されたもので、Yi-6BとYi-34Bの2つのバージョンが含まれています。

英語版オープンソースコミュニティプラットフォーム「Hugging Face」と中国語版C-Eval評価リストによると、Yi-34Bは打ち上げ時に複数のSOTA国際最高性能指標認定を獲得し、LLaMA2やFalconなどのオープンソースの競合企業に勝ち、グローバルオープンソース大型モデルの「ダブルチャンピオン」となった。


Yi-34Bは、当時の国産モデルとしては唯一、Hugging Faceの世界オープンソースモデルランキングでトップに輝き、「世界最強のオープンソースモデル」と呼ばれた。

このモデルは発売後、国内外の多くの研究者や開発者の注目を集めました。

しかし最近、一部の研究者は、Yi-34B モデルは基本的に LLaMA アーキテクチャを採用しているが、2 つのテンソルの名前を変更していることを発見しました。

元の投稿リンク: https://news.ycombinator.com/item?id=38258015

この投稿には次のようにも書かれています。

Yi-34B コードは実際には LLaMA コードを再構築したものですが、大きな変更は加えられていないようです。このモデルは明らかにオリジナルの Apache 2.0 LLaMA ドキュメントに基づいた編集ですが、LLaMA については何も言及されていません。  

Yi と LLaMA のコード比較。コードリンク: https://www.diffchecker.com/bJTqkvmQ/

さらに、これらのコード変更はプルリクエストを通じてトランスフォーマー プロジェクトに送信されず、外部コードとして添付されるため、セキュリティ上のリスクが生じたり、フレームワークでサポートされなくなったりする可能性があります。 HuggingFace リーダーボードでは、カスタム コード戦略がないため、最大 200K のコンテキスト ウィンドウでこのモデルをベンチマークすることすらできません。

彼らはこれが 32K モデルであると主張していますが、4K モデルとして構成されており、RoPE スケーリング構成はなく、スケーリング方法の説明もありません (注: Zero One Thing は以前、モデル自体は 4K シーケンスでトレーニングされているが、推論フェーズ中に 32K にスケーリングできると述べています)。現時点では、その微調整データに関する情報はゼロです。また、疑わしいほど高い MMLU スコアを含むベンチマークを再現するための手順も提供されていません。

AI の分野で一定期間働いたことがある人なら、このことに気づかないはずがありません。これは虚偽広告ですか?ライセンス規制に違反していますか?実際のベンチマーク不正行為?誰が気にする?次の論文に切り替えるか、この場合はベンチャーキャピタルの資金をすべて受け取ります。 Yi はベースモデルなので、少なくとも標準以上であり、パフォーマンスも良好です。

数日前、Zero One Everything Huggingface コミュニティで、ある開発者が次のように指摘しました。

私たちの知る限り、Yi は 2 つのテンソルの名前が変更されたことを除いて、LLaMA アーキテクチャ全体を使用しました。 (入力レイヤーノルム、ポスト注意レイヤーノルム)

議論の中で、一部のネットユーザーは、Meta LLaMA アーキテクチャ、コード ベース、および関連するすべてのリソースを実際に使用する場合は、LLaMA が規定するライセンス契約に従う必要があると述べました。

LLaMA のオープンソース契約に従うために、開発者は名前を元に戻し、huggingface に戻しました。

01-ai/Yi-34B、テンソルの名前が標準の LLaMA モデル コードに合わせて変更されました。関連リンク: https://huggingface.co/chargoddard/Yi-34B-LLaMA

これを見ると、数日前にアリババを辞めて自分のビジネスを始めた賈陽青が友人の間でどの会社の名前を挙げていたかが分かる。

この件に関しては、マシンハートもゼロワンエブリシングに確認済み。 Zero One Everythingは次のように答えた。

GPT は業界で認められた成熟したアーキテクチャであり、LLaMA は GPT に関する概要を作成しました。 Zero One Everythingが開発した大型モデルの構造設計は、GPTの成熟した構造に基づいており、業界トップの公開成果を活用しています。同時に、Zero One Everythingチームは、モデルとトレーニングに関する理解に基づいて多くの作業を行ってきました。これは、最初のリリースで優れた結果を達成するための基礎の1つです。同時に、ゼロワンエブリシングは、モデル構造レベルでも本質的なブレークスルーの探求を続けています。

モデル構造はモデルトレーニングの一部にすぎません。 Yiオープンソースモデルは、データエンジニアリング、トレーニング方法、ベビーシッター(トレーニングプロセスの監視)技術、ハイパーパラメータ設定、評価方法、評価指標の本質に対する深い理解、モデル一般化機能の原理に関する徹底的な研究、業界をリードするAIインフラ機能など、他の側面にも多くのエネルギーを費やし、研究開発と基礎作業に多額の投資を行ってきました。これらの作業は、多くの場合、基本構造よりも大きな役割を果たし、より大きな価値を持っています。これらは、大規模モデルの事前トレーニング段階におけるZero One Everythingのコア技術的堀でもあります。

多数のトレーニング実験中に、実験実行の要件によりコードの名前が変更されました。オープンソース コミュニティからのフィードバックを尊重し、コードを更新して、Transformer エコシステムへの統合を強化します。

コミュニティからのフィードバックに大変感謝しています。私たちはオープンソースコミュニティを始めたばかりですが、皆さんと協力して豊かなコミュニティを作りたいと考えています。Yi Open-source は今後も進歩を続けられるよう最善を尽くします。

<<:  Googleに買収された後、大規模なモデル競争がOpenAIに遅れをとる理由がようやく分かった

>>: 

ブログ    
ブログ    
ブログ    

推薦する

Java 仮想マシンの詳細な説明 ---- GC アルゴリズムとタイプ

この記事の主な内容: GCの概念GCアルゴリズム参照カウント方式(循環参照の問題を解決できず、Jav...

中国の機械工、黄永剛氏のチームの新しい研究:脳への光遺伝学インプラントがマウスを一瞬でゲイの友達に変える

研究者らはマウスの頭蓋骨に神経インプラントを埋め込み、インプラントを作動させるとマウスはすぐに交流し...

...

なぜ人工知能は第四次産業革命と呼ばれるのでしょうか?

[[234940]]過去2年間、世界のIT大手は人工知能の分野で展開してきました。GoogleはD...

...

機械学習を学ぶ必要がない5つの理由

機械学習を学び始めるべきだと言うインフルエンサーが増えています。彼らの言うことを聞くべきでしょうか?...

GPT-4 脳を解読する 0 コード!海外のネットユーザーがLLMのガードレールを突破し、AIに段階的に爆弾を作らせる

ネットユーザーが何か新しいものを思いつきました! OpenAI は大規模言語モデルの安全ガードレール...

コカ・コーラの新たな試み:アートや広告制作における生成AIの活用

生成型 AI の新たな波に直面して、私たちはそれに積極的に適応するか、AI (または AI を受け入...

Python による階層的クラスター分析

[[334729]]機械学習を行う際には、データのクラスター分析を行う必要があることがよくあります。...

ロシアのロボット宇宙飛行士が3Dプリントされた骨組織サンプルを持って地球に帰還

ロシア衛星ネットワークによると、最近、ロシアの「3Dバイオプリンティングソリューションズ」社のマネー...

人工知能と機械学習がビジネスに及ぼす影響

[[400670]]人工知能と機械学習が今日のテクノロジー業界のあらゆる部分に影響を与えていることは...

私をプログラマーと呼ばないで、私は「AIエンジニア」です、マスク氏:自然言語プログラミングを始めましょう

ChatGPTの出現後、人々は「すべての産業がAIによって再編され、一部の職業は置き換えられ、一部の...

ソフトウェア開発に AI とアジャイル管理を導入するための 9 つのヒント

[51CTO.com クイック翻訳] ご存知のとおり、人工知能 (AI) は 1956 年の誕生以来...

テレンス・タオ:私の数学的経験に基づくと、室温超伝導LK-99とその再現は非常に刺激的です

昨今、室温超伝導の再現に対する世界的な熱気は衰えを知らず、さまざまな有力者が自らの見解を表明している...

このオープンソースプロジェクトは、Pytorchを使用して17の強化学習アルゴリズムを実装しています。

強化学習は過去 10 年間で大きな進歩を遂げ、現在ではさまざまな分野で最も人気のあるテクノロジーの ...