7 月 19 日、オープン ソース コミュニティの最も強力な大規模モデルが Llama から Llama2 にアップグレードされました。後者は 2 兆個のトークンでトレーニングされ、トレーニング データは 40% 多く、推論、コーディング、熟練度、知識テストなど、多くの外部ベンチマークで他のオープン ソース言語モデルよりも優れています。 「これまでのオープンソースの大規模モデルは、Llamaのようなコミュニティを形成しておらず、Llamaシリーズのモデルは、この非常に活発なコミュニティ文化の下で発展してきました。これは、Llamaシリーズのモデルが多くのタスクで急速に進歩し、商用標準にさえ達することにも直接つながりました」と、ノースイースタン大学の教授であるシャオ・トン氏はSyncedに説明した。 GPT-3.5 レベルは、一般的に大規模モデルの商用利用の標準ラインと考えられています。Llama2 モデルの 70 億、130 億、700 億のパラメータを持つ 3 つのパラメータ バリアントのうち、700 億バージョンは MMLU および GSM8K の GPT-3.5 のレベルに近いです。これは、オープンソースのビッグモデルの代表として、Llama2 が初めて大規模な商用化の検討対象となり、開発者が無料でオープンソースかつ商業的に実現可能なビッグモデル ベースを手に入れることを意味します。 今年 5 月、Google のエンジニアが社内記事を書き、無料の制限のない代替手段 (オープンソース モデル) がクローズド ソース モデルと同等の品質である場合、ユーザーは制限付きモデルに料金を支払わないだろうと述べました。 2ヵ月後、この予測は現実となった。モデルのトレーニングに Llama2 を使用する開発者の数は急速に増加しています。 Metaが公開した情報によると、Llama2はリリースから1週間以内に15万件以上のダウンロードリクエストを受けており、その数は今も増加中だという。Metaはこれについて「信じられない」と述べた。 オープンソースとクローズドソースのビッグモデル間の競争が、この瞬間から正式に始まります。オープンソースのビッグモデルはコストが低く、反復速度が速く、カスタマイズの制限が高いという特徴がありますが、クローズドソースのビッグモデルの障壁は何になるのかが問題となります。 Llama2 または GPT-4Llama2 を選択する理由はたくさんありますが、最もわかりやすいのはコストです。 現在、GPT-4 インターフェースのコストは、プロンプト要求トークン 1,000 個あたり 0.03 ドル、完了した応答トークン 1 個あたり 0.06 ドルです。スタンフォード大学の研究者らは論文の中で、中小企業がマーケティング支援にGPT-4を使用する場合、月額コストは21,000ドル以上になる可能性があると推定した。広告コピーの作成に GPT-4 を使用しているある企業は、GPT-4 インターフェースに平均して月額 25 万ドル以上を支払っていると述べています。 国内のAIGCアプリケーションプロバイダーはMachine Heartに対し、Llama2は現在GPT-4と技術レベルで一定の差があるものの、GPT-4のコストが高いため、チームは依然としてLlama2を基盤モデルとして選択していると明かした。業界データを蓄積し、垂直シナリオに焦点を当てて出力することで、技術世代間のギャップを一部埋めることができるという。 「Llama2の登場後、OpenAIはおそらく最も大きな打撃を受けるだろう。APIを購入するのではなく、Llama2を直接ベースにした商用開発を始める企業が増えるだろう」とチーター・モバイルの会長兼CEOであるFu Sheng氏は述べた。 無料サービスの影響で、もともと OpenAI インターフェースを使用していたアプリケーション層企業は、どのルートを選択するかを再考することになり、市場の一部は Llama2 によって再編される可能性があります。 しかし、この決定は完全にコストの競争ではありません。 「より良いデータと最適化によって、Llama2とGPT-4の現在のギャップを埋めることができるかどうか」という質問に関しては、否定的な声が大多数を占めています。 ノースイースタン大学のシャオ・トン教授は例を挙げました。機械翻訳のシナリオを例にとると、Llama2のようなオープンソースモデルを使用して指示を微調整することができます。翻訳のパフォーマンスは良好ですが、最終的にはパフォーマンスの上限がまだ限られていることがわかります。これは、オープンソースの大規模モデルの一部の機能が事前トレーニング段階で獲得されるためです。そのため、指示とタスクが明確で、大量のデータがある場合でも、GPT-4の効果を達成することは依然として容易ではないことがわかります。 また、通常の公開と比較すると、Llama2 のオープンソースではデータ層の具体的な情報が公開されていないため、Llama2 の再現は制限された作業となりました。 「例えば、建物の場合、装飾したり、周辺機器を追加したりすることしかできませんが、鉄筋コンクリート構造を変える方法はありません。基礎を訓練する権限も能力もないので、その性能を突破することは困難です。GPT-4に近づくことは不可能です」と、崑崙万威のCEOであるファン・ハン氏は語った。 一部のアプリケーション開発者は、Llama2 と GPT-4 のレベルの現在のギャップを考えると、すべてを Llama2 に賭けるとコストも非常に高くなる可能性があると考えています。 「製品の革新ではなく、Prompt の最適化に多くの時間を費やすことになるかもしれません。」 したがって、GPT-4 は絶対的な技術的リーダーシップにより、結果に対する要件が比較的厳しく、コストに余裕のある顧客を引き続き引き付けます。 もちろん、既存市場の移転と比較すると、Llama2 のより大きな貢献は、AIGC 業界全体の増分市場への牽引力となるはずです。 AIGC の業界関係者は Synced に対し、Llama2 のオープン ソース化が多くのアプリケーション開発者の熱意に火をつけたと語った。オープン ソース化から数週間後、多くの開発者はこれをモバイル インターネットの黄金時代とみなし、自分たちのアプリケーションに適したニッチな市場を見つけたいと考えた。 Xiao Tong 氏が述べたように、Llama2 は、企業やチームが大規模なモデル アプリケーション レベルで迅速かつ低コストで開始し、製品やビジネス モデルのプロトタイプを作成できるようにサポートします。 Llamaを軸にしたアプリケーションがどんどん増えていくにつれ、「Llama2を軸にしたエコシステムが確立されるかもしれません。この移行は比較的難しいので、エコシステムが弾み車となるでしょう」とFu Sheng氏は述べた。将来的には、モデルの普及段階が来る可能性があり、アプリケーションに大規模モデルを使用するハードルは下がり続けるだろう。崑崙万為CEOの方漢氏は、中国ではLlama2の市場への影響は小型B市場に集中し、文学的なイラストやインテリジェントな小説執筆などのシナリオがより多くの競争相手を招くだろうと特に指摘した。 ここ数週間で、Llama2 は Amazon Sagemaker、Databricks、Watsonx.ai、Microsoft Azure、Alibaba Cloud、Baidu Qianfan などのさまざまなプラットフォームに接続され、Llama2 をめぐるエコシステムが発展し始めました。 ビッグモデルスタートアップの危機基盤となる大規模モデルを持つほとんどのスタートアップにとって、比較的明確な商業化の道筋は、OpenAI に倣い、GPT-3.5 レベルの独自のモデルを開発し、顧客に MaaS サービスを提供して、基盤となるモデルの機能を販売することです。 Llama2の発売前、オープンソースコミュニティで最も強力な大型モデルであるLlamaは商用ライセンスに制限があり、OpenAIのインターフェースは中国で不確実な規制リスクに直面していました。そのため、この2つと比較すると、市場競争における国産大型モデルの優位性は通常、「商品化可能性」、「データセキュリティ」、およびより優れた「サービスサポート」です。 Llama2の発売により、国内の大型モデルスタートアップの市場における競争力は弱まった。 「多くの公開テストセットから、中国のほとんどの大規模モデル企業のパフォーマンスがまだGPT-3.5には程遠いことがわかる」とAIの上級投資家は語った。言い換えれば、中国の大規模モデルスタートアップのほとんどにとって、Llama2 はより低価格(無料)、より強力な技術、そして商業的サポートを備えた競争相手を意味します。 独自の大規模モデルの開発経験が十分でない企業にとって、Llama2 の影響はさらに大きくなります。 Fu Sheng氏は、「Llama2はオープンソースのレベルをGPT-3.5に近いレベルまで引き上げました。現時点で自身の研究レベルがLlama2よりはるかに劣っているとすれば、それはこれまでの研究が無駄になった可能性があることを意味します」と考えています。 これらの企業には現在、2 つの選択肢があります。1 つは、自社研究の道を放棄し、これまでに蓄積したデータと経験を活用して、オープンソース モデルのトレーニングに Llama2 を使い始めることです。もう 1 つは、自社研究の道を貫きながらも、時間と費用のコスト、そして急速に進化するオープンソース エコシステムに最終的に追いつき、追い越すことができるかどうかを検討する必要があることです。どちらにしても難しい選択です。 Llama2 がオープンソース コミュニティに貢献する新しい技術的マイルストーンは、クローズドソース企業が自己研究を行うための全体的なハードルを上げるだけでなく、多数の企業の「自己研究を継続する」という決意を揺るがす可能性もあります。 「多くの企業にとって、自社開発の大規模モデルがLlama2を超えられない場合、自社モデルを開発する意欲はますます低下し、巨人の肩に頼る傾向が強まるだろう。これはむしろ心理的な影響だ」とMianbi IntelligenceのCTO、Zeng Guoyang氏は述べた。 自社の研究開発能力では短期的にはLlama2を超えることができないと考える企業については、「おそらく、既存のモデルとオープンソースモデルを組み合わせてアプリケーションを直接市場に提供し、最終的にデータのクローズドループを実現して継続的に反復することで、エンドツーエンドのアプリケーション企業になることを検討するだろう」と前述の投資家は述べた。 しかし、大手モデル企業の場合、「自主研究」路線に迷い込む可能性ははるかに低い。崑崙万為は2020年に大型モデルの準備を開始し、成熟して市販可能な大型モデル製品を発売した。 Kunlun Wanwei の CEO である Fang Han 氏は、Synced に対し、現時点で Kunlun Wanwei にとって最もエキサイティングなのは、GPT-3.5 から GPT-4 にアップグレードする方法であると語った。 「すでに検討中の中国の大手モデル企業のほとんどは、GPT-3.5を実現する方法については疑問を抱いていませんが、次のステップでGPT-4を実現する方法については、まだ多くの検討努力が必要です。そのため、Llama2は大手企業にとって技術的な参考価値がありません。」 同じく成熟した大規模モデル製品を発売しているMianbi IntelligenceのCTO、Zeng Guoyang氏も同様の見解を示している。彼は、技術的には、Llama2 はせいぜい特定のタスクにおけるベンチマークとして機能することができるが、最も参照に値する Llama2 のデータ処理レベルはオープンソースではないため、全体的な技術的参照の重要性は限られていると考えています。 市場競争の観点から見ると、国内市場では、Llama2と比較して、国内の大手モデル企業は、中国での実績がより優れており、規制の期待がより安定しており、サービスサポートがより便利で、市場チャネルがより近いです。したがって、Llama2 の無料の利点を考慮すると、より優れたパフォーマンスと使いやすいモデルを実現できる大手モデル企業は、理論的には全体的な優位性を維持し続けることができるでしょう。 さらに、大手モデルのトップ企業の場合、自主研究ルートに投資した埋没コストは、中期および後期の大手モデル企業の埋没コストをはるかに上回っています。さまざまな自主研究ルートは、多くの場合、企業が業界やシナリオに注力していることも表しています。大手企業は、自主研究を継続するのに十分な資金、人材、推進力を持っています。 Llama2 が国内の大手モデル企業に与える影響は、今後も継続していくでしょう。現在、世界の AIGC 業界はまだ成長の初期段階にあり、安定した市場構造は存在しません。基礎となる技術レベルがまだ初期段階にあるため、中国市場はより細分化されており、まだ発展途上です。世界的にはGPTのシェアが最も大きいはずで、現在Llama2が影響を与えられる国内市場は、GPTが規制の影響を受けることを懸念し、国内の大型モデルが適用できない顧客のみ。これは「一時的な市場」です。 しかし、「臨時株式市場」は全体としては大きくないが、臨時株式市場で自社のモデル事業化能力を証明することは、多くの大手モデル企業にとって「資金調達パス」となっている。上記の投資家はSyncedに対し、ターゲットを比較する過程で、Llama2には技術的な参考価値はあまりない(GPT-3.5はある)ものの、Llama2がもたらした商業化危機に同社がどう対応するかが投資家の関心事になると語った。大規模なスタートアップがこの市場競争に敗れ、資金調達に失敗すると、スタートアップの存続にも影響が出る可能性があり、現段階では、こちらの方が致命的な問題となるかもしれません。 長期的な堀はないLlama2 がクローズドソース企業の既存の市場シェアを奪い取ろうとしているのか、それとも業界全体のさらなる繁栄を促進しようとしているのかはともかく、「オープンソース AI が勝利している」という判断には、より実証的な証拠があるように思われます。 この見解は、今年 5 月に Google のエンジニアがイントラネット上で公開した文書から得たものです。 Google と OpenAI は依然として熾烈な AI 軍拡競争を繰り広げているが、エンジニアは文書の中で率直に次のように述べている。「オープンソース派と Google および OpenAI のモデル間のギャップは驚くべき速度で縮まっています。彼らはすぐに Google と OpenAI を追い抜くでしょう。私たちには堀がありません。」 「企業は前線で天井を押し広げ続け、後続の企業は追いつき続ける。たとえ自社に蓄積された技術的優位性があったとしても、他社が追いついてきたとき、その企業が何を成功させたかがわかり、(追いつくのは)容易になる」と西湖大学の張悦教授はSyncedに説明した。 Mianbi IntelligenceのCTOであるZeng Guoyang氏はさらに、現在公開されているGPT-4の具体的な技術状況から、特に魔法のような高度な技術を使用しているわけではないことがわかったと述べました。本質的には、誰もが理解できる技術を使用してスプライシングと組み合わせを行い、最終的により良い結果を達成しました。 主流のクローズドソースモデルが確実に追随されるのであれば、「長期的には、クローズドソースのビッグモデルには本当の堀がない」ことを意味するとZeng Guoyang氏とZhang Yue氏は考えている。 この前提の下では、オープンソース AI は間違いなく、そのフォロワーの中で最も競争力のある勢力です。オープンソース コミュニティのサポートにより、オープンソース モデルの反復速度は想像以上に速くなります。 Llama2 自体に欠けている中国語コーパスを例にとると、Meta が Llama2 をオープンソース化したわずか 1 日後に、ダウンロードして実行できる最初のオープンソースの中国語 Llama2 モデルである「Chinese Llama 2 7B」がオープンソース コミュニティに登場しました。 商業環境では、オープンソース モデルに基づいて開発された垂直 AIGC 製品会社が最近 Synced に、社内検証を行った結果、クローズドソース モデルの更新に対して 3 か月以内に、独自のデータとエンジニアリング経験を組み合わせて、独自の垂直シナリオで同様のレベルを達成できると確信していると語りました。 もちろん、短期的には、主要なクローズドソース モデルは、オープンソース モデルと比較して、依然として非常に明確な優位性を持っています。ノースイースタン大学のシャオ・トン教授は、オープンソースモデルと比較して、クローズドソースのルートを採用する大企業は、短期間で置き換えることが難しい人材、組織、データにおいて優位性を持っていると考えています。大企業には、人材の密度とレベルが高く、人材と高性能な設備を調整できる経験豊富なチームがあり、他社では入手できないデータにアクセスできる場合が多くあります。さらに、曽国陽氏は、大企業は十分な計算能力を持っていることが多いとも述べた。 「しかし、長期的には、データや計算能力などのさまざまな要素が徐々に追いつくでしょう。」 このプロセスにおいて、オープンソース モデルの真の影響はエコシステムの構築にあります。 「Llama2は、大規模モデルの上流と下流の統合を促進する可能性があります。規模の問題が解決されれば、コストは大幅に削減されます」とXiao Tong氏は述べています。 Llama2 は大規模モデルのオープンソース エコシステムの始まりに過ぎないかもしれませんが、「Llama2 の機能についてはまだよくわかっておらず、エコシステムの形成にも時間がかかるでしょう。」しかし、Llama2 のリリースにより、オープンソース コミュニティの技術的能力は新たなレベルに到達し、大規模モデルのオープンソース コミュニティの力はもはや無視できなくなりました。 |
>>: 1月に8万人以上の従業員が解雇されました!世界のテクノロジー業界のレイオフリストが発表されました。企業が大きいほど、レイオフする人数も多くなります。X社は従業員の半数を一気にレイオフしました!
[[346613]]この記事はWeChatの公開アカウント「Java Chinese Commun...
[[402482]]最近、当社の業務システムは、トークン バケット アルゴリズムに基づいて実装された...
[[252981]]ビッグデータダイジェスト制作編纂者:李磊、大潔瓊、雲周過去数年間にブラウザを開い...
8月28日、国家エネルギー音声の公式WeChatアカウントによると、龍源電力工程技術有限公司は最近、...
近年、人工知能は科学技術の発展の重要な方向となっており、ビッグデータの収集、マイニング、応用の技術は...
顔認識技術がさまざまな分野で持つ大きな可能性は、ほとんど想像できないほどです。ただし、最も洗練された...
Logreduce は、大量のログ データから異常を検出することでデバッグ時間を節約できます。継続的...
「ある瞬間、目の前のすべてがぼやけて、前方の道路状況がまったく見えませんでした。とても危険でした!」...
最近、清華大学コンピュータサイエンス学部の朱軍教授の研究グループが発表したシュレーディンガー橋[1]...
今日の人工知能 (AI) システムは、真の人間の知能を再現するにはまだ程遠い状態です。しかし、彼らは...