テンセントが論文を提出しました！とても誇りに思う

執筆者 | Mo Yan & Yun Zhao

「国家チーム」テンセント渾源モデルがついに本日論文を提出しました！

事前トレーニングコーパスは2兆トークンを超えており（GPT3.5は3000億トークンのみ）、幻覚や超長文タスクの処理における実際の問題はGPT4を超えています。テンセントクラウド、広告、WeChat検索、ミニプログラムなど、複数のエコシステムがテストに接続されています...確かに爽快な答えを出しました。

B サイドサービスでは、異なるアプローチも提供されています。顧客は API に基づいて Hunyuan を呼び出すことも、Hunyuan に基づいて独自の業界固有の大規模モデルを作成することもできます。さらに、Tencent Cloud は Llama 2 や Bloom など 20 を超える主流モデルを完全に統合しており、Hunyuan と同様に、すべて直接展開と呼び出しをサポートしています。

本日開催されたテンセントグローバルデジタルエコシステムカンファレンスでは、Hunyuanに関する多くの情報が公開されました！要約すると、現実的です！中国語版も誇らしいですね！

1. GPT4を上回るエネルギーに満ち溢れている

大規模モデルは非常に「スマート」ですが、その使用シナリオは非常に限られており、主にフォールトトレランスが高くタスクが単純なレジャーシナリオに集中しています。これに対応して、テンセントはアルゴリズムレベルで一連の自社開発の革新を実施し、モデルの信頼性と成熟度を向上させました。

その理由は、Tencent Hunyuan が大規模モデルの一般的な問題をいくつか解決するからです。

大規模モデルが「ナンセンス」になりやすいという問題に対処するため、テンセントは事前トレーニングのアルゴリズムと戦略を最適化し、主流のオープンソース大規模モデルと比較して、Hunyuan 大規模モデルの幻覚を 30% ～ 50% 削減しました。強化学習法を通じて、モデルはトラップ問題を識別することを学習しました。位置エンコーディングの最適化を通じて、非常に長いテキストの処理効果とパフォーマンスが向上しました。また、新しい思考チェーン戦略を提案し、大規模モデルが人間のように実際のアプリケーションシナリオに基づいて推論し、決定を下せるようにしました。

まずは「幻想」に宣戦布告！「幻覚」の問題は、常に大規模モデルの慢性的な病となってきました。言語モデルでは、いわゆる「幻覚」は、単に重大なナンセンス、つまり、一見まともで、真面目で流暢に思えるが、実際には間違っているか、事実と矛盾している表現を指します。幻覚の存在は、大規模モデルの信頼性と信憑性に重大な影響を及ぼします。

幻覚が発生する理由は、トレーニングにノイズの多いデータを使用すること、モデルパラメータに関する知識が偏っていること、トレーニングと実際のアプリケーション間のデコードが異なることなど、数多くあります。

業界では、検索強化や知識強化グラフなどのプラグインを通じて、大規模モデルのオープンブック試験の機能を向上させるという実践もありますが、テンセントチームは、このアプローチは実際のシナリオでは大きな制限があり、機械的な適用や誤認が生じやすいと考えています。蒋傑は「関公対秦瓊」の例を挙げた。

関公と秦瓊のどちらが強いでしょうか？

Tencent は、この問題を解決するために、事前トレーニング段階でプローブベースのテクノロジーを使用して目的関数を最適化します。これにより、市場で一般的なオープンソースの大型モデル Llama と比較して、幻覚率が 30% ～ 50% 効果的に削減されます。第二に、大型モデルの罠を識別し誘惑に抵抗する能力が大幅に向上し、拒否率が 20% 増加しました。

第二に、超長文タスクの処理に関しては、最も強力な機能を持つと知られているGPT4でさえ、4,000語を超える単語を生成することはできません。Hunyuan大規模モデルは、位置エンコードの最適化を通じて、長文の処理効果とパフォーマンスを向上させます。指示に従う最適化と組み合わせることで、出力コンテンツは単語数の要件にさらに一致します。これにより、大規模モデルのアプリケーションに「束縛を破る」体験をもたらすことができます。超長文の生成と継続をサポートします。特許と短編小説はすべて補助的なAIソリューションを持っていると言えます。

GPT4が実行できないタスク: 4,000語を超えるタスク、コンテンツはトピックと一致している必要がある

3つ目は、現実のシナリオにおける論理的思考能力が強化されることです。問題集にある質問を暗記するよりも、文脈の中で実際の問題を特定する方がよいでしょう。たとえば、「90 年代以降の従業員の採用」に関する現実的な質問 (GPT4 と Hunyuan のみが正しく回答し、GPT3.5 と他のモデルは誤って回答しました)。

昨年、当社には 315 人の従業員がおり、そのうち 1/5 が 1990 年以降に生まれた従業員でした。今年、当社は 1990 年以降に生まれた従業員をさらに採用し、1990 年以降に生まれた従業員の割合が全従業員数の 30% に達しました。今年、1990 年以降に生まれた従業員は何人採用されましたか?

写真

2. 非常に競争力がある：フルリンクの自社開発イノベーション

渾源大型モデルが正式に発表された際、「フルリンク自社開発」という印象的なラベルが添えられていた。

江傑氏は次のように説明した。「オープンソースのビッグモデルは、テンセントの大規模な高同時実行シナリオには適していません。自社開発によってのみ、技術的なコアを完全に習得し、ビッグモデルをテンセントのテクノロジースタックにうまく統合することができます。」

江傑氏によると、テンセントのHunyuan大規模モデルは最初のトークンからゼロからトレーニングされており、モデルアルゴリズムから機械学習フレームワーク、AIインフラストラクチャに至るまで、フルリンクの自社開発技術を習得しているという。大規模、高品質、多様なコーパスから革新的な大規模モデルアルゴリズム、自社開発の Angel 機械学習フレームワーク、革新的なトレーニング方法に至るまで、R&D 機能を網羅しています。

テンセントは2021年以来、数千億、数兆のパラメータを持つNLPスパース大規模モデルを相次いでリリースし、CLUEリストの3大記録を破り、中国語理解能力の新たな飛躍的進歩を達成しました。

さらに、テンセントは独自の機械学習フレームワーク「Angel」も開発しており、業界の主流フレームワークと比較してトレーニング速度が1倍、推論速度が1.3倍に向上しています。

3. 「実行者」：大きなモデルは現実的な問題である

新しい技術を評価する場合、評価機関やリストが多数存在することがよくあります。大規模な言語モデルの場合、部外者は「チャートを独占する」ことや「高得点」の興奮しか見ていませんが、さまざまなチャートスコアはさまざまな使用シナリオで適用可能な機会を表していることを理解していません。

テンセントクラウド、テンセント広告、テンセントゲーム、テンセントファイナンシャルテクノロジー、テンセントミーティング、テンセントドキュメント、WeChat検索、QQブラウザなど、50を超えるテンセントの事業と製品がテンセントフンユアンモデルのテストに接続され、初期成果を達成しました。テンセントグループの副社長、江傑氏は次のように語った。「大規模モデルを開発する私たちの目標は、評価で高いスコアを得ることではなく、テクノロジーを実際のシナリオに適用することです。」

たとえば、広告ビジネスのシナリオでは、テンセントのHunyuan Big Modelはインテリジェントな広告素材の作成をサポートし、業界や地域の特性に適応し、何千人ものニーズを満たし、テキスト、画像、ビデオの自然な統合を実現します。さらに、Hunyuan の大規模モデルの機能に基づいて、インテリジェントなショッピングガイドを宣伝することで、企業 WeChat などのシナリオで小売業者がサービスの品質と効率を向上させることができます。

Hunyuan ビッグモデルは、Tencent Cloud の MaaS サービスの基盤となることが分かっています。顧客は API を通じて Hunyuan を直接呼び出すことができるだけでなく、Hunyuan をベースモデルとして使用して、さまざまな産業シナリオ専用のアプリケーションを構築することもできます。

特筆すべきは、前日、「テンセント・フンユアン・アシスタント」というミニプログラムがWeChatで正式に開始されたことだ。これは、Hunyuan モデルに基づくインテリジェントなユーザーアシスタントです。さまざまな質問に答え、知識の獲得、数学の問題の解決、翻訳、旅行ガイドの提供、仕事の提案など、さまざまなタスクを処理できます。現在、「Tencent Hunyuan Assistant」アプレットは招待されたユーザーのみが利用できます。興味のある友人は、レビューと体験のためにキューに申し込むこともできます。

4.結論：ビッグモデルは長期戦であり、テンセントは非常に安定している

以前のメディア報道によると、国内の大手モデル11社が相次いで「生成人工知能サービス管理暫定弁法」の登録を通過し、テンセントもその中に含まれるという。有利な政策の下、国内のAIビッグモデルは急速な進歩から何よりも実用性の追求へと移行し、「ビッグモデルの戦い」は「ビッグモデル応用の戦い」へと変わり、ビッグモデルの戦いは新たな転換点を迎えている。

パラメータをめぐる競争が基礎研究開発の基盤能力を反映するのであれば、アプリケーションをめぐる競争は足場を築けるかどうかを決める絶対的な競争力となります。「百式戦」は明らかに応用トラックの競争段階に入っているが、AIGC時代にとってはまだ始まったばかりだ。

App Storeに掲載されたからといって、順風満帆というわけではない。OpenAIのChatGPTのような強力なモデルでさえ、「山あり谷あり」の試練を経験している。チームの募集によってもたらされる膨大なコンピューティングパワーの消費と金銭的コスト、そして一緒にエコシステムを構築できるほど十分なユーザーがいるかどうかが、国内の大規模モデルの成功の鍵となる。

実際のシナリオで、大規模言語モデルをユーザーの仕事や生活のニーズに真に応えられるものにするにはどうすればよいのでしょうか。また、そのモデルは十分に正確なのでしょうか。十分速いですか?それは十分に革新的でしょうか?十分安全ですか?これらはすべて、大規模な模型製品を作るときに繰り返し自問する必要がある質問です。

テンセントにとって、製品体験を磨き、アプリケーションシナリオを革新することは、決して難しい質問ではありません。結局のところ、巨大なユーザーベースとエコシステムがすでに形成されており、残っているのは時間だけかもしれません。

<<: WOTカンファレンスは11月に深センで開催されます！テクノロジー界の「トップグループチャット」をお見逃しなく

>>: ロボット工学の可能性を解き放つ：産業に革命を起こし、人々の生活を向上させる