2023年の夏は終わったが、AIGCビッグモデルを巡る注目は衰える気配がない。 過去 6 か月間、私たちは狂気とも言える大規模なモデルの波の台頭を目撃してきました。 7月時点で中国国内の大型モデルの数は130台を超えた。 これらの大規模モデルの作成者には、国営企業と民間企業の両方、大学、研究所、その他の研究機関が含まれます。ある意味、大型モデルをリリースすることは、自らの強さをアピールする手段にもなっている。 国内のインターネット大手である百度とアリババが早くから独自の大規模モデルを立ち上げていることに気づいているかどうかはわかりません。しかし、BATの「ビッグスリー」の1つであるテンセントは、常に非常に控えめな姿勢を保ってきた。 数日前の9月7日、2023年テンセントグローバルデジタルエコシステムカンファレンスで、テンセント独自の汎用大規模言語モデル「テンセントフンユアン大規模モデル」がついに公開されました。 テンセントのビッグモデルはなぜ「急いでいない」のか?彼らはこの技術の波を真剣に受け止めていないのでしょうか?それとも、AI技術が不十分で競争に遅れをとっているのでしょうか? 明らかに、これらの記述はどれも正しくありません。 ChatGPT は AIGC ビッグ モデル ウェーブの導火線ですが、ビッグ モデルの最も初期の始まりではありません。 業界における大型モデルの研究は、実は数年前から始まっていました。当時、AIGC はあまり人気がありませんでした。 2022年末、ChatGPTが突如現れ、その驚くべき自然言語機能を実証し、社会全体のビッグモデルへの注目を完全に刺激しました。 前述のように、多くの企業が大規模なモデルの構築に多大な労力を費やす理由は、単に「トレンド」を追いかけるためです。 テンセントグループの副社長、江傑氏はインタビューで「テンセント社内では、今日に限ったことではなく、ずっと前からフンユアンの内部テストを行ってきた」と語った。テンセントは中国で最も早く大型モデルの研究を始めた企業の一つだ。テンセントは2021年に数千億規模の大規模なNLPモデルを立ち上げました。 2022年、テンセントは数兆個のパラメータを持つ大規模なNLPスパースモデルを立ち上げました。つまり、大規模モデル研究は国内トップクラスだということです。 ChatGPT が人気を博した後、テンセントはビッグモデル戦略についてより合理的に考え、次の 4 つの自問自答を提起しました。
慎重に考え、熱心に議論した後、彼らはようやく答えを整理し、自分たちのペースで着実に前進しました。 テンセントのHunyuanモデルはこのような背景から生まれました。 次に、テンセントのHunyuanモデルがこれら4つの自己探求の質問にどのように答えるかを詳しく見てみましょう。 質問 1: なぜ大規模なモデルが必要なのでしょうか?今年3月、テンセントの社長兼投資委員会委員長であるマーティン・ラウ氏は、財務報告の電話会議で次のように述べた。「AIは、当社の将来の事業成長を加速させるものとなるでしょう。生成AIと基本モデル技術は、テンセントの事業を補完し、最適化することができます。…(ビッグモデルは)将来、各事業ラインで積極的な補完的役割を果たすでしょう。同時に、これは新しい事業の立ち上げにも役立ちます。」 同氏はまた、「成功を急がず、まずはしっかりとした基盤を築き、それから新たな進歩を追求し、正しい道を着実に進んでいきたいと考えています。当社の最初の製品は、何度も繰り返して完成した製品であり、プロセス全体は長期にわたるものとなるでしょう」と述べた。 彼の発言は、テンセントの大規模モデルに対する戦略的な姿勢、つまり自社の事業ラインと密接に統合し、着実に前進し、長期にわたって反復していく姿勢を実際に示している。 記者会見では、テンセントグループ上級執行副社長兼クラウド・スマート産業グループCEOの唐道勝氏も「最大の価値を引き出すには、ビッグモデルは業界のシナリオに基づき、企業データと統合する必要がある」と述べた。 つまり、テンセントは、単に大きなモデルを構築するためだけに、大きなモデルを構築するわけではないのです。やるからには実用性を重視します。 この目標に基づいて開発されたHunyuan大型モデルは、「実践から来て実践に向かう」実用的な大型モデルです。起動速度や評価スコアではなく、実際のシナリオと真に統合してユーザーの真のニーズを満たす方法に重点を置いています。 質問2: 大きなモデルを作るにはどうすればいいですか?ビッグモデルは技術的なゲームです。やると決めた以上、差別化された競争優位性を生み出し、適切な技術的ルートを見つけなければなりません。 テンセントのHunyuanモデルの最大の特徴は、完全に自社開発されていることだ。 業界内の既存の大規模モデルの多くはオープンソース モデルです。そのままの状態で使用し、同じパターンに従うだけで、当然起動速度は速くなります。 江傑氏は、テンセントは大規模で並行性の高いビジネスであり、オープンソースアーキテクチャはテンセントに適していないと述べた。独立したシステムに基づく研究開発の道を歩む必要がある。自己研究を通じてのみ、コアテクノロジーを完全に習得し、大規模なモデルを自社のテクノロジースタックに適切に統合することができます。そのため、彼らは独自の研究開発というより挑戦的な道を歩み始めました。 テンセントのHunyuanモデルは最初のトークンからゼロからトレーニングされており、モデルアルゴリズムから機械学習フレームワーク、AIインフラストラクチャに至るまで、フルリンクの自社開発技術を習得しています。 アルゴリズムの面では、テンセントは事前トレーニングをゼロから開始し、事前トレーニングのアルゴリズムと戦略を最適化し、学習を微調整して強化し、注意メカニズムを改善し、新しいマインドチェーンアルゴリズムを開発しました。 機械学習フレームワークに関しては、テンセントは自社開発の機械学習フレームワーク「Angel」を使用しており、そのトレーニング速度は業界の主流フレームワークの1倍、推論速度は業界の主流フレームワークの1.3倍高速です。 インフラ面では、 Yunxingxinghai が自社開発したサーバーをベースにした新世代 HCC 高性能コンピューティング クラスターを採用し、超強力な GPU を搭載することでパフォーマンスを 3 倍向上させました。 コンピューティング パワー クラスターの基盤となるネットワーク ベースである StarPulse は、業界最高の 3.2T の通信帯域幅を備えており、大規模な AI モデルの通信パフォーマンスを 10 倍向上させることができます。 Xingmai Networks は、自社開発の TiTa プロトコルと自社開発の TCCL 通信ライブラリを通じて、ネットワーク利用率を通常のイーサネットの 60% から 90% 以上に高め、クラスター全体のコンピューティング能力の利用率を大幅に向上させます。 検証によると、テンセントの新世代コンピューティング クラスターは、同じデータ セットで大規模な Hunyuan NLP モデルのトレーニングに役立ち、トレーニング時間を 50 日から 4 日に短縮できます。 質問 3: 大きなモデルはどのような外観になるでしょうか?フルリンクの自己開発への投資は莫大ですが、その見返りも大きいです。 テンセントのHunyuan大規模モデルは、1000億を超えるパラメータスケールと2兆を超えるトークンの事前トレーニング済みコーパスを備えており、強力な中国語作成機能、複雑なコンテキストでの論理的推論機能、信頼性の高いタスク実行機能を備えています。 業界の既存のビッグモデルと比較すると、テンセントのHunyuanビッグモデルは信頼性と成熟度において大きな向上を遂げています。 まず、大規模言語モデルの幻覚率を減らすことができます。 大規模モデルを使用したことがある読者は、大規模モデルでは「深刻なナンセンス」の問題が起こりやすいことをご存知でしょう。つまり、AI モデルは現実世界に属さないコンテンツを生成します。これが「幻想」です。 「幻覚」は、大規模言語モデルを製造するすべてのメーカーが直面するべき重要な問題です。技術がどれだけ進歩しても、現在のモデルアーキテクチャでは「幻覚」を避けることはできません。 「幻覚」問題に対処するために、業界で現在一般的に採用されている解決策は、プラグインを使用することです。つまり、知識ベースを大規模モデルに「プラグイン」して、推論中に検索できるようにし、検索結果に基づいて出力することで精度を向上させます。 この方法は、複雑なタスクに直面した場合、効果が限られます。 テンセントのHunyuanモデルが採用しているアプローチは、事前トレーニング段階で「真実発見」アルゴリズムを通じて事実を修正するというものだ。プラグインへの依存をなくし、複雑なタスクにおける錯覚を効果的に軽減します。 テストによると、事前トレーニングのアルゴリズムと戦略を全体的に最適化した後、Hunyuan 大規模モデルは、他の主流のオープンソース大規模モデルと比較して幻覚率を 30%~50% 削減しました。 合理性を高め、「でたらめ」を減らす 第二に、Hunyuan大型モデルの「トラップ」認識能力が大幅に向上し、「誘導」に対する抵抗力が高まりました。 大きなモデルを使用する場合、多くの場合、人々はそれを「からかう」ことがあります。言い換えれば、いくつかの巧妙な質問をして、大きなモデルに「罠」を仕掛け、ばかげた答えを得るのです。 Tencent は強化学習手法を使用して、Hunyuan モデルが「罠」を識別し、「からかい」を拒否することを学習できるようにし、アプリケーションのセキュリティとインテリジェンスを向上させます。データによると、セキュリティ関連の質問に直面したとき、Hunyuan モデルの拒否率は 20% 増加しました。 「穴を掘る」ことを拒否する 前述の信頼性の向上に加えて、Hunyuan は成熟度も大幅に向上しました。 Hunyuan 大規模モデルは、短いテキストや数千語の長いテキストを生成する機能をカバーしています。 現在市場で入手可能な大規模モデルは、非常に長いタスクの処理に実装するのが困難です。テンセントは、位置エンコーディングの最適化を通じて長いテキストの処理効果とパフォーマンスを向上させ、命令に従う最適化と組み合わせて出力コンテンツを単語数の要件にさらに一致させることで、非常に長いテキストを生成して書き続ける能力を向上させます。 論理的思考能力の点では、Hunyuan モデルは推論と意思決定を実際のシナリオと組み合わせています。 大規模モデルのトレーニングでは、一部のチームは大規模モデルに小中学校の数学の問題を暗記させて学習させます。しかし、現実の世界では、質問を暗記するだけでは十分ではありません。大きなモデルでは、文脈を理解する能力も必要です。テンセントは新たな思考チェーン戦略を打ち出し、問題を分解して段階的に考えるというモデルの傾向を効果的に強化しました。 上記の特徴により、Hunyuan の大型モデルは、ユーザー エクスペリエンスの面で従来の大型モデルとは大きく異なります。よりインテリジェントになり、より安定したパフォーマンスを発揮し、本物の専門家やアシスタントのような存在になります。 中国情報通信研究院の「大規模事前学習モデル技術および応用の評価方法」の標準準拠テストにおいて、Hunyuan 大規模モデルは合計 66 の機能を評価しました。 「モデル開発(計29の能力項目をテスト)」と「モデル能力(計37の能力項目をテスト)」という2つの重要な領域の総合評価において、現時点で最高のスコアを獲得しました。 質問 4: Hunyuan モデルの使用方法を教えてください。先ほど、Hunyuan モデルは「実践から生まれ、実践に向かう」実践的なモデルであると述べました。テンセントは、渾源の実用価値を最大限に発揮させるために、自らの多くのインターネット事業を渾源と統合し、実行することに率先して取り組んできました。 現在、テンセントクラウド、テンセント広告、テンセントゲーム、テンセントファイナンシャルテクノロジー、テンセントカンファレンス、テンセントドキュメント、WeChat検索、QQブラウザなど、50を超えるテンセント社内の業務と製品がテンセントフンユアンモデルのテストに接続され、初期成果を達成しています。 テンセントの機械学習プラットフォーム部門の副部長である王迪氏は、テンセントのHunyuanモデルとさまざまな製品の組み合わせは強制的な拘束関係ではなく、製品のユーザーエクスペリエンスの最適化とAIによる効率性の向上に重点を置いていると述べた。 たとえば、Hunyuan をベースにした Tencent 会議 AI アシスタントは、会議中の質疑応答、会議の要約、会議の ToDo 項目など、さまざまなタスクを迅速に処理できます。 たとえば、Hunyuan をベースとした Tencent Docs のインテリジェント アシスタント機能 (現在ベータ版) は、数十のテキスト作成シナリオをサポートするだけでなく、数百の専門的なドキュメント標準を生成したり、自然言語を使用して数百の Excel 数式を生成したりすることもできます。 王迪氏は、ビッグモデルの機能をビジネスシーンと組み合わせる過程では、例えば、渾源ビッグモデルの基本的な指示理解機能やテキスト要約機能と、会議アプリのAI機能や会議コンテンツ生成機能をどのように組み合わせるかなど、多くの作業を行う必要があると述べた。大きなモデルをそのまま導入しただけでは、短期的にはビジネスに大きな改善をもたらさない可能性があります。ビジネス シナリオに合わせて特別な最適化と効率改善を実施することによってのみ、より良い結果を達成できます。 渾源大型モデルの研究過程で、私たちは実際にテンセントの豊富な応用シナリオから技術を蓄積してきました。シナリオはモデルをトレーニングし、モデルはシナリオにサービスを提供することで好循環を形成します。 蒋傑氏は、テンセント渾源ビッグモデルチームはまず技術そのものの開発に注力し、本質に立ち返り、技術のブレークスルーと道筋の計画に取り組んでいると述べた。内部的には、Hunyuan のすべての機能が Tencent のすべての事業に公開されます。 社内業務シナリオの実践は、外部サービスの開設に備えることです。記者会見で、江傑氏は厳粛に次のように発表した。「テンセント・フンユエン・ビッグモデルは、業界全体を助けるために、テンセント・クラウドを通じて正式に一般に公開されました。」 Hunyuan 大規模モデルは、Tencent Cloud の MaaS サービスの基盤となります。ユーザーは、API を通じて Hunyuan を直接呼び出すことができるだけでなく、Hunyuan をベースモデルとして使用して、さまざまな業界のシナリオ専用のアプリケーションを構築することもできます。 結論テンセントの 4 つの主要な魂の問いの探求は、最終的に渾源モデルの出現の基礎を築きました。 諺にもあるように、「努力は方向が正しいときにのみ意味を持つ」のです。テンセントは、慌ただしい状況の中でも、合理的な思考を貫き、目標を明確にした上で、果敢な投資を行い、独自の厳しい研究を遂行した。最終的に、彼らは時の試練に耐える製品を生み出し、独自の道を切り開きました。 彼らのアプローチは間違いなく正しく、業界全体にインスピレーションを与えています。百機種戦争が徐々に激化するにつれ、多くの企業が自らの自己省察に直面することになるだろう。 波が砂をすべて洗い流し、砂がなくなると、本当の金が現れます。正解を出したビッグモデルだけが最後に笑って、本当の勝者になれるのです。 |
>>: エッジAI: ディープラーニングをより効率的にする方法
急速に発展するデジタル時代において、ビジネスの成功にとって高品質で効率的なテスト サービスが重要であ...
[[408943]] 7月1日のニュースによると、最近、ヨーロッパの大学の中国の科学者は、シート状の...
またタトゥー?興味深いのは、この取引の解約手数料の詳細がまだ発表されていないことです。現時点では、独...
導入CART は C4.5 に似ており、決定木アルゴリズムの一種です。さらに、一般的な決定木アルゴリ...
[[425806]]多様なアクセラレータ セットでトレーニングされた大規模で複雑なニューラル ネット...
Java の文字の組み合わせソートは、特に難しい問題ではありません。ブルートフォースとグラフ理論 (...
人工知能(AI)の可能性は魅力的です。セキュリティ管理者への警鐘。自律的な自己学習ソリューションの力...
2023年、大規模AIモデルの分野におけるTransformerの優位性が揺らいだ。この挑戦のきっか...
人工知能 (AI) 音声アシスタントは近年大きな進歩を遂げ、スマートスピーカーやその他の AI スマ...
人工知能の発展の観点から見ると、GPT シリーズのモデル (ChatGPT や GPT-4 など) ...
計算能力、データ、アルゴリズムは、現代の機械学習 (ML) の進歩を導く 3 つの基本的な要素です。...
COVID-19パンデミックが始まって以来、私たちのほとんどは友人、同僚、家族とのリモートビデオ通話...