ゲスト | ハオ・ジエ インタビュー | 袁偉 執筆者 | Yun Zhao 「短期的な価値を過大評価し、長期的な影響を過小評価する」。新しいテクノロジーのホットスポットが出現するたびに、私たちはいつも警告を耳にします。 新しいテクノロジーが実際に驚くべき変革効果を生み出すまでには、長くも短くもない「誇大宣伝」のギャップがしばしば存在します。一部の参入者は勇敢に前進し、それを楽しむ一方で、他のプレーヤーはペースを落とし、イノベーションの価値を強調する方法を再考します。 では、「多額の資金」を投じて構築されたビッグモデルは、どのように期待値を発揮できるのでしょうか? 業界向けのビッグモデルを構築するにはどうすればよいでしょうか? そして、ビッグモデル製品の品質を評価するにはどうすればよいでしょうか? 中国の企業データインテリジェンスアプリケーションソフトウェアのリーダーである Minglu Technology Group の CTO、Hao Jie 氏をお招きし、長年 AI 技術に深く携わってきた先駆者として、ビッグモデル技術の波の中での製品イノベーションについてお話しいただきます。 1. より安価な方法ChatGPT は大流行しましたが、そのトレーニング コストの高さは AI コミュニティ全体に警鐘を鳴らしています。これは確かに非常に高価なテクノロジーです。パラメータの数、データの量、データ処理、計算能力、ストレージ、推論の展開などのコストなど、非常に高い投資が必要です。企業が大規模モデルに参入しようとするときはいつでも、「資金の浪費」は克服できない問題です。 しかし、Minglue Technologyの状況は異なります。 Minglue の顧客には、美容、化粧品、自動車、3C、健康など、さまざまな業界が含まれます。具体的には、ビッグモデルの時代においては、効果的なテクノロジーとサービスを自社の製品、マーケティング、販売、サービスなどのプロセスに取り入れることを意味します。したがって、この問題はより要求が厳しくなっています。ハオ・ジエ氏は「あまりお金をかけずに、さまざまな業界で大きなモデルを作る必要があります」と述べています。たとえば、美容業界の大きなモデル、自動車業界の大きなモデル、3C業界の大きなモデルなどです。 「そのため、技術的な観点から見ると、私たちは大規模なモデル適応の問題に直面しています。」適応の粒度は、業界適応、つまりシーン適応とプロセス適応よりも小さくなります。水平方向には、多言語や多言語適応などもあり、これらはすべて私たちが解決する必要がある問題です。 例えば、Minglue には、多言語対応などの技術を伴う、社会世論分析や東南アジア市場におけるインサイトなど、海外事業、または海外の顧客が行っている事業がいくつかあります。 適応とは、実際には可能な限り低いコストで非常に良い効果を達成することを意味します。優れたビッグモデルには、一般的なビッグモデルが備えている優れたロジックと流暢な言語能力が必要です。同時に、一般的なビッグモデルには備わっていない、特定の業界や特定分野における事実の信憑性と専門性も実現する必要があります。 後者はまさに私たちがより良くできる可能性が高いものです。まさに業界のビッグモデルを実現するための道です。業界ビッグモデルとシナリオビッグモデルは、一般的なビッグモデルとは異なり、数千の業界のシナリオに注入して適応することができ、コストも低いです。 2. 産業ビッグモデルの重要なステップMinglu Technology は、さまざまな業界に関する多くの理解と認識を蓄積しており、これらの認識はナレッジ ベースまたはナレッジ グラフの形で Minglu Technology 内に蓄積されています。 Minglu Technology のサブブランドである Miaozhen System は、あらゆる分野の顧客にソーシャル メディア プラットフォームのコンテンツ分析インサイトを提供しています。たとえば、チームには経験豊富な業界アナリストがおり、レポート分析の生成やインサイト分析において、研究開発チームがさまざまなツールとサービスを提供しています。 そのため、Minglu には現在、多くの主要産業、つまり重要産業に関するナレッジ ベースとナレッジ グラフがすでに存在します。ナレッジ ベースと比較すると、ナレッジ グラフは知識表現のレベルまたは階層が高く、より完璧です。 大規模な業界モデルを作成する場合、Minglue には知識拡張と呼ばれる非常に重要なステップがあります。これは、蓄積された知識ベース、知識グラフ、またはエンティティ関係や属性などの非常に価値の高いコンテンツを使用して、大規模なモデルのトレーニングに参加します。このように、特定の業界やシナリオでトレーニングされた大規模モデルの評価結果は、一般的な大規模モデルの評価結果よりも大幅に高くなることがよくあります。これがMinglueの方法論です。 3. 製品の重要なポイント:理想と現実の間の考慮製品化するかどうかは、その時点の技術の成熟度とユーザーの受容度によって決まります。需要が固定的で技術の成熟度が不十分な場合、迅速かつ容易に開発をサポートすることは困難です。ある著名な投資家はかつて、1,000人のチームが1年間、Tencent Conferenceをベースにした自動議事録作成に取り組んだが、精度はわずか60%だったのに対し、ChatGPTは90%の精度を達成できたと語った。 では、R&D の意思決定者は AI 製品の開発を決定する前にどのような点を考慮するのでしょうか? Hao Jie 氏は自身のチームの事例について語ってくれました。 2021年、ハオ・ジエは業界や研究分野の同僚と何度か真剣な議論を行い、議事録を整理するためのTencent Meetingプラグインツール製品を開発するかどうかを目標にしました。 「オンライン会議はますます増えており、誰もが非常に厳しい要求を持っています。さらに、Minglueは、テンセントのWeChat for Businessを中心に開発された重要な革新的な会議ツール製品に取り組んでいます。これは本質的に、Tencent DocsやTencent Meetingsと密接に関連しています。そのため、当時、このようなアイデアが浮かんだのは自然なことでした」とハオ・ジエ氏は回想する。 議論の最終結果は、一昨年に直接やったのではなく、昨年末から実行し始めて、すでにマイルストーンを達成したというものでした。 「私たちは現在、会議分析の SaaS ソフトウェアを持っています。このツールは、会議のオーディオ ファイルをメイン コンテンツに基づいてストリップに自動的に分割できます。私たちはこれを「Small Strips」と名付けました。」 「小条」はMinglueの音声認識と自然言語処理技術をベースにしており、ビッグモデルのインターフェースにも接続されています。会議の文字起こし機能があり、編集技術を組み合わせてコンテンツの独立したセクションにマークを付けることもできます。これにより、後でもう一度聞いたり、編集時に重要なポイントを見つけたりするのに便利です。非常に実用的で便利な会議ツールです。 ChatGPT が登場した後、会議分析などのサービスは大規模なモデルを浅くカプセル化しただけのものとなり、コストは非常に低くなります。 しかし、これには意思決定者がタイミングを非常に正確に把握することも必要です。これは、新たなレッドオーシャンへの参入も意味します。学生でも、大規模なモデルの助けを借りて、キャンパス内の会議分析システムやオンライン授業ビデオの分析およびセグメンテーション システムを作成できます。現時点での競争は、製品の機能とハイライト、そしてユーザーへの配信プロセス中の設計についてどのようにより思慮深く考え、SaaSソフトウェアと「雪だるま式」を通じてより多くの加入者を獲得できるかに関するものです。 4. 慎重な楽観論: 大規模モデルも混乱に陥る今日、技術開発は前例のない速度で進んでおり、「数日で測定される反復速度」とも言えます。では、生成 AI の限界はどこにあるのでしょうか? Hao Jie 氏の意見では、生成 AI と大規模モデルには明らかに限界がある。 「天井はないと考える人もいるかもしれないし、規模が拡大し続ければ、この新たな能力はさらに発揮され、それがAGIへの唯一の道だと言う人もいるかもしれない。これは非常に楽観的な見方だ。」 ハオ・ジエはこれについて慎重な姿勢を保っていた。技術の発展は常に一歩一歩前進しています。大規模モデルの技術を少なくとも部分的に覆すような技術が必ず登場するでしょう。 確かに、大規模モデルは「大きすぎない事前トレーニング済みモデル + チューニング」というこれまでの時代を覆す可能性があります。また、大規模モデル技術と融合し、大規模モデルを覆すような化学反応を起こすような新しい技術も登場するでしょう。 「モデルは徐々に規模が変化し、効果に一定の質的変化が起こり、それが新たな能力の出現です。」大規模モデルもTransformerなどの基本モデルの上に成り立っており、徐々にBERTやGPTが開発されていった。つまり、それはディープラーニングでもあり、より深く、より広く、より大きな次元で極限に到達した産物であり、それ自体が緩やかな変化なのです。 天井に対応する変数はどこにあるかと言えば、ハオ・ジエは「今年、すでに地球の片隅で、大きなモデルを覆す技術、あるいはより優れた技術が芽生えているかもしれない」と大胆な予測を立てた。この予測には、追跡すべき痕跡がある。時は1991年、ハオ・ジエチュが大学に入学した頃まで遡ります。その年、日本の文部省は第5世代コンピュータの開発が失敗したと発表したばかりだった。当時、第 5 世代のコンピューターの目標は、「聞く、話す、歌う、踊る」ことと、「認識して理解し、創造する」ことの両方ができるようになることでした。 「実際、第5世代コンピュータの目標を見てみると、OpenAIが現在、そしてこれから達成しようとしている大きな目標と一致しています。しかし、なぜ当時は失敗したのでしょうか。ニューラルネットワークをあまり深くすることができなかったため、勾配消失や勾配爆発の問題が発生し、当時は解決できず、計算能力が追いつかなかったのです。ちょうど同じ頃、1992年に、LSTMの偉大な父であるシュミットフーバーと彼の学生が多層ニューラルネットワークを提案し、30年以上前に階段消失や階段爆発の問題を解決しました。そして、その年の彼の貢献こそが、2012年以降にディープラーニングが輝くきっかけとなったのです。」 では、巨大モデルの天井を突破するにはどうすればよいでしょうか。答えは、どこかの隅、無名の実験室、あるいは無名の教師や生徒の中にあるかもしれません。 「また、いつか私たちの脳内にひらめきが生まれ、同じようなインスピレーションが生まれることを期待しています。」 5. 大きなモデルからすべてを再現する必要はない大型モデルは良いのですが、盲目的な熱狂は泥沼に陥ることが多く、熱中するとコストを考慮しない人も多くいます。 Hao Jie 氏の意見では、どんな犠牲を払ってでもビッグ モデルを使用してすべての製品とサービスを作り直すことは極めて非現実的です。 「同僚や友人にこうやって会うと、私は彼らに『カードを何枚持っているの?』と聞くんです」。国内のA100カードは20万枚しかないと言われており、大企業になると数万枚の価値があるカードも存在する。したがって、チームや個人に割り当てることができる計算能力は、実際にはほんのわずかです。 企業でこれらの製品やサービスを作るときは、非常に包括的かつバランスのとれた考慮をする必要があります。費用対効果と入出力を考慮する必要があります。 「当社は顧客のシナリオに基づいて製品やサービスの有効性、効率、コストを考慮し、最適なバランスを実現するよう努めています」とハオ・ジエ氏は語った。 では、ビッグモデルを乱用するのではなく、有効活用するにはどうすればよいでしょうか。Hao Jie 氏は続けて、「顧客がマーケティング ソフト アイテムの生成などの生成タスクを本当に実行する必要がある場合、ビッグモデルなしでは対応できません。ビッグモデルの力を有効に活用する必要があります」と述べました。 しかし、企業がすでに成熟した機能を備えた製品やサービスを持っており、それらが小さなモデルに基づいて構築されている場合、結果は非常に良好になります。そうすれば、もう一度やり直す必要はありません。最初からやり直すということは、開発を繰り返すことを意味するだけでなく、展開および推論コストの増加につながる可能性もあるためです。さらに、大規模なモデルと GPU 推論を盲目的に使用すると、顧客に不必要な負担をかけることにもなります。 「顧客がサービスの結果に満足していない場合や、新しい機能を追加したい場合のみ、モジュールを再設計して再開発する必要があります。これが、大規模モデルを乱用せずに有効活用する方法についての私の理解です。」 新しい用語が登場した後、どのように追いつくのでしょうか。これまでの技術資産を有効活用し、以前の技術パラダイムで蓄積されたエンジニアリングスキルとアルゴリズムの革新を分析し、これらの貴重な経験を新しい技術パラダイムに移植できるかどうかを判断する必要があります。たとえば、Transformer の技術モデルに小さな改善やマイクロイノベーションを加えた場合、それを GPT のような大規模なモデルに移行して有効性と効率性の向上を実現できるかどうかを簡単に考えることができます。 6. 大規模モデルのパフォーマンスを判断する方法新しい技術が登場すると、多くの場合、政府機関を含む業界内に評価標準化団体が数多く誕生します。標準化団体は業界標準を策定しますが、政府レベルの標準は、初期段階でこれらの技術の評価方法、評価基準、指標の定義から始まることが多いです。 具体的には、Minglu Technology は、関連する大規模モデル技術および製品に対する独自の評価指標も持っています。たとえば、生成された画像の品質には、ピーク信号対雑音比、平均二乗誤差、エラーなど、CV 分野のいくつかの客観的な評価指標が含まれるだけではありません。また、主観的な評価指標もいくつか含める必要があります。主観的な評価では通常、12 人、数十人、またはそれ以上のユーザー/新規ユーザーを招待して、生成された画像/ビデオを観察し、スコアを付けてもらいます。次元には、明るさ、コントラスト、色のコントロールに関する主観的な快適スコアや、同一性や喜びの感覚をもたらす画像やビデオコンテンツ自体に関する主観的な感情など、多くのものが含まれます。 実際、細分化された分野の中には、一般的に受け入れられている指標も多くありますが、さらに検討して合意に達する必要のある新しい指標も数多くあります。 このような製品やサービスが特定の業界やシナリオに導入されると、Minglue はこれらのシナリオの特定の指標に基づいてさらなる評価を実施します。これはより洗練された定義であり、一部の業界標準に登場する評価指標であることが多いです。 「2021年末の国際話者認識コンテストで、Mininglamp Technologyの音声チームが1位を獲得しました。当社はこれまでにも、機械翻訳と偽造防止顔認識で世界1位を獲得しています。昨年末には、当社のBlockformerが中国語音声認識で1位を獲得しました。当社は、重要な国際コンテストやランキングで、AIの3つの主要サブフィールドで1位を獲得しました。これは、当社のAI技術が業界の最前線に入ったことを示しており、このような結果をお客様に提示することで、お客様に自信を与えています。」 Hao Jie 氏は、将来的には大規模モデル評価サービスを専門とする組織や機関が登場すると予測しています。 「携帯電話業界のベンチマークウェブサイトのように、十分な競争を経て、特定の種類の製品とさまざまな指標に特化した評価機関が1つ以上出現するでしょう。そのため、遅かれ早かれ、世界中の誰もが信頼するいくつかの評価機関に個人予測モデルが登場するでしょう。それらはサブ分野で高度に要約された評価指標を持ち、あらゆる職業の生産シナリオをカバーするだけでなく、全人類の多くの生活シナリオもカバーできます。」 7. ランキングは目標ではなく、競争力が目標です現在、業界では第三者による評価がかなりの信頼性を持っています。そのため、外部のコンテストに参加したり、ランキングを操作することは、自社製品の競争力をアピールするための重要な選択肢となることがよくあります。 「多くの場合、独自に定義したテスト セットだけに頼り、業界全体のベンチマークがなければ、説得力に欠けることがよくあります。上司はあなたと競合他社の違いを本当に聞きたいですし、顧客もあなたと競合他社のどちらが優れているかを知りたいので、第三者による評価に頼ることは避けられません。」 実際、「競争」の意味合いが強いAI界隈では、「ランキング操作」は珍しくありません。AIに取り組む学生は、自分自身や自分のチームを証明するために、第三者が定義した指標のもとでどのような結果やランキングを達成したかなど、ランキング操作によってアルゴリズムを証明する必要があることがよくあります。 闘志が絶えず太鼓を鳴らすよう促し、競争はますます激しくなってきます。 AI人材チームの構築に関しては、Minglu Technologyは常に「競争を通じてトレーニングする」というトレーニング方法を堅持してきました。 「音声合成分野の『ブリザードチャレンジ』、機械翻訳業界の最高峰のコンテスト『WMT国際機械翻訳コンテスト』、音声認識分野のCHiMEシリーズなど、AI分野では毎年トップレベルで重要なコンテストが開催されています。昨年末には『中国語標準語音声認識ランキング』で1位を獲得しましたが、評価に使用されたデータベースはAISHELL-1でした。」 もちろん、チャートを操作することは手段であり、目的ではありません。 「私たちの主な目標は、この技術を自社製品やさまざまなシナリオに実装するために全力を尽くすことです。同時に、競争ランキングによって私たちの技術を検証し、顧客の前でより説得力のあるものにすることも必要です。」 人材の募集、雇用、トレーニングは、優れたチームを構築する上で必ず答えなければならない質問であり、AI チームも例外ではありません。長年の積み重ねを経て、ハオ・ジエは「強い心、厳しい手、高いビジョン」というマントラをまとめた。 意志が強いということは、たとえ今は三流であっても、大きな夢を持ち、心の中では非常に強い決意を持ち、業界で一番になろうと決意している人材を見つけなければならないということです。 「私たちは彼の心と同じくらい大きな舞台を与え、彼が最高になれるようにします。」 ここでの「ハードワーク」とは、「両手でハードワークする」ことを意味します。「私たちは、エンジニアリングとアルゴリズムの両方がハードワークでなければならないことを強調します。この方法でのみ、より優れたシステムとより優れたモデルを作成できます。」 高い目標を掲げる、つまり高い目標を設定することです。「トップレベルの大会で優勝を目指すべきです。私たちはその過程でチームをトレーニングしています。」 8. 最後に春の花は無数にありますが、秋の果物ほど良くはありません。新たな技術の潮流が生まれると、常に「理想主義的な実用主義者」は独自のルートで新たな世界を発見します。彼らは一方では、その分野で自らの優位性を深め、技術を磨き、潜在能力を試し、他方では世界に目を開き、果敢に戦い、航海に出ています。 明陸科技は、高い目標、現実的な成果、無謀さや誇張のない姿勢で、常に「花が咲き乱れ、目が眩むほど」の大きなモデルの波の中で、理想を持った実務家です。 「大きなモデルに知識を注入しましょう!問題を解決するための重要なポイントを見つけましょう!」 インタビュー企業紹介: Mininglamp Technology は、エンタープライズ ブレインの構築と、人間と機械が連携する美しい世界の創造に取り組んでいる、中国のエンタープライズ データ インテリジェンス アプリケーション ソフトウェアのリーダーです。 Minglu Technology は 17 年間にわたりエンタープライズ サービスの分野に深く携わり、組織がデジタル変革におけるマーケティングと運用シナリオの商業的価値を探求できるよう支援してきました。 Minglu Technologyはデータの価値を徹底的に探求し、企業のオンラインとオフラインのデータを統合し、顧客ジャーニー全体のデジタルビジネスシナリオを構築し、企業のマーケティング効率と人員効率を大幅に向上させます。現在までに、国内外の大手企業2,000社以上と政府機関200社以上にサービスを提供しており、消費、メディア、金融、飲食など複数の業界に力を与えています。 |
>>: AIの言語学習は人間の脳と非常に似ています!新たな研究により、言語は人間の生来の能力ではなく、機械も学習できることが証明された。
AIは非常に新しい芸術を演じています。 「とんでもないと合理的な境界線を繰り返しテストする」一連の写...
デジタル トレントは、さまざまな新興テクノロジーが成熟し、新しいビジネスや新しいアプリケーションが出...
[[403666]]ストラトキャスターとテレキャスターのギターを製造するカリフォルニア州コロナに本社...
ACL は国民を怒らせた!今朝、この投稿のせいで AI コミュニティ全体が騒然となった——ニューヨー...
機械学習は、大規模なデータセットを分析してパターンを識別する能力があることで知られています。基本的に...
Alibaba DAMO Academyは、画像や動画の分析、機械学習などのAI推論計算に使用される...
[[402579]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
大規模言語モデル (LLM) は、学界や産業界から幅広い注目を集めています。有用な LLM を開発す...
著者: ユン・チャオ[51CTO.com からのオリジナル記事]コンピュータ プログラミングを使用し...
[[377893]] [51CTO.com クイック翻訳] データとオープンソースの機械学習フレーム...
[51CTO.com からのオリジナル記事] 金融テクノロジーのブームは 21 世紀以降急増してい...