コスト削減と効率向上の観点から、機械学習チームの構成を例に挙げ、Dipu TechnologyのDeepexi製品ラインの社長であるBai Haifeng氏は次のように述べています。「従来の機械学習や小規模モデル技術の実装には高い人材が必要ですが、企業はこの問題を認識していないことがよくあります。具体的には、一般的に包括的なチーム、つまりデータサイエンスチームを構築する必要があり、これにはデータ開発エンジニア、BIエンジニア、ビジネスアナリスト、データサイエンティスト、アルゴリズムエンジニアなどの職種が必要です。人件費は非常に高くなります。インターネットや金融業界の大企業を除いて、従来の企業や中小企業がそのようなチームを編成することは困難です。」 人材要件が高い理由は、異なるポジションのスキルが大きく異なり、関連するツールやテクノロジースタックも比較的分散しているためです。たとえば、特定のアプリケーション分野の AI モデルも異なるアルゴリズムを使用しており、データ処理レベルのパイプラインは完全に自動化されていないことがよくあります。つまり、異なる釘には異なるハンマーしか対応できず、各ハンマーは安価ではありません。 したがって、小さなモデルではそれほど高い計算能力やデータは必要ありませんが、良好な結果を達成するための複雑さは依然として非常に高くなります。技術的な要素に加えて、チームのコラボレーションやビジネスの適応にも多くの困難があります。 「ビッグモデルの主な利点は、技術的なハードルを下げ、入力から出力までのテクノロジー スタック全体を短縮できることです。以前は多くの人員を必要としていたデータ サイエンス チームは、今では 1 人と複数のコパイロットだけで完了できます。この人物はビジネス部門の人でもかまいません。これは非常に独創的です。」 トレーニング技術の面では、大規模モデルは一般的に最初に自己教師あり学習を行って一般的な大規模モデルを構築し、次に教師あり微調整トレーニングを行って特定のタスク用のドメイン大規模モデルの初期バージョンを構築し、最後に RLHF トレーニングを行って人間の価値観に合わせ、問題解決、インターンシップ、ソーシャルワークという人間の学習と成長に似た 3 段階のプロセスを完了します。 最後の 2 つのステップは、大規模モデルを微調整し、大規模ドメイン モデルを構築するための主なステップです。トレーニング前は非常にカジュアルに質問に答える一般的な大規模モデル Llama 2 13B は、非常にプロフェッショナルなチャットボットである Llama 2 13B-chat にトレーニングできます。 微調整により、大規模なモデルの錯覚を軽減し、モデル出力の一貫性と専門性を高めることができ、一般的なモデルトレーニングに必要なデータの 1000 分の 1 または 1 万分の 1 のデータしか必要ありません。 需要側と供給側の条件が整えば、ビジネスモデルが形になり、企業が果たすべき役割は効率化を図ることとなる。 1. 効率構築: データは方法、モデルは技術効率性を構築する上での中心的な変数は、データ ガバナンスにあります。しかし、この「データ」の意味合いは、ビッグデータ時代の「データ」とは大きく異なります。 データ分析シナリオを対象とした従来のデータ ガバナンスは、アクティブ メタデータや AI 強化ガバナンスなどのテクノロジを含む構造化データに主に焦点を当てており、比較的成熟したシステムになっています。 データ ガバナンスの新しい意味合いは、大規模モデルのトレーニングで一般的に使用される非構造化データを対象としています。 非構造化データ ガバナンスの主な課題は、高品質のドメイン データを取得するためのコストです。 大規模モデルを微調整する一般的な方法は、命令の微調整です。ChatGPT と Llama 2 はどちらも命令の微調整の成果です。命令の微調整に使用されるデータは、プロンプトと応答の質問と回答のペアであり、GPT-4 などのより強力な大規模モデルによって生成されるか、手動で生成されます。 さらに、成熟した大規模モデルを主に使用してプロンプトに対する回答を段階的に分解し、より理解しやすいデータを取得するデータ拡張テクノロジである説明チューニングを使用して、さらに微調整と拡張を行うこともできます。これは主に、大規模なモデルに問題を段階的に分解して解決させることで、精度が大幅に向上するという経験に基づいています。さらに、Neftune のような魔法のようなデータ拡張テクノロジーがあり、モデルを通過してトレーニングした後、データにノイズを追加することで推論の精度を大幅に向上させることができます。 AI モデルは、機能強化に加えて、乱雑な非構造化データを圧縮および改良し、知識を抽出するのにも役立ちます。一般的に、パブリック インターネット上の Claude2、GPT-4、GPT-3.5 (ChatGPT) を使用して、プロンプトの形式でデータから情報を抽出し、大量のドキュメント データを構造化された知識に変換できます。企業がデータ セキュリティの問題を考慮する場合、Llama 2 13B や ChatGLM2 6B などの大規模なローカル モデルをローカルに展開して、これらのドキュメントを処理できます。 言い換えれば、非構造化データは、実際には、小規模モデルや大規模モデルを含む既存の成熟したモデルの助けを借りて、大部分が処理されています。 「例えば、石油化学業界のデータの大部分はマルチモーダルであり、探査掘削中に収集された画像データ、地震探知中に収集された地理データ、セキュリティ監視ビデオのデータ、IoTデータなど、非常に複雑です。これらのデータを活用するには、小規模モデルと大規模モデルの技術を通じて、そこから明示的および暗黙的な知識を抽出し、トレーニングされた大規模モデルでも理解できるようにする必要があります。これが非構造化データのガバナンス方法です。」 大規模モデルと小規模モデルを使用して人手を置き換え、非構造化データから高品質のデータを抽出することで、手動処理のコストを大幅に削減できます。 業界では大型モデルに対して常にこのような疑問があり、今日の大型モデルは小型モデルが行ってきたことを単に繰り返しているだけだと考えられています。「しかし実際には、大型モデルと小型モデルは、より豊かなレイヤーを持つモデルスタックを形成しています。それぞれの長所を十分に発揮することによってのみ、効率を最大化することができます。」 さまざまなサイズと機能を持つ AI モデルが内部エコシステムを構成しているようです。トレーニング中は、データを使用して相互に通信し、端末の大規模モデルの機能を強化します。推論中、ビッグモデルは意思決定のハブとなり、迅速なコミュニケーションを通じてタスクを計画します。 2. データセットのバランス: 正確性 vs 多様性データセットの品質の評価は多次元的であり、柔軟性、多様性、正確性といった複数の要素のバランスを取る必要があります。 その中で、柔軟性と多様性は、モデルがさまざまなプロンプトに対して一貫した回答を提供できることを意味し、これは一般的な大規模モデル アプリケーションでは非常に一般的です。ドメイン データに高い品質要件がある理由は、高い精度要件もあるためです。 「たとえば、Text to SQL のようなシナリオには、強い業界属性と高い精度要件があります。現在、業界関連のアプリケーションの精度は一般的に高くなく、ChatGPT は 80% 未満です。精度が 80% を超えない場合、実稼働環境では使用できません。」 さらに、一般的な大規模モデルのトレーニング データは柔軟性と多様性が最も高いものの、精度が最も低く、小規模モデルはその逆であることを考慮すると、ドメイン大規模モデルは実際には両者の中間に位置するため、これらの要素のバランスを取る必要があります。 Diptech は実際に、ドメイン データ セットがトレーニング データ セットの 30% を占め、一般データ セットが 70% を占める場合、トレーニングされた大規模ドメイン モデルは柔軟性、多様性、および精度のバランスをより適切に取ることができることを発見しました。このバランスにより、データ取得にかかる全体的なコストがさらに削減されます。 3. データタイプ: 別の次元品質に加えて、データの種類は知識表現の形式に基づいて分類することもでき、異なる形式は異なるトレーニング方法に対応します。 データまたはタスクには通常、2 つの主要なタイプがあります。1 つ目のタイプは、Java スレッドの解釈を言い換えるなど、表現が重いタイプです。2 つ目のタイプは、知識に関する質問と回答のタイプです。たとえば、クレジット限度額の正確な定義がわからない場合、関連する知識に関する質問に回答することはできません。 対照的に、2 番目のタスクでは、知識が増加し、モデル パラメータに大きな調整が必要になるため、モデルに対する要求が高くなります。 最初のタスクでは、モデルの微調整では、LoRA、QLoRA、Pチューニングなどの効率的な微調整方法を採用することが多く、大規模モデルの元のパラメータを保持し、モデルの前または後ろに新しいニューラルネットワークレイヤーを追加して推論を改善し、コストが低くなります。2番目のタスクでは、主にメモリサイズの点で高いハードウェア要件を持つフルパラメータ微調整方法が採用されています。たとえば、Llama 2 13Bのフルパラメータ微調整には、トレーニングを完了するために少なくとも80Gメモリを備えたA800が必要であり、Llama 2 7Bでは少なくとも24Gメモリを備えたRTX4090が必要です。さらに、過剰適合を防ぐために、データセットに対する要件も高くなります。 大規模ドメイン モデルは知識ベースのタスクに重点を置いており、一般的に、すべてのパラメーターの微調整が不可欠です。しかし、タスク自体もレベルに分かれており、最下位レベルは統計分析、最上位レベルは予測です。統計分析タスクは、テキスト分類、意図認識、エンティティ関係抽出など、より基本的なものであり、精度に対する要件が高くなります。比較すると、予測タスクでは、精度に対する要件は低くなります。 これは、テキストから SQL へのタスクにも反映されています。「統計分析は、何が起こるかに関するものですが、予測分析は、なぜ起こるかに関するものです。後者の精度は、通常、100% に達することはできません。」 もちろん、要件とメリットは別物です。高度なタスクでより強力な能力が得られると、それは現場での大規模モデルへの技術的障壁にもなります。このため、Diptech Technologyの5次元モデル基本能力評価モデルでは、文章理解や構文解析能力などの高度な能力次元に高い重みが与えられています。 4. 製品システム:効率、パフォーマンス、エクスペリエンスつまり、効率性とパフォーマンスは別物です。企業が製品を開発する際には、実装を確実にするために効率性を向上させるだけでなく、ユーザーエクスペリエンスを最大限に保証するために、効率性を確保しながらパフォーマンスを向上させる必要があります。 たとえば、Text to SQL によって生成された SQL 文をビッグ モデルで実行するか、従来のツールで実行するかという問題もあります。「現在一般的なビッグ モデルのデモンストレーションでは、データセットをアップロードしてビッグ モデルに分析させますが、これは実際のシーンとはかけ離れています。実際のシーンで直面するデータセットは、5 ~ 30M の Excel または CSV ファイルではなく、数万のテーブルと数十億のレコードを含むデータ レイクです。統計を行う際には、結合などの複雑なテーブル関連付けの計算も必要になります。ビッグ モデルが実際にこのようなシナリオに直面した場合、すぐにハングアップする可能性があります。しかし、ビッグ モデルは遅かれ早かれこの問題に直面するでしょう。そうでなければ、それはまだ実験室のおもちゃのままです。」 この問題を解決するには、まず大規模モデルを GPT-4 からローカル大規模モデルに切り替える必要があります。このとき、精度が急激に低下する可能性があります。「40% ~ 50% は高いと考えられます。」基礎ロジックの複雑さを克服するために、Dipu Technology は分析エンジン MQL (メトリック クエリ言語) を開発しました。このエンジンは、MySQL、Hive、ClickHouse などのさまざまなデータベース エンジンに統一的に接続できます。「MQL は柔軟なディメンション選択を通じて中間 MQL コードを生成し、高速化されたクエリを高性能で完了し、数ミリ秒で戻ります。したがって、当社のソリューションは Text to SQL ではなく Text to MQL です。MQL はさまざまなデータ ウェアハウス間の違いを統一しているためです。このアーキテクチャでは、モデルを微調整するだけで、Text to SQL の精度は 100% に達することができ、実稼働環境での実現可能性を保証するだけではありません。」 これらの方法論は、最終的に Diptech の大規模モデル製品計画に反映されます。 効率、パフォーマンス、エクスペリエンスのバランスをとるために、Diptech は完全な製品システムを計画しました。「当社は複数の側面から大規模モデルの製品システムを計画しました。最初の側面はコンピューティング パワーの基盤です。大規模モデルの事前トレーニングと微調整のコンピューティング パワー コストは非常に高くなりますが、一般的に顧客はコンピューティング パワー リソースが不足しており、ハードウェアにどのような大規模モデルを展開し、どのように展開すればよいかわかりません。このため、当社はハードウェアからモデルまで完全に統合され、顧客に提供される Fast5000E トレーニングおよびプッシュ オールインワン マシンを提供しています。顧客はシーンの適応と適用を考慮するだけで済みます。コンピューティング パワーは大きくなく、大手インターネット企業のそれよりはるかに低いですが、ほとんどの企業には十分です。」 その後、コンピューティング能力に基づいて、アプリケーション レベルでの効率を向上させ、開発の敷居を下げるために、Diptech は FastAGI インテリジェント エージェント プラットフォームを開発しました。これは、大規模なモデル ツール チェーンを迅速に構築するために使用されるエージェントまたはインテリジェント エージェント開発プラットフォームとして理解できます。当社は、インテリジェント エージェント機能を迅速に構築するための使いやすい開発ツールを提供しています。現在、高度なデータ分析を実行できるデータ エージェント、非構造化データを処理するドキュメント エージェント、および社内のエンタープライズ アプリケーションを拡張するためのプラグイン エージェントがすでにあります。これらの 2 つのコア製品に加えて、Diptech は、データ エージェントでのデータ分析用の Copilot やサプライ チェーン インテリジェント アシスタントなど、特定のビジネス シナリオに基づいて顧客がソリューションをカスタマイズするのを支援します。 これらの成果は、大規模モデル実装のトレンドに適応するという Diptech の認識を反映しているだけでなく、データ ガバナンスの意味合いを拡大するための Diptech の取り組みも反映しています。 データガバナンスの新しいトレンドは、テクノロジー、ツールベース、統合ガバナンス方式です。「一方で、比較的小規模な顧客の場合、従来のトップダウン型データガバナンス方式はサイクルが長く、結果も遅くなります。一般的に言えば、まず計画が必要であり、コンサルティング会社に依頼して、社内業務を実行する前に、関連する標準、仕様、プロセス、システムを確立します。このアプローチは大企業では問題ありませんが、中小企業には適していません。さらに、大規模モデルのデータガバナンスには、非構造化データの処理も含まれます。非構造化データと知識の間には大きなギャップがあり、専門家の敷居も高くなります。」 したがって、Diptech は、データ ガバナンスを従来のデータ ガバナンスからアジャイル データ ガバナンスに移行すべきだと主張しています。ディプテックはガートナーと共同で発表したホワイトペーパー「エンタープライズレベルのデータガバナンスシステム構築ガイド」の中で、データ開発とガバナンスを統合し、開発プロセスでガバナンスアクションを実行し、ソースからデータの品質を確保する必要性を明確に提案しました。同時に、大規模モデルの時代には、データガバナンスの含意は非構造化データにさらに拡張され、データガバナンスの品質、幅、効率が継続的に向上します。 5. ドメイン大規模モデルのコスト経済性Diptechは、大規模モデルの実装において、データガバナンスの方法論をさらに拡張し、データの品質と特性を評価するための精度、多様性、統計、予測などの次元を確立し、現場での大規模モデルの効率的かつ低コストのトレーニングをガイドします。同時に、究極のパフォーマンスとユーザーエクスペリエンスを追求し、体系的な製品システムを企画しています。これは、現場における大型モデルのコスト経済性だけでなく、Diptech が今後も大型モデルの適用を推進していく上で重要な原則にもなります。 |
<<: すべての開発者が知っておくべき 6 つの生成 AI フレームワークとツール
>>: AIはOpenAIの内部闘争を錦江文学に変え、イラストも描くことができる。最新のツールが人気で、ネットユーザーがサーバーをクラッシュさせる
著者 | タスミア企画 | ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:...
最近、オンライン機械翻訳ソフトウェアが日本で非常に人気になっています。この翻訳ソフトはDeepLと呼...
サイエンス フィクションの世界では、デジタル ツインの概念は長い間定番であり、作家たちは、人間が操作...
ディープラーニングにおける活性化関数は、ニューラル ネットワークの重要なコンポーネントです。活性化関...
クラウド セキュリティと人工知能には長年にわたる関係があります。ほぼ 10 年にわたり、AI はパタ...
概要: ソートとは、一連の「順序付けられていない」レコードシーケンスを「順序付けられた」レコードシー...
[[386401]] Python は安定性とメンテナンスのしやすさから、常に優れたパフォーマンス...
最近、国家運輸安全委員会(NTSB)は、Uberの自動運転車による死亡事故に関する調査の新たな進展を...
近年、人工知能は、特にビッグデータと組み合わせて使用されることで、ますます人気が高まっています。...
次回フェリーに乗るときは、ブリッジをよく見ることを忘れないでください。舵を取っているのは人間ではない...
テスラと「レース」を敢行する四輪ロボットを見たことがありますか?以下に示すように、かなり高速であるよ...
有名なアニメーション会社ディズニーは、近々人工知能とロボット工学の分野に参入すると発表しました。ディ...
[[402797]]この記事はWeChatのパブリックアカウント「Big Data DT」から転載し...