九張雲吉DataCanvasマルチモーダル大規模モデルプラットフォームの実践と思考

1. マルチモーダル大規模モデルの歴史的発展

上の写真は、1956年にアメリカのダートマス大学で開催された最初の人工知能ワークショップのものです。この会議は、人工知能への序章とも言われています。参加者は主に記号論理学の分野の先駆者たちでした（最前列中央の神経生物学者ピーター・ミルナーを除く）。

しかし、この記号論理の理論はその後も長らく実現できず、1980年代から1990年代にかけては最初のAIの冬が到来しました。大規模言語モデルが最近実装されて初めて、この論理的思考を実際に担っているのはニューラルネットワークであることが分かりました。神経生物学者のピーターミルナー氏の研究は、その後の人工ニューラルネットワークの開発に影響を与えたため、同氏はこの学術セミナーへの参加を依頼されました。

2012年、テスラの自動運転部門責任者アンドリュー氏は、当時のオバマ米大統領が部下と冗談を言い合っている上記の写真を自身のブログに投稿した。人工知能がこの絵を理解するのは、視覚認識タスクだけではありません。物体を識別するだけでなく、物体間の関係も理解する必要があるからです。体重計の物理的原理を知ることによってのみ、絵に描かれたストーリーを知ることができます。オバマ氏が体重計に乗ったため、体重計に乗っている人が太り、奇妙な表情を浮かべ、他の人が笑ったのです。このような論理的思考は、明らかに純粋な視覚認識の範囲を超えています。したがって、「人工知能」の恥ずかしさを取り除くには、視覚認識と論理的思考を組み合わせる必要があります。大規模なマルチモーダルモデルの重要性と難しさもここに反映されています。

上の図は人間の脳の解剖学的構造です。図の言語論理領域は大きな言語モデルに対応し、他の領域は視覚、聴覚、触覚、運動、記憶などのさまざまな感覚に対応しています。人工ニューラルネットワークは真の脳ニューラルネットワークではありませんが、そこからいくらかのインスピレーションを得ることができます。つまり、大規模なモデルを構築するときに、さまざまな機能を組み合わせることができ、これはマルチモーダルモデルを構築する基本的な考え方でもあります。

1. マルチモーダル大規模モデルで何ができるのか?

マルチモーダルビッグモデルは、私たちに多くのことを提供します。たとえば、ビデオの理解では、ビッグモデルはビデオの概要と重要な情報を要約するのに役立ち、ビデオを見る時間を節約できます。ビッグモデルは、プログラム分類、プログラム評価統計など、ビデオの事後分析にも役立ちます。さらに、テキストグラフもマルチモーダルビッグモデルの重要な応用分野です。

大型モデルを人間やロボットの動きと組み合わせると、具現化された知能エンティティが作成されます。人間と同じように、過去の経験に基づいて最適なパスを計画し、それをまったく新しいシナリオに適用して、リスクを回避しながらこれまで遭遇したことのない問題を解決できます。最終的に成功するまで、実行中に元の計画を修正することさえできます。これも幅広い可能性を秘めた応用シナリオです。

2. マルチモーダル大規模モデル

上の図は、マルチモーダル大規模モデルの開発プロセスにおけるいくつかの重要なノードを示しています。

2020年のViTモデル（Vision Transformer）は、大規模なモデルの始まりです。Transformerアーキテクチャが言語とロジック処理に加えて、他の種類のデータ（視覚データ）に適用されたのは初めてであり、優れた一般化能力を示しました。
その後、OpenAIによってオープンソース化されたCLIPモデルは、ViTと大規模言語モデルの使用を通じて、視覚タスクが強力なロングテール一般化機能、つまり常識を通じてこれまで見たことのないカテゴリーを推論する機能を実現していることを再び証明しました。
2023年までに、PaLM-E（ロボット）、whisper（音声認識）、ImageBind（画像アライメント）、Sam（セマンティックセグメンテーション）、そして最終的には地理画像に至るまで、さまざまなマルチモーダル大規模モデルが徐々に登場し、マイクロソフトの統合マルチモーダルアーキテクチャKosmos2を含め、マルチモーダル大規模モデルは急速に発展しています。
テスラ氏は6月のCVPRでも普遍的な世界モデルのビジョンを提案した。

上の図からわかるように、わずか半年で大きなモデルは多くの変化を遂げ、その反復速度は非常に速いです。

3. モダリティアライメントアーキテクチャ

上図は、言語モデルと視覚モデルを含むマルチモーダル大規模モデルの一般的なアーキテクチャ図です。言語モデルと視覚モデルを固定することで、アライメントモデルを学習します。アライメントとは、視覚モデルのベクトル空間と言語モデルのベクトル空間を結合し、統一されたベクトル空間で両者の内部論理関係を理解することです。

図に示す Flamingo モデルと BLIP2 モデルはどちらも類似の構造 (Flamingo モデルは Perceiver アーキテクチャを使用し、BLIP2 モデルは修正された Transformer アーキテクチャを使用) を使用しています。その後、さまざまな比較学習方法を通じて事前トレーニングされ、大量のトークンに対して大量の学習が実行されて、より良いアライメント効果が得られ、最後に特定のタスクに応じてモデルが微調整されます。

2. Jiuzhang DataCanvasのマルチモーダル大規模モデルプラットフォーム

1. AI基盤ソフトウェア（AIFS）

Jiuzhang DataCanvas は、高性能ストレージとネットワーク最適化のためのコンピューティングリソース (GPU クラスターを含む) も提供する AI 基本ソフトウェアプロバイダーです。これに基づいて、データ注釈モデリング実験サンドボックスなど、大規模モデルトレーニングツールを提供します。 Jiuzhang Yunji DataCanvas は、市場で一般的なオープンソースのビッグモデルをサポートするだけでなく、メタ知識マルチモーダルビッグモデルを独自に開発しています。アプリケーション層では、プロンプト単語を管理し、モデルを微調整し、モデルの操作と保守のメカニズムを提供するツールが提供されます。同時に、基本的なソフトウェアアーキテクチャを充実させるために、マルチモードベクターデータベースがオープンソース化されました。

2. モデルツールLMOPS

Jiuzhang Yunji DataCanvas は、データ準備 (データラベリングは手動ラベリングとインテリジェントラベリングをサポート)、モデル開発、モデル評価 (水平評価と垂直評価を含む)、モデル推論 (モデル量子化、知識蒸留、その他の加速推論メカニズムをサポート)、モデルアプリケーションなど、ライフサイクル全体の開発の最適化に重点を置いています。

3. LMB – 大型モデルビルダー

モデルを構築する際には、データ並列処理、テンソル並列処理、パイプライン並列処理など、多くの分散型かつ効率的な最適化作業が実行されました。これらの分散最適化タスクはワンクリックで完了でき、視覚的な制御をサポートしているため、人件費を大幅に削減し、開発効率を向上させることができます。

4. LMB – 大型モデルビルダー

また、共通の継続トレーニング、教師ありチューニング、強化学習における人間によるフィードバックなど、大規模モデルのチューニングも最適化しました。さらに、中国語の語彙の自動拡張など、中国語向けに多くの最適化が行われています。多くの中国語の単語はオープンソースモデルに含まれていないため、これらの単語は複数のトークンに分割される可能性があります。これらの単語を自動的に拡張すると、モデルはこれらの単語をより適切に使用できるようになります。

5. LMS – 大規模モデルサービング

大規模モデルの提供も非常に重要な要素です。このプラットフォームでは、モデルの量子化、知識の蒸留などのさまざまな側面に対しても多くの最適化が行われており、これによりコンピューティングコストが大幅に削減されています。また、レイヤーごとの知識の蒸留を通じてトランスフォーマーを高速化し、そのコンピューティング能力を削減します。同時に、多くのプルーニング作業（構造化プルーニング、スパースプルーニングなど）が行われ、大規模モデルの推論速度が大幅に向上しました。

さらに、対話型ダイアログのプロセスも最適化されました。たとえば、マルチラウンドのダイアログ Transformer では、各テンソルのキーと値を繰り返し計算せずに記憶できます。そのため、Vector DB に保存することで会話履歴の記憶機能を実現し、対話プロセス中のユーザーエクスペリエンスを向上させることができます。

6. プロンプトマネージャー

大規模モデルのプロンプトを設計および構築するためのツールであるプロンプトマネージャーは、ユーザーがより優れたプロンプトを設計し、大規模モデルがより正確で信頼性が高く、期待どおりの出力コンテンツを生成できるように支援します。このツールは、技術者向けの開発ツールキットモードと、非技術者向けのヒューマンコンピュータインタラクション操作モードの両方を提供できるため、大規模モデルを使用するさまざまなグループの人々のニーズを満たすことができます。

主な機能には、AI モデル管理、シーン管理、プロンプトワードテンプレート管理、プロンプトワード開発、プロンプトワードアプリケーションなどがあります。

このプラットフォームは、よく使用されるプロンプトワード管理ツールを提供します。これにより、バージョン管理が実現され、よく使用されるテンプレートが提供され、プロンプトワードの実装が高速化されます。

3. Jiuzhang Yunji DataCanvas マルチモーダル大規模モデルの実践

1. マルチモーダル大規模モデル - メモリ付き

プラットフォームの機能を紹介した後、マルチモーダルな大規模モデルの開発の実践を共有します。

上図は、Jiuzhang Yunji DataCanvas マルチモーダルビッグモデルの基本フレームワークです。他のマルチモーダルビッグモデルと異なるのは、メモリが含まれていることです。これにより、オープンソースビッグモデルの推論能力が向上します。

一般的に、大規模なオープンソースモデルのパラメータ数は比較的少ないため、パラメータの一部をメモリとして使用すると、推論能力が大幅に低下します。大規模なオープンソースモデルにメモリを追加すると、推論機能とメモリ機能の両方が向上します。

さらに、ほとんどのモデルと同様に、マルチモーダル大規模モデルにも固定された大規模言語モデルと固定されたデータエンコーディングがあり、アライメント機能に対して個別のモジュールトレーニングを実行します。そのため、さまざまなデータモダリティはすべてテキストの論理部分にアライメントされ、推論プロセスでは、最初に言語が翻訳され、次に融合され、最後に推論が実行されます。

2. 非構造化データETLパイプライン

当社の DingoDB マルチモードベクターデータベースは、マルチモダリティと ETL 機能を組み合わせているため、優れた非構造化データ管理機能を提供できます。このプラットフォームはパイプライン ETL 機能を提供し、演算子のコンパイル、並列処理、キャッシュの最適化など、多くの最適化を行っています。

さらに、このプラットフォームは、パイプラインを再利用して最も効率的な開発エクスペリエンスを実現できるハブを提供します。同時に、Huggingface 上の多くのエンコーダーをサポートしており、さまざまなモーダルデータの最適なエンコードを実現できます。

3. マルチモーダル大型模型構築法

Jiuzhang Yunji DataCanvas は、Meta-Knowledge マルチモーダル大規模モデルをベースとして使用し、ユーザーが他のオープンソース大規模モデルを選択できるようにサポートするほか、ユーザーが独自のモーダルデータをトレーニングに使用することもサポートします。

大規模なマルチモーダルモデルの構築は、おおまかに 3 つの段階に分けられます。

フェーズ 1: 大規模言語モデルとモダリティエンコーダーのトレーニングのアライメントとクエリを修正しました。
第 2 段階 (オプション、マルチモーダル検索をサポート): 大規模言語モデル、モダリティエンコーダー、アライメントおよびクエリモジュールを修正し、検索モジュールをトレーニングします。
フェーズ 3 (オプション、特定のタスク用): 大規模言語モデルを微調整するための手順。

4. 事例 - 知識ベースの構築

大規模モデルのメモリアーキテクチャは、実際にはモデルのアプリケーションであるマルチモーダル知識ベースの構築に役立ちます。 Zhihu は典型的なマルチモーダル知識ベースアプリケーションモジュールであり、その専門知識を追跡することができます。

知識の確実性と安全性を確保するには、専門知識のソースをたどる必要があることがよくあります。知識ベースは、この機能を実現するのに役立ちます。同時に、新しい知識を追加するのがより便利です。モデルパラメータを変更する必要がなく、知識を直接データベースに追加できます。

具体的には、専門知識はエンコーダーを介してさまざまな方法でエンコードされ、さまざまな評価方法に従って統一された評価が実行され、エンコーダーの選択はワンクリック評価によって実現されます。最後に、エンコーダーを適用してデータをベクトル化し、DingoDB マルチモーダルベクトルデータベースに保存します。次に、大規模モデルのマルチモーダルモジュールを使用して関連情報を抽出し、言語モデルを使用して推論を行います。

モデルの最後の部分では、多くの場合、指示の微調整が必要になります。ユーザーごとにニーズが異なるため、マルチモーダルの大規模モデル全体を微調整する必要があります。マルチモーダル知識ベースは情報を整理する上で特別な利点があるため、モデルには検索を学習する機能があり、これはテキストを段落分けするプロセスで私たちが行った革新でもあります。

一般的な知識ベースは、ドキュメントを段落に分割し、各段落のテキストを個別にロック解除します。この方法はノイズの影響を受けやすく、多くの大きな文書では段落分割の基準を決定するのが困難です。

私たちのモデルでは、検索モジュールが学習を実行し、モデルが適切な構造化された情報構成を自動的に検索します。特定の製品については、製品マニュアルから始めて、まず大きなディレクトリセクションを見つけ、次に特定のセクションを見つけます。同時に、マルチモーダル情報統合であるため、テキストに加えて、画像や表なども含まれることが多く、これらもベクトル化してメタ情報と組み合わせて共同検索を実現し、検索効率を向上させることができます。

検索モジュールはメモリアテンションメカニズムを使用しており、同様のアルゴリズムと比較してリコール率を 10% 向上できることは特筆に値します。同時に、メモリアテンションメカニズムはマルチモーダルドキュメント処理にも使用できるため、これも非常に有利な点です。

IV. 今後の展望と展望

1. エンタープライズデータ管理 - ナレッジベース

企業内のデータの 85% は非構造化データであり、構造化データはわずか 15% です。過去 20 年間、人工知能は主に構造化データを中心に展開されてきましたが、非構造化データは非常に使いにくく、構造化データに変換するには多大な労力とコストがかかります。マルチモーダル大規模モデルとマルチモーダル知識ベースの助けを借りて、そして人工知能の新しいパラダイムを通じて、企業内部管理における非構造化データの利用率を大幅に向上させることができ、将来的には価値が 10 倍に増加する可能性があります。

2. ナレッジベース --> エージェント

マルチモーダル知識ベースはインテリジェントエージェントの基盤として機能し、R&Dエージェント、カスタマーサービスエージェント、セールスエージェント、法律エージェント、人材エージェント、企業運営・保守エージェントなどの機能はすべて知識ベースを通じて操作できます。

営業担当者を例にとると、一般的なアーキテクチャには、意思決定を担当するエージェントと、営業段階での分析を担当するエージェントの 2 つのエージェントが共存します。どちらのモジュールも、製品情報、過去の販売統計、顧客プロファイル、過去の販売経験など、マルチモーダルナレッジベースを通じて関連情報を検索できます。この情報は統合され、2 人のエージェントが最善かつ最も正しい決定を下せるよう支援します。これらの決定は、ユーザーが最適な販売情報を取得するのに役立ち、マルチモーダルデータベースに記録されます。このサイクルが繰り返され、販売パフォーマンスが継続的に向上します。

私たちは、将来最も価値のある企業は、インテリジェントなエンティティを実践する企業になると信じています。 Jiuzhang Yunji DataCanvas が皆さんと共に歩み、お互いに助け合えることを願っています。

<<: Facebook の MusicGen を使用してテキストを音楽に変換する方法

>>: あなたを飛び立たせる5つの迅速なフレームワークモデル