国内の多くの大学が共同でオープンソースコミュニティLAMMを構築しています。マルチモーダル言語モデルファミリーに参加する時が来ました

国内の多くの大学が共同でオープンソースコミュニティLAMMを構築しています。マルチモーダル言語モデルファミリーに参加する時が来ました

ChatGPTの登場以来、大規模言語モデル(LLM)は飛躍的な発展を遂げ、自然言語に基づく人間とコンピュータの相互作用のAIパラダイムが広く使用されるようになりました。しかし、人間と世界との相互作用はテキストだけではありません。画像や奥行きなどの他の様式も同様に重要です。しかし、現在のマルチモーダル大規模言語モデル (MLLM) 研究のほとんどはクローズドソースであり、大学やほとんどの研究機関の学生にとって使いにくいものとなっています。さらに、大規模な言語モデルはトレーニング知識によって制限されており、時事問題を認識したり複雑な推論を実行したりする能力が欠けていることがよくあります。これは、質問に素早く答えることはできても、「深く考える」ことができないようなものです。 AI エージェント (人工知能エージェント) は、この問題を解決する鍵です。AI エージェントは、LLM に深く考え、複雑な決定を下す能力を与え、LLM が自律性、応答性、自発性、社会的能力などの特性を備えたインテリジェントなエンティティに成長することを可能にします。 AIエージェント分野は、私たちの生活や仕事のやり方を変えるような成果をさらに生み出すものになると信じており、大規模言語モデルやマルチモーダル大規模モデルにとって重要な進化の方向性です。

北京航空航天大学、復旦大学、シドニー大学、香港中文大学(深圳)などの大学の学者と上海人工知能研究所が共同で、マルチモーダル言語モデルの最も初期のオープンソース コミュニティの 1 つである LAMM(言語支援マルチモーダル モデル)を立ち上げました。私たちは、MLLM のトレーニングと評価、MLLM 駆動型エージェントなどの分野の研究をサポートする、進化するコミュニティ エコシステムに LAMM を構築することを目指しています。 LAMM は、マルチモーダル大規模言語モデル分野における最も初期のオープンソース プロジェクトの 1 つとして、すべての研究者と開発者がそれに基づいて研究を行い、オープンソース コミュニティを共同で構築できるように、オープンな研究コミュニティ エコシステムを確立することを目指しています。

  • プロジェクトのホームページ: https://openlamm.github.io
  • コードアドレス: https://www.github.com/OpenGVLab/LAMM

ここでは、次のことができます。

  • 最小限のコンピューティング リソース コストで MLLM をトレーニングおよび評価します。MLLM のトレーニングと評価を簡単に開始するには、3090 または V100 のみが必要です。
  • ロボット工学やゲームシミュレーターを使用してタスクを定義し、データを生成できる MLLM ベースの具現化されたインテリジェントエージェントを構築します。
  • ほぼあらゆる専門分野で MLLM アプリケーションを拡張します。

オープンソースフレームワーク

LAMM コード ライブラリは、統一されたデータセット形式、コンポーネント ベースのモデル設計、ワンクリック分散トレーニングを実装し、ユーザーが独自のマルチモーダル言語モデルを簡単に開始して実装できるようにします。


  • データセットを微調整するためのさまざまな指示と互換性を持たせるために、標準のデータセット形式を使用します。 LAMM は、マルチモーダル命令の微調整に使用できる標準化されたマルチモーダル命令の微調整データ形式を定義します。LLaVA、LAMM、ShareGPT4V などの一般的に使用されるデータセットは、ワンクリックで直接シームレスに適応して開始できます。
  • コンポーネントベースのモデル構築プロセスにより、モデル アーキテクチャの更新と変更が容易になります。 LAMM のモデルには、ビジョン エンコーダー (Vision Encoder)、機能マッパー (Feature Projector)、言語モデル (LLM) が主なコンポーネントとして含まれています。現在、LAMM は、イメージやポイント クラウドなどのモーダル エンコーダーと、LLaMA/LLaMA2 などの事前トレーニング済み言語モデルをすでにサポートしています。ユーザーは、ニーズに合ったモジュールを自由に選択してパイプラインを構築し、独自の MLLM を実装できます。
  • 最小限の計算リソースで MLLM をトレーニングおよび評価します。 LAMM Repo は、Deepspeed、LightLLM、フラッシュ アテンションなどのアクセラレーション フレームワークを統合し、トレーニング コストを大幅に最適化します。現在、4 つの RTX3090 以降のデバイスで 7B 言語モデルの微調整をサポートしています。同時に、LAMM はマルチモーダル分野の発展を促進するために、新しい大規模言語モデルと最適化フレームワークを継続的にフォローアップしています。
  • MLLM に基づいて具現化されたインテリジェント AI エージェントを構築します。対象タスクを定義し、ロボットまたはシミュレータを使用して対応する指示データを生成した後、LAMM 対応 MLLM は意思決定と分析のための強力な AI エージェントとして機能します。

詳細はプロジェクトホームページをご覧ください。

マルチモーダル大規模言語モデルのトレーニングと評価

最近の多くの研究では、視覚コンテンツの理解とインタラクションにおけるマルチモーダル大規模モデル (MLLM) の能力が実証されており、より複雑な下流のタスクアプリケーションを解決する能力も実証されています。 LAMM は現在、一般的な画像入力に加えて、ポイント クラウドなどの視覚モダリティ入力もサポートしており、ユーザーはニーズに応じて新しいエンコーダーを追加することもできます。同時に、LAMM は効率的な微調整のために PEFT パッケージをサポートし、さらにモデルの計算コストを最適化するためにフラッシュ アテンションや xformer などのツールも導入し、ユーザーが可能な限り低コストで MLLM をトレーニングできるようにします。複雑なマルチタスク学習に直面して、LAMM は MoE などの戦略もサポートし、複数の微調整パラメータ セットを統合して、モデルのマルチタスク機能をさらに向上させ、より汎用性の高い MLLM を実現します。

しかし、標準化された包括的な評価フレームワークがないため、これらのモデルの機能と限界は十分に調査されておらず、これらのモデルの機能が何であるか、何ができるかをまだ確認できません。既存のベンチマーク作業は、主に大規模なマルチモーダルモデルのマルチモーダル評価データセットの構築に焦点を当てていたり、視覚能力の次元の一部のみを評価したり、評価フレームワークを確立しようと試みてもスケーラビリティと包括性が欠けていたりします。各モデルを包括的に評価し、異なるモデル間で公平かつ信頼性の高い比較を行うことは依然として困難です。 LAMM は、大規模なマルチモーダル モデルの信頼性が高く包括的な評価を提供することを目的として、高度にスケーラブルで柔軟な評価フレームワークを実装します。

詳細については、https://openlamm.github.io/paper_list/ChEF を参照してください。

ワンクリックの組み合わせによるマルチモーダル言語モデル評価フレームワーク

LAMM フレームワークに基づくマルチモーダル モデル機能は、次のように部分的に示されています。

2D画像コンテンツに基づく質問回答:

3D ポイントクラウドによる視覚的な質問回答:


マルチモーダル大規模言語モデルによって駆動される具現化エージェント

最近、大規模言語モデル (LLM) の強力な推論および計画機能を使用してエージェントを構築する研究が数多く行われています。たとえば、Minecraft の Voyager と GITM はどちらも LLM とテキスト メモリを使用してインテリジェント エージェントのアクションを計画します。ただし、これらの研究はすべて、インテリジェント エージェントが意思決定を計画するときに正しい環境認識情報をすべて取得できることを前提としており、認識段階を直接スキップし、リアルタイムの一人称視点画像が具現化されたエージェント自身のアクション計画に与える影響を無視しています。これは現実には不可能です。

具現化エージェントが複雑なオープンワールド環境において環境をより良く認識できるようにするために、我々は視覚認識と能動認識能力を特徴とする MLLM 駆動の具現化エージェント MP5 を提案しました。視覚知覚モジュール(モデルの主なアーキテクチャは LAMM)により、MP5 はこれまでにないタスクを解決でき、アクティブ知覚により環境情報を積極的に取得して適切なアクションを実行できます。最後に、MP5 はオープンな認識機能を備えており、さまざまな目的に応じてカスタマイズされた認識結果を提供し、長期的で複雑な環境情報タスクを完了できます。

以下は、複雑な環境情報を必要とするMinecraftのオープンワールドで、「晴れた日の光がたっぷりある水辺の草地の平原にいる豚を見つける」というタスクをMP5が完了するデモです。

要約する

MLLM の強力な機能と幅広い応用可能性に基づいて、マルチモーダル学習は新たな段階に入りました。 LAMM は、マルチモーダル大規模モデルの研究を促進するオープンソース コミュニティの構築を目指しており、データの準備、モデルのトレーニング、パフォーマンス評価など、関連するすべてのデータをコミュニティに公開しています。

マルチモーダル言語モデル研究に投資した最も初期のチームの 1 つとして、私たちは LAMM ツールボックスを継続的に開発し、LAMM オープンソース エコシステム向けに軽量で使いやすいマルチモーダル研究フレームワークを提供し、オープンソースの力と協力してより有意義な研究を促進したいと考えています。

上記のコンテンツは、LAMM ホームページでオープンソースとして引き続き公開されます。ホームページとプロジェクトにご注目ください。また、LAMM コードベースに対するフィードバックや PR の送信も歓迎いたします。

<<:  GauHuman オープンソース: ガウススプラッティングに基づく高品質の 3D 人間高速再構成およびリアルタイム レンダリング フレームワーク

>>:  ChatGPTアプリストアがついにオンラインになり、ネットワーク全体で300万以上のGPTが集まり、OpenAIとお金を共有する時が来ました

ブログ    
ブログ    

推薦する

...

...

AI および機械学習プロジェクトはどの程度安全ですか?

人工知能と機械学習は私たちに利益をもたらしますが、そのセキュリティには注意が必要です。どれくらい安全...

突然!人気のAI企業が倒産の危機に!創設者は辞任を求められました!

執筆者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...

MetaのAIは、メタバースで「あなたの言葉を実現」することを可能にします

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

...

...

スタンフォード大学の非接触型デバイスは、アクチュエータをスリーブに「縫い付ける」ことで、タッチ情報を遠隔で送信できる。

世界的なパンデミックは2年近く続いており、リモートワークで何日も過ごし、他の人との物理的な接触を切望...

西側メディア:将来の兵士はロボットの「羊飼い」になる

Reference News Networkは1月4日、スペインの新聞Vanguardiaが2020...

小さなターゲットを検出するためのディープラーニングの一般的な方法

[[427475]]導入ディープラーニングによる物体検出、特に顔検出では、解像度が低い、画像がぼやけ...

ジェフ・ディーン: 「スパースモデル設計ガイド」を作成しましたので、ぜひご覧ください。

スパースモデルは、ディープラーニングの分野でますます重要な役割を果たしています。特定のトークンまたは...

セマンティックAIとデータ管理の5つのトレンド

1. グラフデータベースとナレッジグラフが2022年に主流になる グラフ データベースが 2022 ...

...

凌創志新は、AI商業化の閉ループを作成するための最初のデータアノテーションビジネスを立ち上げました

アジアのビッグデータおよび人工知能企業である凌創志信は、同社の伝統的なリテイン事業であるデータラベリ...