ChatGPTの登場以来、大規模言語モデル(LLM)は飛躍的な発展を遂げ、自然言語に基づく人間とコンピュータの相互作用のAIパラダイムが広く使用されるようになりました。しかし、人間と世界との相互作用はテキストだけではありません。画像や奥行きなどの他の様式も同様に重要です。しかし、現在のマルチモーダル大規模言語モデル (MLLM) 研究のほとんどはクローズドソースであり、大学やほとんどの研究機関の学生にとって使いにくいものとなっています。さらに、大規模な言語モデルはトレーニング知識によって制限されており、時事問題を認識したり複雑な推論を実行したりする能力が欠けていることがよくあります。これは、質問に素早く答えることはできても、「深く考える」ことができないようなものです。 AI エージェント (人工知能エージェント) は、この問題を解決する鍵です。AI エージェントは、LLM に深く考え、複雑な決定を下す能力を与え、LLM が自律性、応答性、自発性、社会的能力などの特性を備えたインテリジェントなエンティティに成長することを可能にします。 AIエージェント分野は、私たちの生活や仕事のやり方を変えるような成果をさらに生み出すものになると信じており、大規模言語モデルやマルチモーダル大規模モデルにとって重要な進化の方向性です。 北京航空航天大学、復旦大学、シドニー大学、香港中文大学(深圳)などの大学の学者と上海人工知能研究所が共同で、マルチモーダル言語モデルの最も初期のオープンソース コミュニティの 1 つである LAMM(言語支援マルチモーダル モデル)を立ち上げました。私たちは、MLLM のトレーニングと評価、MLLM 駆動型エージェントなどの分野の研究をサポートする、進化するコミュニティ エコシステムに LAMM を構築することを目指しています。 LAMM は、マルチモーダル大規模言語モデル分野における最も初期のオープンソース プロジェクトの 1 つとして、すべての研究者と開発者がそれに基づいて研究を行い、オープンソース コミュニティを共同で構築できるように、オープンな研究コミュニティ エコシステムを確立することを目指しています。
ここでは、次のことができます。
オープンソースフレームワークLAMM コード ライブラリは、統一されたデータセット形式、コンポーネント ベースのモデル設計、ワンクリック分散トレーニングを実装し、ユーザーが独自のマルチモーダル言語モデルを簡単に開始して実装できるようにします。
詳細はプロジェクトホームページをご覧ください。 マルチモーダル大規模言語モデルのトレーニングと評価最近の多くの研究では、視覚コンテンツの理解とインタラクションにおけるマルチモーダル大規模モデル (MLLM) の能力が実証されており、より複雑な下流のタスクアプリケーションを解決する能力も実証されています。 LAMM は現在、一般的な画像入力に加えて、ポイント クラウドなどの視覚モダリティ入力もサポートしており、ユーザーはニーズに応じて新しいエンコーダーを追加することもできます。同時に、LAMM は効率的な微調整のために PEFT パッケージをサポートし、さらにモデルの計算コストを最適化するためにフラッシュ アテンションや xformer などのツールも導入し、ユーザーが可能な限り低コストで MLLM をトレーニングできるようにします。複雑なマルチタスク学習に直面して、LAMM は MoE などの戦略もサポートし、複数の微調整パラメータ セットを統合して、モデルのマルチタスク機能をさらに向上させ、より汎用性の高い MLLM を実現します。 しかし、標準化された包括的な評価フレームワークがないため、これらのモデルの機能と限界は十分に調査されておらず、これらのモデルの機能が何であるか、何ができるかをまだ確認できません。既存のベンチマーク作業は、主に大規模なマルチモーダルモデルのマルチモーダル評価データセットの構築に焦点を当てていたり、視覚能力の次元の一部のみを評価したり、評価フレームワークを確立しようと試みてもスケーラビリティと包括性が欠けていたりします。各モデルを包括的に評価し、異なるモデル間で公平かつ信頼性の高い比較を行うことは依然として困難です。 LAMM は、大規模なマルチモーダル モデルの信頼性が高く包括的な評価を提供することを目的として、高度にスケーラブルで柔軟な評価フレームワークを実装します。 詳細については、https://openlamm.github.io/paper_list/ChEF を参照してください。 ワンクリックの組み合わせによるマルチモーダル言語モデル評価フレームワーク LAMM フレームワークに基づくマルチモーダル モデル機能は、次のように部分的に示されています。 2D画像コンテンツに基づく質問回答: 3D ポイントクラウドによる視覚的な質問回答: マルチモーダル大規模言語モデルによって駆動される具現化エージェント最近、大規模言語モデル (LLM) の強力な推論および計画機能を使用してエージェントを構築する研究が数多く行われています。たとえば、Minecraft の Voyager と GITM はどちらも LLM とテキスト メモリを使用してインテリジェント エージェントのアクションを計画します。ただし、これらの研究はすべて、インテリジェント エージェントが意思決定を計画するときに正しい環境認識情報をすべて取得できることを前提としており、認識段階を直接スキップし、リアルタイムの一人称視点画像が具現化されたエージェント自身のアクション計画に与える影響を無視しています。これは現実には不可能です。 具現化エージェントが複雑なオープンワールド環境において環境をより良く認識できるようにするために、我々は視覚認識と能動認識能力を特徴とする MLLM 駆動の具現化エージェント MP5 を提案しました。視覚知覚モジュール(モデルの主なアーキテクチャは LAMM)により、MP5 はこれまでにないタスクを解決でき、アクティブ知覚により環境情報を積極的に取得して適切なアクションを実行できます。最後に、MP5 はオープンな認識機能を備えており、さまざまな目的に応じてカスタマイズされた認識結果を提供し、長期的で複雑な環境情報タスクを完了できます。 以下は、複雑な環境情報を必要とするMinecraftのオープンワールドで、「晴れた日の光がたっぷりある水辺の草地の平原にいる豚を見つける」というタスクをMP5が完了するデモです。 要約するMLLM の強力な機能と幅広い応用可能性に基づいて、マルチモーダル学習は新たな段階に入りました。 LAMM は、マルチモーダル大規模モデルの研究を促進するオープンソース コミュニティの構築を目指しており、データの準備、モデルのトレーニング、パフォーマンス評価など、関連するすべてのデータをコミュニティに公開しています。 マルチモーダル言語モデル研究に投資した最も初期のチームの 1 つとして、私たちは LAMM ツールボックスを継続的に開発し、LAMM オープンソース エコシステム向けに軽量で使いやすいマルチモーダル研究フレームワークを提供し、オープンソースの力と協力してより有意義な研究を促進したいと考えています。 上記のコンテンツは、LAMM ホームページでオープンソースとして引き続き公開されます。ホームページとプロジェクトにご注目ください。また、LAMM コードベースに対するフィードバックや PR の送信も歓迎いたします。 |
<<: GauHuman オープンソース: ガウススプラッティングに基づく高品質の 3D 人間高速再構成およびリアルタイム レンダリング フレームワーク
>>: ChatGPTアプリストアがついにオンラインになり、ネットワーク全体で300万以上のGPTが集まり、OpenAIとお金を共有する時が来ました
人工知能と機械学習は私たちに利益をもたらしますが、そのセキュリティには注意が必要です。どれくらい安全...
執筆者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
世界的なパンデミックは2年近く続いており、リモートワークで何日も過ごし、他の人との物理的な接触を切望...
Reference News Networkは1月4日、スペインの新聞Vanguardiaが2020...
[[427475]]導入ディープラーニングによる物体検出、特に顔検出では、解像度が低い、画像がぼやけ...
スパースモデルは、ディープラーニングの分野でますます重要な役割を果たしています。特定のトークンまたは...
1. グラフデータベースとナレッジグラフが2022年に主流になる グラフ データベースが 2022 ...
アジアのビッグデータおよび人工知能企業である凌創志信は、同社の伝統的なリテイン事業であるデータラベリ...