単一の GPU のみを使用して 7B モデルを微調整します。ユニバーサルマルチモーダルツール LLaMA-Adapter は閾値を取り除き、その効果は驚くべきものです

LLaMA アダプタが完全にロック解除されました。

一般的なマルチモーダルベースモデルとして、画像、音声、テキスト、ビデオ、3D ポイントクラウドなどのさまざまな入力を統合し、画像、テキスト、検出の出力も提供します。

研究者らは、以前発売された LLaMA-Adapter と比較して、このアップグレード版を LLaMA-adapter V2 と名付けました。

論文: https://arxiv.org/abs/2304.15010

これは、アップグレードされたマルチモーダル機能とバイリンガル機能の図です。

写真

これは、3D ポイントクラウドとバックグラウンドオーディオからリアルな画像を生成するなど、複数のモダリティを組み合わせることができる唯一のモデルです。

さらに、バイリンガル機能をサポートしており、複数の言語でテキストを受信および生成できます。

LLaMA/ImageBind、Falcon、LangChain などのモデルと統合することもできます。

8 個の A100 GPU 上で、LLaMA-Adapter はわずか 15 時間でトレーニングされ、6 億 5000 万個のパラメータのみが導入されました。

写真

真のマルチモダリティ

次に、LLaMA-Adapte の魔法を体験してみましょう。

テキスト、画像、ビデオ、オーディオ、3D ポイントクラウドなど、現実世界の入力はこれを通じて高品質のテキストに変換できます。

グランドピアノの 3D ポイントクラウドを入力すると、この 3 次元オブジェクトの詳細が記述されます。

当然ですが、英語での回答は中国語での回答よりはるかに詳細になります。

写真

3D ポイントクラウド入力は、写真よりも正確な情報を提供し、写真測量アプリケーションに統合できるため、非常に優れています。

路上を走る車のサウンドクリップを入力し、その車の運転者がどのような気分であるかを尋ねます。運転者は怒っていて不満を抱いているだろうと推測します。

LOL ゲームのビデオを入力すると、ゲームの名前を認識し、ゲーム内のキャラクターを推測することもできます。

写真を入力すると、京都の伏見稲荷大社であることがわかります。

写真

LLaMA-Adepter はテキストを作成するだけでなく、検出結果を生成することもできるため、世界に対する理解と相互作用に新たな次元をもたらします。

GPT-4 にこの画像をテスト用に入力すると、画像の何がおかしいのかを簡単に説明できます。

LlaMA-Adapter は、3D ポイントクラウドやオーディオから、鮮やかで魅力的な視覚的世界を再現します。これは単なるデータ処理ではなく、生の入力からアートを作成するものです。

波の音を入力すると、その音声に対応した絵が生成されます。

3D ポイントクラウドに基づいて、非常に鮮明な画像を生成できます。

LLaMA-Adapter は、人間の相互作用をシミュレートし、音を聞き、ビデオを視聴し、テキストを生成することができるため、世界とのより深いつながりを確立し、AI コミュニケーションの飛躍を実現します。

ビデオを入力すると、写真に写っている人々がヨガをしていることがわかります。

さらに興味深いのは、3D ポイントクラウドとバックグラウンドオーディオが入力される限り、LLaMA-Adapter は現実世界の鏡像を再構築できることです。これは没入型体験における画期的な進歩です!

LLaMA-Adapter は LangChainAI を搭載しており、人間とコミュニケーションできるだけでなく、AI 相互作用の無限の可能性を解き放ちます。

GitHub

LLaMA-Adapter は、指示に従うこととマルチモーダル LLaMA モデルを微調整するための軽量な適応方法です。

下の図は、LLaMA-Adapter と Alpaca のパラメータ比較です。

写真

研究者たちは、アダプタを LLaMA のトランスフォーマーに接続することで、わずか 120 万個の学習可能なパラメータを導入し、1 時間で LLaMA を命令に従うモデルに変換しました。

初期段階でのトレーニングを安定させるために、適応的にティーチング信号を組み込むゼロゲーティングメカニズムを備えた新しいゼロ初期注意メカニズムを提案します。

微調整後、LLaMA-Adapter は、完全に微調整された Alpaca および Alpaca-Lora に匹敵する、高品質の指示に従う文章を生成できます。

写真

このアプローチは、マルチモーダル入力指示に簡単に拡張できます。 ScienceQA 用の画像条件付き LLaMA アダプタの推論フレームワークは次のとおりです。これは、オーディオやビデオなどの他のモダリティでも共有されています。

写真

LLaMA-Adapter V2はマルチモーダル性と言語機能をさらに強化します

LLaMA-Adapter V2 の重要な改善点については、Zhiyou "Xingkong" が比較的明確にまとめています。

1. 線形層のバイアスを調整して言語モデルのパフォーマンスを向上させます。

2. 視覚コマンドの調整のバランスをとるために、分離したパラメータを使用した共同トレーニング。

3. 視覚的知識の早期融合を利用して、テキストと画像の理解を強化します。

4. 専門家との統合によりマルチモーダル推論機能が向上しました。

線形レイヤーのバイアス調整

LLaMA-Adapter は、学習可能な適応キューとゼロ初期化された注意メカニズムを凍結された LLaMA モデルに採用し、新しい知識を効果的に統合できます。

ただし、パラメータの更新は LLM の内部パラメータを変更せずに適応ヒントとゲーティング係数に限定されるため、詳細な微調整を実行する能力が制限されます。

これを考慮して、研究者らは、適応手がかりとゲーティング要因に加えて、指示手がかりを LLaMa にさらに統合するためのバイアス調整戦略を提案しました。

具体的には、指示に従うデータのタスクを適応的に処理するために、研究者はまず LLaMA のすべての正規化レイヤーを解凍します。

研究者らは、Transformer の各線形レイヤーに対して、バイアスとスケーリング係数を 2 つの学習可能なパラメーターとして追加しました。

研究者は、線形層の入力重みと事前トレーニング済み重みをそれぞれ x と W と表記します。 LLaMA-Adapter V2では、研究者はバイアスbとスケールsを使用して線形層を次のように変更しました。

ゼロ初期化された注意と同様に、研究者はバイアスとスケール係数をそれぞれ 0 と 1 に初期化して、初期段階でのトレーニングプロセスを安定させました。

LLaMA-Adapter V2 は、バイアス調整戦略と高品質のコマンドデータを組み合わせることで、優れたコマンド追従機能を実現します。

注目すべきは、新たに追加されたパラメータの数が LLaMA 全体のわずか 0.04% (約 500 万) を占めていることです。これは、LLaMA-Adapter V2 が依然としてパラメータ効率の高い方法であることを示しています。

分離パラメータによる共同トレーニング

研究者の目標は、LLaMA-Adapter V2 に、長い言語応答とマルチモーダル理解を生成する能力を同時に付与することでした。

下の図に示すように、研究者らは、画像テキストキャプションデータと純粋な言語指導例を活用するための LLaMA-Adapter V2 の共同トレーニングパラダイムを提案しました。

500K の画像とテキストのペアと 50K の命令データのデータサイズの違いにより、最適化のためにそれらを直接組み合わせると、LLaMA-Adapter の命令追従能力に重大な損傷が発生します。

したがって、研究者の共同トレーニング戦略は、画像とテキストの位置合わせと指示の追跡について、それぞれ LLaMA-Adapter V2 の個別のパラメータグループを最適化します。

具体的には、視覚投影層とゲーティングによる初期ゼロ初期化注意のみがキャプションデータでトレーニングされ、ゼロゲーティング、非固定ノルム、新しく追加されたバイアスとスケール係数 (またはオプションの低ランク適応) を備えた後期適応キューは、指示に従うデータから学習するために使用されます。

分離パラメータの最適化により、画像とテキストの理解とコマンドの追従との間の干渉問題が適切に解決され、LLaMA-Adapter V2 の視覚的なコマンドの追従機能の向上に貢献します。

写真

視覚的知識の早期統合

視覚と言語の微調整の干渉を避けるために、研究者らは、入力視覚手がかりと適応手がかりの直接的な相互作用を防ぐための単純な早期融合戦略を提案した。

LLaMA-Adapter では、入力された視覚キューは、学習可能な視覚投影層を備えた固定視覚エンコーダーによって順番にエンコードされ、各挿入層で適応キューに追加されます。

LLaMA-Adapter V2 では、研究者は、下の図に示すように、エンコードされた視覚ランドマークと適応キューを、融合せずに異なる Transformer レイヤーに注入しました。

データセット共有の適応キューについては、LLaMA-Adapter に従い、最後の L レイヤー (例: L=30) に挿入します。

入力視覚手がかりについては、研究者はそれらを適応手がかりに追加するのではなく、ゼロ初期化された注意を持つトランスフォーマー層である単語トークンと直接連結します。

提案された共同トレーニングと組み合わせることで、視覚ラベルのこの単純な早期融合戦略は、2 種類の微調整目標間の矛盾を効果的に解決できます。

これにより、パラメータ効率の高い LLaMA-Adapter V2 は優れたマルチモーダル推論機能を備えるようになります。

写真

専門家との統合

MiniGPT4 や LLaMA などの最近の視覚指導モデルでは、視覚モデルと LLM を接続するために大規模な画像テキストトレーニングが必要です。

対照的に、研究者の LLaMA-Adapter V2 は、小規模な一般的な画像キャプションデータに合わせて微調整されており、よりデータ効率が高くなっています。

しかし、研究者のアプローチは画像理解能力が比較的弱く、不正確または無関係な応答が時々生じる結果となった。

研究者らは、より多くの画像テキストデータを収集したり、より強力なマルチモーダルモジュールを採用したりする代わりに、キャプション、OCR、検索エンジンなどのエキスパートシステムを統合して、LLaMA-Adapter V2 の追加の視覚的推論機能を補完することを提案しています。

下の図に示すように、研究者はキャプション、検出、OCR などのエキスパートシステムを使用して、LLaMA-Adapter V2 の視覚コマンド追従機能を強化しました。

編集者の個人テスト

編集者は早速試してみてこの写真を入れました。

プロンプトは、「このコンピューターゲームを紹介してもらえますか?」です。

写真

出力では、これが「ゼルダの伝説ブレスオブザワイルド」であることが示され、ゲームコンテンツの詳細な紹介が行われます。

写真

比較的優れたバイリンガル性能を持つバイリンガル（CN / EN）ImageBind-LLMモデルについては、まず比較的単純な問題をテストし、ゴッホの自画像を問題にしました。

中国語の回答内容に問題はなかったが、最後の文で表現が完結せず途切れているようだった。その後のテストでも同様の事態が繰り返し発生した。

写真

英語の回答内容や表現に問題はありません。

写真

しかし、質問がもう少し難しい場合、編集者は実際のテスト後に、英語力は非常に優れているが、中国語の理解力は明らかにあまり良くないことを発見しました。

Dogecoin をテストしたとき、それは馬鹿げた結果になりました。

彼は絵の本質を理解できなかっただけでなく、「犬を猫と呼んだ」のです。

写真

英語で作成された回答は明らかに表現が優れていましたが、それでもDogecoinは認識されませんでした。

画像を認識する際に、画像内の最も重要なテキスト情報を無視していたはずです。

写真

動画では、Dota2 TI8の有名なゲームクリップを見つけ、中国語でそれについて質問しました。彼の答えは、完全に答えを知っているふりをしていました。

写真

しかし、同じゲームビデオを英語で質問したところ、回答はより満足のいくものでした。

ゲームの識別も正しく行われ、紹介されている内容も非常に信頼できるものでした。

写真

もう一度サウンドをテストして、テイラー・スウィフトの曲を見つけました。

写真

彼は人間の声の高さは認識できたが、歌は認識できなかった。

英語の返答は歌手を直接推測しましたが、正しくありませんでした。

写真

ネットユーザーの反応

ウィスコンシン大学の元教授は、LLaMA-Adapter を使用して 40B Falcon モデルを微調整したことをすぐにツイートしました。

写真

このWeiboの投稿で、彼は皆から寄せられた関連する質問に答え、LLaMA-Adapterを高く評価しました。

LLaMA-Adapter を使用して 7B モデルを微調整しないと、少なくとも 8 個の A100 GPU が必要になるとのことでした。LLaMA-Adapter を使用し、GPU を 1 個だけ使用したため、しきい値が大幅に下がりました。

写真

別のネットユーザーは、Lora/qlora/fullと比較した推論の品質について質問し、それを体験しており、後でさらに情報を提供すると答えました。

写真

参考文献:

https://twitter.com/lupantech/status/1668387311011401728

https://zhuanlan.zhihu.com/p/626278423

<<: Shopee多言語商品知識グラフ技術構築方法と応用

>>: 恒生電子と恒生巨源が共同で新たなデジタル金融商品を発売、金融ビジネスにおける大規模モデル技術の応用に重点

ブログ

OpenAI が GPT-3 を使って小学生と数学で競います!小型モデルのパフォーマンスは2倍になり、1750億の大型モデルに匹敵する

単一の GPU のみを使用して 7B モデルを微調整します。ユニバーサルマルチモーダルツール LLaMA-Adapter は閾値を取り除き、その効果は驚くべきものです

真のマルチモダリティ

GitHub

LLaMA-Adapter V2はマルチモーダル性と言語機能をさらに強化します

編集者の個人テスト

ネットユーザーの反応

AIによって殺された最初の人々を見てみましょう

機械学習の導入を容易にする 6 つのツール

マスク氏のAIスタートアップxAIは社会への影響を優先する特別な構造を採用

はるか先へ！ BEVHeight++: 道路脇の視覚的な 3D オブジェクト検出のための新しいソリューション!

OpenAI が GPT-3 を使って小学生と数学で競います!小型モデルのパフォーマンスは2倍になり、1750億の大型モデルに匹敵する

Terence Tao さんがリポストして「いいね！」しました！ ChatGPTは自動的に大きな進歩を証明し、AIは10年後に数学の世界を支配するだろう

ディープラーニングと群衆カウントの融合

推薦する

2月10日に職場復帰ラッシュが到来し、北京は「急速AI温度検出器」の配備を開始した。

人工知能の発展の潮流の中で、数学教育はどこに向かうべきでしょうか？

ドローンは思考によって制御される新しい方法を経験しており、その商業的展望は非常に刺激的です。

人工知能教育とは何ですか?将来の教育の顕著な特徴は何でしょうか?

機械学習に関する12の現実世界の真実

オペレーティングシステムレベルの ChatGPT は人気があります。これにより、コンピューターが独自のデスクトップを整理できます。Mac/Windows/Linux をサポートしています。

ポストエピデミック時代：医療業界で成功するには？

シングルチップマイクロコンピュータ用のいくつかのC言語アルゴリズム

Baidu Brain の「EasyDL Classic Edition」はあなたを魅了しました。実際の業界アプリケーションを手に入れましたか?

パーソナライズされたサービス + 5G アプリケーション IBM が 2022 年の 5 つの AI 予測を発表

人工知能は広告に関して私たちを誤解させている。今こそ誤りを正すべき時だ