単一の GPU のみを使用して 7B モデルを微調整します。ユニバーサルマルチモーダルツール LLaMA-Adapter は閾値を取り除き、その効果は驚くべきものです

単一の GPU のみを使用して 7B モデルを微調整します。ユニバーサルマルチモーダルツール LLaMA-Adapter は閾値を取り除き、その効果は驚くべきものです

LLaMA アダプタが完全にロック解除されました。

一般的なマルチモーダル ベース モデルとして、画像、音声、テキスト、ビデオ、3D ポイント クラウドなどのさまざまな入力を統合し、画像、テキスト、検出の出力も提供します。

研究者らは、以前発売された LLaMA-Adapter と比較して、このアップグレード版を LLaMA-adapter V2 と名付けました。

論文: https://arxiv.org/abs/2304.15010

これは、アップグレードされたマルチモーダル機能とバイリンガル機能の図です。

写真

これは、3D ポイント クラウドとバックグラウンド オーディオからリアルな画像を生成するなど、複数のモダリティを組み合わせることができる唯一のモデルです。

さらに、バイリンガル機能をサポートしており、複数の言語でテキストを受信および生成できます。

LLaMA/ImageBind、Falcon、LangChain などのモデルと統合することもできます。

8 個の A100 GPU 上で、LLaMA-Adapter はわずか 15 時間でトレーニングされ、6 億 5000 万個のパラメータのみが導入されました。

写真

真のマルチモダリティ

次に、LLaMA-Adapte の魔法を体験してみましょう。

テキスト、画像、ビデオ、オーディオ、3D ポイント クラウドなど、現実世界の入力はこれを通じて高品質のテキストに変換できます。

グランドピアノの 3D ポイント クラウドを入力すると、この 3 次元オブジェクトの詳細が記述されます。

当然ですが、英語での回答は中国語での回答よりはるかに詳細になります。

写真

3D ポイント クラウド入力は、写真よりも正確な情報を提供し、写真測量アプリケーションに統合できるため、非常に優れています。

路上を走る車のサウンドクリップを入力し、その車の運転者がどのような気分であるかを尋ねます。運転者は怒っていて不満を抱いているだろうと推測します。

LOL ゲームのビデオを入力すると、ゲームの名前を認識し、ゲーム内のキャラクターを推測することもできます。

写真を入力すると、京都の伏見稲荷大社であることがわかります。

写真

LLaMA-Adepter はテキストを作成するだけでなく、検出結果を生成することもできるため、世界に対する理解と相互作用に新たな次元をもたらします。

GPT-4 にこの画像をテスト用に入力すると、画像の何がおかしいのかを簡単に説明できます。

LlaMA-Adapter は、3D ポイント クラウドやオーディオから、鮮やかで魅力的な視覚的世界を再現します。これは単なるデータ処理ではなく、生の入力からアートを作成するものです。

波の音を入力すると、その音声に対応した絵が生成されます。

3D ポイント クラウドに基づいて、非常に鮮明な画像を生成できます。

LLaMA-Adapter は、人間の相互作用をシミュレートし、音を聞き、ビデオを視聴し、テキストを生成することができるため、世界とのより深いつながりを確立し、AI コミュニケーションの飛躍を実現します。

ビデオを入力すると、写真に写っている人々がヨガをしていることがわかります。

さらに興味深いのは、3D ポイント クラウドとバックグラウンド オーディオが入力される限り、LLaMA-Adapter は現実世界の鏡像を再構築できることです。これは没入型体験における画期的な進歩です!

LLaMA-Adapter は LangChainAI を搭載しており、人間とコミュニケーションできるだけでなく、AI 相互作用の無限の可能性を解き放ちます。

GitHub

LLaMA-Adapter は、指示に従うこととマルチモーダル LLaMA モデルを微調整するための軽量な適応方法です。

下の図は、LLaMA-Adapter と Alpaca のパラメータ比較です。

写真

研究者たちは、アダプタを LLaMA のトランスフォーマーに接続することで、わずか 120 万個の学習可能なパラメータを導入し、1 時間で LLaMA を命令に従うモデルに変換しました。

初期段階でのトレーニングを安定させるために、適応的にティーチング信号を組み込むゼロゲーティングメカニズムを備えた新しいゼロ初期注意メカニズムを提案します。

微調整後、LLaMA-Adapter は、完全に微調整された Alpaca および Alpaca-Lora に匹敵する、高品質の指示に従う文章を生成できます。

写真

このアプローチは、マルチモーダル入力指示に簡単に拡張できます。 ScienceQA 用の画像条件付き LLaMA アダプタの推論フレームワークは次のとおりです。これは、オーディオやビデオなどの他のモダリティでも共有されています。

写真

LLaMA-Adapter V2はマルチモーダル性と言語機能をさらに強化します

LLaMA-Adapter V2 の重要な改善点については、Zhiyou "Xingkong" が比較的明確にまとめています。

1. 線形層のバイアスを調整して言語モデルのパフォーマンスを向上させます。

2. 視覚コマンドの調整のバランスをとるために、分離したパラメータを使用した共同トレーニング。

3. 視覚的知識の早期融合を利用して、テキストと画像の理解を強化します。

4. 専門家との統合によりマルチモーダル推論機能が向上しました。

線形レイヤーのバイアス調整

LLaMA-Adapter は、学習可能な適応キューとゼロ初期化された注意メカニズムを凍結された LLaMA モデルに採用し、新しい知識を効果的に統合できます。

ただし、パラメータの更新は LLM の内部パラメータを変更せずに適応ヒントとゲーティング係数に限定されるため、詳細な微調整を実行する能力が制限されます。

これを考慮して、研究者らは、適応手がかりとゲーティング要因に加えて、指示手がかりを LLaMa にさらに統合するためのバイアス調整戦略を提案しました。

具体的には、指示に従うデータのタスクを適応的に処理するために、研究者はまず LLaMA のすべての正規化レイヤーを解凍します。

研究者らは、Transformer の各線形レイヤーに対して、バイアスとスケーリング係数を 2 つの学習可能なパラメーターとして追加しました。

研究者は、線形層の入力重みと事前トレーニング済み重みをそれぞれ x と W と表記します。 LLaMA-Adapter V2では、研究者はバイアスbとスケールsを使用して線形層を次のように変更しました。

ゼロ初期化された注意と同様に、研究者はバイアスとスケール係数をそれぞれ 0 と 1 に初期化して、初期段階でのトレーニング プロセスを安定させました。

LLaMA-Adapter V2 は、バイアス調整戦略と高品質のコマンド データを組み合わせることで、優れたコマンド追従機能を実現します。

注目すべきは、新たに追加されたパラメータの数が LLaMA 全体のわずか 0.04% (約 500 万) を占めていることです。これは、LLaMA-Adapter V2 が依然としてパラメータ効率の高い方法であることを示しています。

分離パラメータによる共同トレーニング

研究者の目標は、LLaMA-Adapter V2 に、長い言語応答とマルチモーダル理解を生成する能力を同時に付与することでした。

下の図に示すように、研究者らは、画像テキストキャプションデータと純粋な言語指導例を活用するための LLaMA-Adapter V2 の共同トレーニングパラダイムを提案しました。

500K の画像とテキストのペアと 50K の命令データのデータ サイズの違いにより、最適化のためにそれらを直接組み合わせると、LLaMA-Adapter の命令追従能力に重大な損傷が発生します。

したがって、研究者の共同トレーニング戦略は、画像とテキストの位置合わせと指示の追跡について、それぞれ LLaMA-Adapter V2 の個別のパラメータ グループを最適化します。

具体的には、視覚投影層とゲーティングによる初期ゼロ初期化注意のみがキャプション データでトレーニングされ、ゼロ ゲーティング、非固定ノルム、新しく追加されたバイアスとスケール係数 (またはオプションの低ランク適応) を備えた後期適応キューは、指示に従うデータから学習するために使用されます。

分離パラメータの最適化により、画像とテキストの理解とコマンドの追従との間の干渉問題が適切に解決され、LLaMA-Adapter V2 の視覚的なコマンドの追従機能の向上に貢献します。

写真

視覚的知識の早期統合

視覚と言語の微調整の干渉を避けるために、研究者らは、入力視覚手がかりと適応手がかりの直接的な相互作用を防ぐための単純な早期融合戦略を提案した。

LLaMA-Adapter では、入力された視覚キューは、学習可能な視覚投影層を備えた固定視覚エンコーダーによって順番にエンコードされ、各挿入層で適応キューに追加されます。

LLaMA-Adapter V2 では、研究者は、下の図に示すように、エンコードされた視覚ランドマークと適応キューを、融合せずに異なる Transformer レイヤーに注入しました。

データセット共有の適応キューについては、LLaMA-Adapter に従い、最後の L レイヤー (例: L=30) に挿入します。

入力視覚手がかりについては、研究者はそれらを適応手がかりに追加するのではなく、ゼロ初期化された注意を持つトランスフォーマー層である単語トークンと直接連結します。

提案された共同トレーニングと組み合わせることで、視覚ラベルのこの単純な早期融合戦略は、2 種類の微調整目標間の矛盾を効果的に解決できます。

これにより、パラメータ効率の高い LLaMA-Adapter V2 は優れたマルチモーダル推論機能を備えるようになります。

写真

専門家との統合

MiniGPT4 や LLaMA などの最近の視覚指導モデルでは、視覚モデルと LLM を接続するために大規模な画像テキストトレーニングが必要です。

対照的に、研究者の LLaMA-Adapter V2 は、小規模な一般的な画像キャプション データに合わせて微調整されており、よりデータ効率が高くなっています。

しかし、研究者のアプローチは画像理解能力が比較的弱く、不正確または無関係な応答が時々生じる結果となった。

研究者らは、より多くの画像テキストデータを収集したり、より強力なマルチモーダル モジュールを採用したりする代わりに、キャプション、OCR、検索エンジンなどのエキスパート システムを統合して、LLaMA-Adapter V2 の追加の視覚的推論機能を補完することを提案しています。

下の図に示すように、研究者はキャプション、検出、OCR などのエキスパート システムを使用して、LLaMA-Adapter V2 の視覚コマンド追従機能を強化しました。

編集者の個人テスト

編集者は早速試してみてこの写真を入れました。

プロンプトは、「このコンピューター ゲームを紹介してもらえますか?」です。

写真

出力では、これが「ゼルダの伝説 ブレス オブ ザ ワイルド」であることが示され、ゲーム コンテンツの詳細な紹介が行われます。

写真

比較的優れたバイリンガル性能を持つバイリンガル(CN / EN)ImageBind-LLMモデルについては、まず比較的単純な問題をテストし、ゴッホの自画像を問題にしました。

中国語の回答内容に問題はなかったが、最後の文で表現が完結せず途切れているようだった。その後のテストでも同様の事態が繰り返し発生した。

写真

英語の回答内容や表現に問題はありません。

写真

しかし、質問がもう少し難しい場合、編集者は実際のテスト後に、英語力は非常に優れているが、中国語の理解力は明らかにあまり良くないことを発見しました。

Dogecoin をテストしたとき、それは馬鹿げた結果になりました。

彼は絵の本質を理解できなかっただけでなく、「犬を猫と呼んだ」のです。

写真

英語で作成された回答は明らかに表現が優れていましたが、それでもDogecoinは認識されませんでした。

画像を認識する際に、画像内の最も重要なテキスト情報を無視していたはずです。

写真

動画では、Dota2 TI8の有名なゲームクリップを見つけ、中国語でそれについて質問しました。彼の答えは、完全に答えを知っているふりをしていました。

写真

しかし、同じゲームビデオを英語で質問したところ、回答はより満足のいくものでした。

ゲームの識別も正しく行われ、紹介されている内容も非常に信頼できるものでした。

写真

もう一度サウンドをテストして、テイラー・スウィフトの曲を見つけました。

写真

彼は人間の声の高さは認識できたが、歌は認識できなかった。

英語の返答は歌手を直接推測しましたが、正しくありませんでした。

写真

ネットユーザーの反応

ウィスコンシン大学の元教授は、LLaMA-Adapter を使用して 40B Falcon モデルを微調整したことをすぐにツイートしました。

写真

このWeiboの投稿で、彼は皆から寄せられた関連する質問に答え、LLaMA-Adapterを高く評価しました。

LLaMA-Adapter を使用して 7B モデルを微調整しないと、少なくとも 8 個の A100 GPU が必要になるとのことでした。LLaMA-Adapter を使用し、GPU を 1 個だけ使用したため、しきい値が大幅に下がりました。

写真

別のネットユーザーは、Lora/qlora/fullと比較した推論の品質について質問し、それを体験しており、後でさらに情報を提供すると答えました。

写真

参考文献:

https://twitter.com/lupantech/status/1668387311011401728

https://zhuanlan.zhihu.com/p/626278423

<<:  Shopee多言語商品知識グラフ技術構築方法と応用

>>:  恒生電子と恒生巨源が共同で新たなデジタル金融商品を発売、金融ビジネスにおける大規模モデル技術の応用に重点

ブログ    
ブログ    

推薦する

...

生成 AI の「生産性パラドックス」: Microsoft はすでに利益を上げていますが、他のクラウド大手はいつ成果を実感するのでしょうか?

1987 年のノーベル経済学賞受賞者であるボブ・ソローは、「生産性統計を除けば、コンピュータ時代は...

...

NASAのジェット推進研究所が人工知能に取り組んでいる様子をご覧ください

[51CTO.com クイック翻訳] ジェット推進研究所 (JPL) では、同僚がインテリジェントな...

マーク・アンドリーセン氏、AIが世界を救うと語る

ベンチャーキャピタルの億万長者マーク・アンドリーセン氏は、世界は現在人工知能に関して「ヒステリー」状...

一貫性のあるハッシュアルゴリズムとJava実装

コンシステント ハッシュ アルゴリズムは、1997 年にマサチューセッツ工科大学によって提案された分...

2018 Baidu AI 開発者会議: Robin Li が「誰でも AI ができる」を提唱

7月4日、世界初のAI開発者カンファレンス「Baidu Create 2018」が2年目を迎えました...

最先端の洞察 | ドローン配達が紛失しない理由はここにあります!

Frontier Insights の今号では、ドローンが商品を配送する際に進路を見つけやすくする...

...

指紋と顔の認識が手のひらスキャンにアップグレードされ、大ヒット映画でしか見られない新技術がシティエキスポでデビュー

[[250312]]手のひらをスワイプするだけで入場や支払いができ、道路清掃車にセンサーを追加するこ...

あなたが知らないかもしれないゲームにおける AI に関する 5 つの予測

仮想現実ゲームの発展により、ゲームのプレイ方法や交流の仕方が急速に変化しています。仮想現実はゲームの...

今後 30 年間、人工知能の時代において、どの職業が消滅し、あるいは存続するのでしょうか?

最近の教育プロセスの中で、何人かの子供たちが私に大学で何を専攻すればいいかと尋ねました。将来的に発展...

...

調査によると、経営幹部はAIが職務記述書を時代遅れにしていると考えている

最近の調査によると、機械が仕事を奪っていくのを見ると、人間の従業員の士気が低下する可能性があることが...

5 つの主要分野をカバーする、知っておくべき 21 のオープンソース機械学習ツール

この記事では、まだ使ったことがないかもしれないオープンソースの機械学習ツールを21個紹介します。各オ...