導入大規模言語モデルは革命的な技術であることが証明されています。大規模言語モデルの力をベースにした多くのアプリケーションが開発されており、今後さらに多くのアプリケーションが登場すると予想されます。大規模言語モデルの最も興味深い応用例の 1 つは、人間のユーザーがさまざまなタスクを完了するのを支援できるインテリジェント アシスタントとして展開することです。 人間からのフィードバックによるコマンドの微調整と強化学習を通じてチャット モデルをトレーニングすることができ、これらのモデルは人間のコマンドに従い、指定されたタスクを実行する上で非常に有望な機能を示しています。しかし、これらのモデルは、口頭の指示のみでタスクを実行する場合の適用範囲が非常に限られています。 マルチモーダル会話モデルは、大規模な言語モデルのパワーを解き放ち、自然言語と他のモダリティを組み合わせる必要がある問題を解決することを目的としています。特に、GPT-4V に視覚的特徴が導入されて以来、視覚言語モデルはますます注目を集めています。 GPT-4 の自然言語機能を画像理解機能で強化することで、視覚と言語の理解を必要とするタスクをユーザーが完了するのに役立つ強力なチャット アシスタントが開発されました。 GPT-4V の視覚機能は素晴らしいですが、クローズドソース モデルでは、この驚くべきテクノロジーの研究と実験の可能性が制限されます。幸いなことに、視覚言語モデルのパワーをアクセスしやすく透明な方法でコミュニティに提供するオープンソース モデルがすでに存在します。これらのモデルは、オープンソースの大規模言語モデルですでに現れている、計算とメモリの効率性に重点を置く傾向も継続しています。これは、これらのモデルの広範な適用を容易にするため、非常に重要な機能です。 このチュートリアルでは、論文「Visual Instruction Tuning」(https://arxiv.org/abs/2304.08485)で紹介されている LLaVA(Large Language and Vision Assistant)モデルを使用して、ビジュアル チャット アシスタント プログラムを作成するプロセスについて説明します。公式リポジトリ (https://github.com/haotian-liu/LLaVA) で提供されているコードを使用してビジュアル チャット アシスタントの簡単なコード実装について説明する前に、まず LLaVA モデルとその改良点について簡単に説明します。次に、このモデルの機能と限界を示すために作成したいくつかの例を紹介します。 LLaVA モデルLLaVA モデルは前述の論文「Visual Instruction Tuning」で紹介され、その後「Improved Baselines with Visual Instruction Tuning」(LLaVA-1.5 モデルとも呼ばれる) という論文でさらに改良されました。この背後にある考え方は、画像から視覚的な埋め込みを抽出し、それを大規模な言語モデルに入力することで、言語トークンからの埋め込みとして扱うことです。直感的には、画像は「単語」を使って説明されていると考えることができます。つまり、最初は言語モデルが答えを生成するために使用する単語です。正しい「単語」を選択するために、モデルは事前トレーニング済みの CLIP ビジュアル エンコーダーを使用して視覚的な埋め込みを抽出し、それを言語モデルの単語埋め込み空間に投影します。後者の操作は視覚言語コネクタを使用して行われます。これは、最初の論文「視覚的な指示による微調整」では最初は単純な線形レイヤーとして選択され、その後、論文「視覚的な指示による微調整によるベースラインの改善」でより表現力豊かな多層パーセプトロン (MLP) に置き換えられました。モデルのアーキテクチャを以下に示します。 LLaVA モデル アーキテクチャ図 ここで、投影 W は、LLaVA モデルでは単純な線形レイヤー、LLaVA-1.5 モデルでは MLP です。この画像は論文「Visual Instruction Fine-tuning」からの抜粋です。 このアプローチの利点の 1 つは、事前トレーニング済みのビジュアル エンコーダーと事前トレーニング済みの言語モデルを導入することで、ビジュアル言語コネクタ (軽量モジュール) のみを最初から学習すればよく、他の部分は必要なくなることです。特に、LLava モデルのトレーニングは次の 2 つの段階のみで構成されます。 - 機能に合わせた事前トレーニング: 事前トレーニング済みのビジュアル エンコーダーと言語モデルの両方が固定され、視覚言語コネクタの重みのみ更新されます。すべてのトレーニング サンプルは、単一ターンのダイアログにパッケージ化されたテキストと画像のペアで構成されています。この段階では、視覚エンコーダの埋め込みを言語モデルのテキスト埋め込みと一致させるために、視覚言語コネクタをトレーニングすることを目的としています。
- 視覚的な指示による微調整: この段階では、視覚エンコーダーの重みのみが固定され、視覚言語コネクタと言語モデルは一緒に微調整されます。モデルは、タスクを実行するために画像ベースの指示に従って微調整されました。注目すべきは、このデータの一部は、画像のキャプションと描画されたエンティティの境界ボックスの座標に基づいて、GPT4 言語のみを使用して指示に従うサンプルを作成することによって作成されたことです。
ビジュアルチャットボットの実装公式リポジトリ (https://github.com/haotian-liu/LLaVA) で提供されているコードを使用してビジュアル チャットボットを作成するのは非常に簡単です。さらに、リポジトリには、入力を正しい形式で解析するために使用できる標準化されたチャット テンプレートが用意されています。トレーニングで使用される正しい形式に従うことは、モデルによって生成される回答の品質にとって重要です。もちろん、適切なテンプレートの選択は、使用する言語モデルによって異なります。事前トレーニング済みの Vicuna 言語モデルに基づく LLaVA-1.5 モデルのテンプレートは次のとおりです。 A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: <im_start><image><im_end> User's prompt ASSISTANT: Assistant answer USER: Another prompt 最初の数行は、モデルで使用される一般的なシステム プロンプトです。次の特殊タグ <im_start>、<image>、<im_end> は、画像を表す埋め込みが配置される場所を示すために使用されます。 チャットボットは、単純な Python クラスで定義できます。 class LLaVAChatBot: def __init__(self, model_path: str = 'liuhaotian/llava-v1.5-7b', device_map: str = 'auto', load_in_8_bit: bool = True, **quant_kwargs) -> None: self.model = None self.tokenizer = None self.image_processor = None self.conv = None self.conv_img = None self.img_tensor = None self.roles = None self.stop_key = None self.load_models(model_path, device_map=device_map, load_in_8_bit=load_in_8_bit, **quant_kwargs) def load_models(self, model_path: str, device_map: str, load_in_8_bit: bool, **quant_kwargs) -> None: """Load the model, processor and tokenizer.""" quant_cfg = BitsAndBytesConfig(**quant_kwargs) self.model = LlavaLlamaForCausalLM.from_pretrained(model_path, low_cpu_mem_usage=True, device_map=device_map, load_in_8bit=load_in_8_bit, quantization_config=quant_cfg) self.tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=False) vision_tower = self.model.get_vision_tower() vision_tower.load_model() vision_tower.to(device='cuda') self.image_processor = vision_tower.image_processor disable_torch_init() def setup_image(self, img_path: str) -> None: """Load and process the image.""" if img_path.startswith('http') or img_path.startswith('https'): response = requests.get(img_path) self.conv_img = Image.open(BytesIO(response.content)).convert('RGB') else: self.conv_img = Image.open(img_path).convert('RGB') self.img_tensor = self.image_processor.preprocess(self.conv_img, return_tensors='pt' )['pixel_values'].half().cuda() def generate_answer(self, **kwargs) -> str: """Generate an answer from the current conversation.""" raw_prompt = self.conv.get_prompt() input_ids = tokenizer_image_token(raw_prompt, self.tokenizer, IMAGE_TOKEN_INDEX, return_tensors='pt').unsqueeze(0).cuda() stopping = KeywordsStoppingCriteria([self.stop_key], self.tokenizer, input_ids) with torch.inference_mode(): output_ids = self.model.generate(input_ids, images=self.img_tensor, stopping_criteria=[stopping], **kwargs) outputs = self.tokenizer.decode( output_ids[0, input_ids.shape[1]:] ).strip() self.conv.messages[-1][-1] = outputs return outputs.rsplit('</s>', 1)[0] def get_conv_text(self) -> str: """Return full conversation text.""" return self.conv.get_prompt() def start_new_chat(self, img_path: str, prompt: str, do_sample=True, temperature=0.2, max_new_tokens=1024, use_cache=True, **kwargs) -> str: """Start a new chat with a new image.""" conv_mode = "v1" self.setup_image(img_path) self.conv = conv_templates[conv_mode].copy() self.roles = self.conv.roles first_input = (DEFAULT_IM_START_TOKEN + DEFAULT_IMAGE_TOKEN + DEFAULT_IM_END_TOKEN + '\n' + prompt) # f"{self.roles[0]}: {prompt}") self.conv.append_message(self.roles[0], first_input) self.conv.append_message(self.roles[1], None) if self.conv.sep_style == SeparatorStyle.TWO: self.stop_key = self.conv.sep2 else: self.stop_key = self.conv.sep answer = self.generate_answer(do_sample=do_sample, temperature=temperature, max_new_tokens=max_new_tokens, use_cache=use_cache, **kwargs) return answer def continue_chat(self, prompt: str, do_sample=True, temperature=0.2, max_new_tokens=1024, use_cache=True, **kwargs) -> str: """Continue the existing chat.""" if self.conv is None: raise RuntimeError("No existing conversation found. Start a new" "conversation using the `start_new_chat` method.") self.conv.append_message(self.roles[0], prompt) self.conv.append_message(self.roles[1], None) answer = self.generate_answer(do_sample=do_sample, temperature=temperature, max_new_tokens=max_new_tokens, use_cache=use_cache, **kwargs) return answer Transformers ライブラリ (https://github.com/huggingface/transformers) に精通している場合は、多くの共通関数を認識し、実行される操作を簡単に理解できるはずです。上記で定義した LLaVAChatBot クラスのメソッドを簡単に確認してみましょう。 - load_models:このメソッドは、BitsAndBytes ライブラリを使用して、量子化のために指定されたパラメータを持つ言語モデル、トークナイザー、および画像プロセッサを読み込みます。このコードは、「Hugging Face」トランスフォーマー モデルで使用される from_pretrained メソッドをシャドウします。 BitsAndBytes を使用すると、8 ビットまたは 4 ビットへの量子化が可能になり、GPU メモリ要件が削減されます。
- setup_image:このメソッドは、ローカル パスまたは URL から画像を読み込み、画像プロセッサを使用してテンソルに変換します。
- generate_answer:このメソッドは、提供された画像に関する現在の会話を継続して、モデルの回答を返します。 LLaVa モデルは、Hugging Face 変換モデルと同様の方法で生成されます。
- get_conv_text:このメソッドは、これまでの会話の生のテキストを返します。
- start_new_chat:これはチャットボットの 2 つの主要なメソッドの 1 つで、モデルとの新しいチャットを開始するために使用されます。モデルに渡される画像と初期プロンプトを指定して、新しいダイアログを作成します。これは、前のセクションで説明した形式に従い、リポジトリで定義されたテンプレートを使用して会話を設定します。
- continue_chat:これは、画像に関する既存の会話を継続する役割を担うもう 1 つの主要なメソッドです。
完全なコードを Colab ノートブックで公開したので、自分で試してみることができます。 テスト例このセクションでは、モデルの機能をテストしているときに取得した興味深い例をいくつか集めました。この記事のすべての例は、8 ビット量子化のモデル llava-v1.5–7b を使用して作成されました。 まず、モデルの説明と画像を理解する能力を見てみましょう。次に、モデルさんにホワイトタイガーの写真を説明してもらいました。 Unsplash の Joshua J. Cotten による写真 A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: <im_start><image><im_end> Describe the image in details. ASSISTANT: The image features a white tiger laying down on a rocky surface, possibly a stone wall or a rock. The tiger appears to be relaxed and comfortable in its environment. The tiger's position is such that it covers a significant portion of the image, from the left side to almost the entire right side. The rocky surface provides a natural and rugged backdrop for the scene.</s></s> USER: What is unique about this tiger? ASSISTANT: This tiger is unique because it is a white tiger, which is an extremely rare and visually striking variation of the species. White tigers are born with a genetic mutation that causes their fur to be predominantly white, with the rest of their body being a mix of orange and black stripes. This distinctive appearance sets them apart from the more common orange and black striped tigers.</s></s>
このモデルは、画像を詳細に説明し、画像の主題について推論することができ、ホワイトタイガーがまだ非常に珍しい動物であると正しく評価しているようです。 次に、モデルがさまざまなタスクを実行するための実用的な指示をユーザーに提供できるかどうかをテストしました。これが、「キャプション」モードと真のビジュアル チャット アシスタントの違いです。たとえば、モデルは画像内の材料に基づいてレシピを提供できますか?結果は次のように報告されています。 写真はThermoProによるUnsplashより A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: <im_start><image><im_end> What can I cook with these ingredients? ASSISTANT: With the ingredients displayed on the table, you can prepare a delicious roast dinner. The meat, which is a large piece of beef, can be seasoned and cooked in the oven, while the vegetables, including carrots, potatoes, and onions, can be roasted alongside the meat. You can also prepare a side dish with the potatoes, carrots, and onions, which can be served alongside the roast dinner. The presence of a bowl of sauce suggests that you can use it as a dipping sauce or to enhance the flavors of the roast and vegetables. Overall, this combination of ingredients offers a hearty and flavorful meal that can be enjoyed with family and friends.</s></s> USER: Could the recipe you suggested be included in a vegetarian diet? ASSISTANT: The recipe I suggested, which involves roasting a large piece of beef and vegetables, is not suitable for a vegetarian diet. The beef is the main protein source in the dish, and it is not suitable for vegetarians who avoid consuming meat. However, you can still create a vegetarian-friendly meal using the vegetables and sauce availableon the table. For example, you can prepare a vegetable roast with the carrots, potatoes, and onions, and serve it alongside a side of mashed potatoes or a vegetable-based sauce. This way, you can still enjoy the flavors and textures of the dish without including meat.</s></s> USER: Can you suggest a vegetarian recipe with minimal modifications of the depicted ingredients? ASSISTANT: Certainly! Here's a vegetarian recipe that can be made using the ingredients available on the table: Roasted Vegetable Medley with Sauce Ingredients: * Carrots * Potatoes * Onions * Olive oil * Salt * Pepper * Herbs (such as thyme, rosemary, or parsley) * Sauce (optional) Instructions: 1. Preheat your oven to 400°F (200°C). 2. Wash and peel the carrots, potatoes, and onions. Cut them into bite-sized pieces. 3. In a large bowl, toss the vegetables with olive oil, salt, and pepper. 4. Spread the vegetables evenly on a baking sheet lined with parchment paper. 5. Roast the vegetables in the preheated oven for 20-25 minutes, or until they are tender and slightly browned. 6. If desired, prepare a sauce by combining ingredients such as tomatoes, garlic, and herbs. You can use this sauce as a dipping sauce or to enhance the flavors of the roasted vegetables. 7. Serve the roasted vegetable medley alongside a side of mashed potatoes or a vegetable-based sauce. This vegetarian recipe allows you to enjoy the flavors and textures of the roasted vegetables without including meat. The sauce can be easily customized to suit your taste preferences, and the dish can be served alongside a variety of side dishes, such as mashed potatoes or a vegetable-based sauce.</s></s>
モデルは画像内の材料をよく理解しているようで、個々の単語をより抽象的な概念に関連付けることができます (つまり、肉を含む食事はベジタリアン向けではありません)。 それでは、このモデルを使用して推奨事項を取得する方法を見てみましょう。これは、ブレインストーミング中に新しいアイデアを得るのに便利な機能であり、ユーザーに真の価値を提供することができます。以下の会話では、モデルさんにカフェの外観を変えるための提案をお願いしました。 Unsplash の Michał Mancewicz による写真 A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: <im_start><image><im_end> How can I renovate this café to make it look more vintage? ASSISTANT: To make the café look more vintage, you can consider the following changes: 1. Update the lighting: Replace the current lighting with vintage-style lamps or lanterns, which will create a warm and cozy atmosphere. 2. Add vintage decorations: Incorporate antique items, such as vintage clocks, artwork, or decorative plates, to create a nostalgic ambiance. 3. Use vintage furniture: Replace the current stools with vintage-style chairs or barstools, which can add character and charm to the space. 4. Incorporate greenery: Add more greenery, such as potted plants or vines, to create a lush and inviting atmosphere. 5. Update the bar: Replace the current bar with a vintage-style bar, complete with a vintage-inspired backsplash and countertop. 6. Use vintage-style glassware: Replace the current glassware with vintage-style glasses, such as wine glasses, beer mugs, or cocktail shakers. 7. Add vintage-style signage: Replace the current signage with vintage-style menu boards or chalkboards, which can add a touch of nostalgia to the space. 8. Use vintage-style wallpaper or paint: Apply a vintage-style wallpaper or paint to the walls, which can create a unique and charming atmosphere. By implementing these changes, the café will appear more vintage and inviting, creating a memorable experience for its patrons.</s></s>
このアドバイスは、かなり一般的ではあるものの、よりレトロなスタイルにするために現時点で変更できる要素を特定しており、適切であるように思われます。 ユーザーが日常の活動を完了するのに役立つ実用的なコンテンツに移りましょう。モデルは広告やリストの作成を手伝ってくれますか? 写真はEugene ChystiakovによるUnsplashより A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: <im_start><image><im_end> Write an advertisment for this chair ASSISTANT: Introducing the modern and stylish black and wood chair, perfect for any contemporary setting. This chair features a sleek black seat and a wooden base, creating a striking contrast against any background. Its minimalist design makes it a versatile addition to any room, whether it's used as a dining chair, a side table, or a statement piece in a living space. The chair's sturdy construction ensures it can withstand daily use, while its clean lines and sleek appearance add a touch of sophistication to any room. Upgrade your living space with this stylish and functional chair today.</s></s> USER: Write now an advertisement for the same chair but targeting cafes ASSISTANT: Attention café owners and design enthusiasts! Introducing the black and wood chair, the perfect addition to your café's seating area. This stylish and functional chair offers a modern touch to your establishment, with its sleek black seat and wooden base creating a striking contrast against any background. Its minimalist design makes it a versatile choice for any café setting, whether it's used as a dining chair, a side table, or a statement piece in a lounge area. The chair's sturdy construction ensures it can withstand daily use, while its clean lines and sleek appearance add a touch of sophistication to any room. Upgrade your café's ambiance with this stylish and functional chair today.</s></s>
このモデルは、椅子の特徴を正確に特定して魅力的な広告を作成することができ、また、要件やさまざまな目的に基づいて回答を適切に調整することができます。 最終テストとして、大規模言語モデルに有益であることが示されているヒント手法が LLaVA モデルでも使用できるかどうかを確認しましょう。ゼロショット思考連鎖プロンプトを試した例を次に示します。 写真はArnold MiddelkoopによるUnsplashより A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: <im_start><image><im_end> Would the fish depicted in the image float if thrown in water? Think step by step. ASSISTANT: The fish depicted in the image is a large white fish sculpture or statue, which is lying on the ground on a brick walkway near a body of water. If thrown into the water, the fish would not float because it is a solid, inanimate object. It would sink to the bottom of the water, as it is not buoyant due to its composition and size. The fish's position on the ground and its lack of buoyancy make it impossible for it to float in water.</s></s> USER: What material could be used to make a fish sculpture that floats on water? ASSISTANT: To make a fish sculpture that floats on water, one could use a lightweight, buoyant material such as expanded polystyrene foam or polyethylene foam. These materials are commonly used for making buoyant objects like life jackets, flotation devices, and fishing floats. By shaping the foam into the desired fish form, it would be able to float on the water's surface, simulating the behavior of a real fish.</s></s>
モデルは魚が浮かばなかった理由を説明することができ、それが本物の魚ではないことを正しく識別しました。さらに、モデルは指示に従い、最終的な答えを出す前に問題を段階的に考えます。比較のために、「段階的に考えましょう」というプロンプトがない場合の会話の例を示します。 A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: <im_start><image><im_end> Would the fish depicted in the image float if thrown in water? ASSISTANT: No, the fish depicted in the image would not float if thrown in water. It is a large, white, stone fish sculpture, which is not a real fish and does not have the buoyancy properties of a natural fish.</s></s> 最後の答えも正しいのですが、この場合は説明がより詳細になり、答えが文の冒頭に示されています。 LLaVA が使用する生成言語モデルは因果関係があるため、提供される回答はその後の解釈に依存しません。論文「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」および「Large Language Models are Zero-Shot Reasoners」で観察された大規模言語モデルと非常によく似た、Chain of Thought (CoT)が複雑な推論タスクにおける視覚言語モデルのパフォーマンスを向上させることができるかどうかをテストするためのより大規模な実験を実施することは興味深いでしょう。 制限LLaVA モデルは非常に強力ですが、制限もあります。たとえば、モデルはチャットごとに 1 つの画像のみを使用するようにトレーニングされていたため、複数の画像とのやり取りを必要とする複雑な会話を処理できませんでした。この制限はモデル アーキテクチャに固有のものではなく、トレーニング中に複数画像のチャット データを含めることで変更できます。 テスト中に、モデル (少なくとも 1.57b モデルの 8 ビット量子化バージョン) に、画像内の要素をカウントしたり、数値タスクを処理したりする際に問題があることに気付きました。ここに例があります。 写真はUnsplashのJohn Matychukによるものです A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: <im_start><image><im_end> How many car are inside the parking lot? ASSISTANT: There are several cars parked inside the parking lot.</s></s> USER: List the numbers of the parking spots occupied by cars ASSISTANT: The parking spots occupied by cars are 66, 67, 68, 69, 70, and 71.</s></s>
すべての大規模言語モデルと同様に、このモデルは「幻覚」を起こしやすく、適切なプロンプトを使用しても簡単に間違いを起こす可能性があります。たとえば、砂漠の写真を見せられ、その写真に写っている魚の種類を尋ねられた場合、砂漠の魚という錯覚を起こすでしょう。 写真はWolfgang HasselmannによるUnsplashより A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: <im_start><image><im_end> Tell me the species of the fish in this image ASSISTANT: The fish in this image is a desert fish, which is a species adapted to living in desert environments.</s></s>
結論は要約すると、LLaVA モデルは視覚言語理解において優れた能力を発揮しました。これは、マルチモーダル オープン ソース ビジョン言語モデルにとって明確な前進を意味します。 LLaVA モデルの最大の利点の 1 つは、軽量でトレーニングと微調整が簡単なことです。たとえば、LLaVA 1.5 13b の完全なトレーニングには 120 万のデータ ポイントのみが必要で、単一の 8-A100 ノードで約 1 日かかります。これにより、論文「LLaVA-Med: バイオメディカル向けの大規模な言語および視覚アシスタントを 1 日でトレーニング」(LLaVA Med: バイオメディカル向けの大規模な言語および視覚アシスタントを 1 日でトレーニング) ((https://arxiv.org/abs/2306.00890)) で行われたように、特定のドメインで微調整してエキスパート アシスタントとして機能するのに適しています。 チャット アシスタントにビジョン機能を追加すると、このようなモデルの適用領域が拡大し、より複雑で微妙なタスクに革命的な可能性をもたらすことができます。画像の特徴を言語トークンとして扱うと、プレーンテキスト言語モデルで使用されるすべての高度なヒント技術を使用し、さらに拡張する可能性も生まれます。たとえば、会話に関連するテキストや画像を検索することで、検索拡張生成の機能を拡張できます。実際、CLIP の共有画像テキスト埋め込みスペースを使用すると、入力テキストや画像から外部ドキュメントや外部画像を取得することが可能になります。 このモデルの機能を拡張するためのもう 1 つの興味深い方向性は、論文「LLaVA Interactive: 画像チャット、セグメンテーション、生成、編集のためのオールインワン デモ」で紹介されています。主なアイデアは、視覚言語チャット モデル、テキストから画像への生成モデル、その他の視覚モデル (画像セグメンテーション モデルなど) のさまざまな機能を組み合わせて、マルチモーダル入力を処理し、マルチモーダル出力を生成できるアシスタントを取得することです。 要約すると、LLaVA モデルは、優れた機能を実証し、多くの関心を集めているオープンソースのマルチモーダル生成モデルにおける重要な前進を示しています。オープンソース モデルがより広く採用されるようになると、これらの強力なモデルに基づく新しいアプリケーションがすぐに急増するようになると思います。 最後に、読んでいただきありがとうございました!自分でコードを試してみたい場合は、この Colab ノートブックを確認してください。 翻訳者紹介Zhu Xianzhong 氏は、51CTO のコミュニティ エディターであり、51CTO の専門ブロガー兼講師であり、濰坊の大学のコンピューター教師であり、フリーランス プログラミング コミュニティのベテランです。 元のタイトル: LLaVA でビジョン チャット アシスタントを作成する、著者: Gabriele Sgroi リンク: https://towardsdatascience.com/create-your-vision-chat-assistant-with-llava-610b02c3283e. |