Llama 2 の中国語版はオープンソースであり、言語モデルとマルチモーダルモデルの両方を備えているため、完全に商用利用可能です。

7月19日、Metaはついに無料の商用版Llama 2をリリースし、オープンソースの大規模モデルの状況に大きな変化をもたらしました。

Llama 2 モデルファミリには、70 億、130 億、700 億の 3 つのパラメータバリアントが含まれています。前世代よりも 40% 多いトレーニングデータがあり、推論、エンコード、熟練度、知識テストなど、多くの外部ベンチマークで優れたパフォーマンスが実証されており、複数の言語をサポートしています。

唯一の欠点は、Llama 2 コーパスでは依然として英語 (89.7%) が大部分を占めており、中国語はわずか 0.13% しか占めていないことです。このため、Llama 2 では流暢かつ詳細な中国語の会話を完了することが困難になります。

Llama2オープンソース大規模モデルの中国語版はコミュニティで初となる

良いニュースとしては、Meta Al が Llama 2 モデルをオープンソース化した翌日、ダウンロードして実行できる最初のオープンソースの中国製 LLaMA2 モデルがオープンソースコミュニティに登場したことです。このモデルは「Chinese Llama 2 7B」と呼ばれ、国内のAIスタートアップLinkSoul.Alによって発売された。

わずか 2 週間で、このプロジェクトは Hugging Face で 10,000 回以上ダウンロードされ、GitHub で 1,200 個のスターを獲得しました。

プロジェクトの紹介によると、Chinese-Llama-2-7b のオープンソースコンテンツには、完全に商業的に実行可能な Llama2 モデルの中国語バージョンと、中国語および英語の SFT データセットが含まれています。入力形式は llama-2-chat 形式に厳密に従っており、元の llama-2-chat モデルのすべての最適化と互換性があります。

プロジェクトアドレス: https://github.com/LinkSoul-AI/Chinese-Llama-2-7b

現在、一般ユーザーはオンラインで「Chinese Llama-2 7B Chat」を体験できます。

トライアルアドレス: https://huggingface.co/spaces/LinkSoul/Chinese-Llama-2-7b

たとえば、英語で質問して中国語で回答してもらうこともできます。

または、中国語で直接話すこともできます。中国語で正確かつ流暢な回答を得ることもできます。

主な特徴は、中国語と英語を柔軟に切り替えることができることです。

誰かがそれを試して、うまく機能したと言っています:

画像出典: https://twitter.com/roya10x7/status/1682781475458957315?s=20

言語モデルに加えて、2つの大規模な中国語マルチモーダルモデルをオープンソース化していきます。

LinkSoul.AIチームは、初のオープンソースLlama2中国語モデルを発表した後、まだ開発の初期段階にあるグローバルマルチモーダル音声テキストモデルと画像テキストモデルに注目し、再び関連モデルのオープンソース化を主導し、国内の開発者に無料ダウンロードと無料の商用利用を提供しました。

オープンソースの中国語マルチモーダルモデルには次の 2 つが含まれます。

LinkSoul.Al チームが主導し、中国語と英語の両方と音声テキスト変換をサポートする初のマルチモーダルオープンソース会話モデル (LLaSM) が、北京知源人工知能研究所、北京大学、Zero One Everything などの国内トップクラスの人工知能チームによって共同開発されました。
中国語と英語のバイリンガルビジョンツーテキスト (Chinese-LLaVA) をサポートする初の Llama 2 ベースのマルチモーダルモデル

どちらのモデルも Apache-2.0 プロトコルに基づくオープンソースであり、完全に商用利用可能です。

LinkSoul.Al開発チームのリーダーであるShi Yemin氏は、「世界を見渡しても、『モデルが世界に耳を傾け、世界を見る』ための信頼できるオープンソースモデルはまだありません。中国のビッグモデルエコシステムを国際的なトップ標準に近づけるために全力を尽くしたいと考えています」と語った。

音声テキスト変換マルチモーダルオープンソース会話モデル (LLaSM)

LinkSoul.AI は、市販されている中国語 - 英語バイリンガル音声言語アシスタント LLaSM と中国語 - 英語音声 SFT データセット LLaSM-Audio-Instructions をオープンソース化しました。 LLaSM は、中国語と英語の音声テキストマルチモーダル会話をサポートする最初のオープンソースの商用会話モデルです。

従来のソリューションと比較して、LLaSM は、便利な音声入力インタラクションを通じて、テキストを入力として使用していた大規模モデルのユーザーエクスペリエンスを大幅に向上させると同時に、ASR ベースのソリューションの面倒なプロセスや起こり得るエラーを効果的に回避できます。

プロジェクトアドレス: https://github.com/LinkSoul-AI/LLaSM
データセット: https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions

以下は、LLaSM からの音声テキスト会話の例です。

LLaSM には対応する文献紹介もあります。

モデル、コード、データアドレス: https://huggingface.co/spaces/LinkSoul/LLaSM

画像からテキストへのマルチモーダルオープンソース会話モデル (中国語 LLaVA)

LinkSoul.AI は、中国語と英語の視覚テキストによるマルチモーダル対話のためのオープンソースの商用対話モデルをサポートする、市販の中国語と英語のバイリンガル視覚言語アシスタント Chinese-LLaVA と中国語と英語の視覚 SFT データセット Chinese-LLaVA-Vision-Instructions をオープンソース化しました。

プロジェクトアドレス: https://github.com/LinkSoul-AI/Chinese-LLaVA
データセット: https://huggingface.co/datasets/LinkSoul/Chinese-LLaVA-Vision-Instructions

以下は中国語 LLaVA のビジュアルテキストダイアログの例です。

写真

モデル、コード、データアドレス: https://huggingface.co/spaces/LinkSoul/Chinese-LLaVa

マルチモーダルモデルの統一アーキテクチャの解釈

大規模言語モデルは多くの面で強力な能力を発揮し、ある程度、汎用人工知能 (AGI) の実現への希望を与えてきました。マルチモーダルモデルは、異なるモダリティ間の情報相互作用のためのチャネルを提供し、視覚情報、音声情報などがテキストの意味情報を補完できるようにし、大規模な言語モデルが世界を聞いて見ることができるようにすることで、GI に向けて新たな一歩を踏み出します。

したがって、マルチモーダルモデルのトレーニングの焦点は、異なるモダリティ間で情報を統合および補完し、既存の大規模言語モデルの機能を最大限に活用する方法にあります。 LinkSoul.AI のオープンソース音声言語マルチモーダルモデルと視覚言語マルチモーダルモデルは、以下の図に示すフレームワークを統一的に採用しています。

まず、異なるモダリティのデータの特徴がモダリティエンコーダーを介してエンコードされ、次に、マルチモーダル特徴アライメントの事前トレーニング段階でモダリティアダプターが学習され、異なるモダリティの入力特徴が大規模言語モデルとアライメントされます。

次に、エンドツーエンドの教師あり微調整 (SFT) 段階で、さまざまなモダリティの指示データセットを使用して、モダリティアダプターと大規模言語モデルを微調整します。教師あり微調整段階では、クロスモーダル指示データとテキストのみの指示データの両方がマルチタスクトレーニングに使用されます。 LinkSoul.AI チームは、マルチタスクトレーニングによって、モデル内のモーダル依存性とバイアスを回避し、1 つのモデルで複数のモダリティを自然に実装できると考えています。

LinkSoul.AI チームの次の仕事は、音声、視覚、テキストをさらに統合して、大規模な言語モデルが音声と視覚の両方のモダリティをサポートできるようにすることです。

事前トレーニング段階

事前トレーニング段階では、モーダルエンコーダーと大規模言語モデルのパラメーターが固定され、クロスモーダル音声/視覚テキストペアを使用してアダプターがトレーニングされます。最適化の目標は、入力指示に対応する応答を生成することです。

具体的には、音声モダリティに対しては、特徴エンコーダとしてWhisperを使用し、Whisper[5]を固定して音声入力の特徴を抽出する。我々は公開されている中国語と英語の自動音声認識（ASR）データセットであるAishell [1]、LibriSpeech [2]、Magicdata [3]、Primewords [4]を使用します。

各データサンプル（音声、テキストラベル）について、対応する言語に従って事前トレーニング済みの音声コマンドテーブル（セクション3のデータ部分を参照）からコマンドがランダムに選択され、（音声、指示、テキストラベル）形式のデータが形成され、トレーニングプロセス中にテキストラベルが予測されます。

視覚モダリティについては、画像特徴抽出器としてCLIP [6]を使用し、mBART [8]を使用してLLaVA [7]オープンソースの視覚事前トレーニングデータを中国語に翻訳し、中国語の画像とテキストのペアを生成します。事前トレーニング段階では、中国語と英語のデータが同時にトレーニングに使用されるため、モデルは中国語をより適切にサポートできます。

監督下での微調整

事前トレーニング段階では、さまざまなモダリティの特徴が大規模言語モデルに合わせて調整されます。教師あり微調整段階では、モダリティエンコーダーの重みのみが固定され、モダリティアダプターと大規模言語モデルのパラメーターがオンになり、クロスモーダル指示データを使用して微調整が行われます。

現在、公開されている音声マルチモーダル指示データがほとんどないという問題に対処するために、公開データセットWizardLM [9]、ShareGPT [10]、GPT-4-LLM [11]に基づいて、音声テキストマルチモーダル指示データセットLLaSM-Audio-Instructionsが構築されました。音声入力をコマンドとして受け取り、対応するテキスト出力を予測します。

視覚モダリティについては、まずLLaVA [7]オープンソースの視覚コマンドデータセットをmBART [8]を使用して中国語に翻訳し、中国語の視覚コマンドデータセットを生成し、同様の方法でトレーニングしました。

データセット

モダリティ変換事前トレーニングデータセット

まずはオーディオを見てみましょう。音声マルチモーダル事前トレーニングデータセットでは、公開されている中国語と英語の自動音声認識（ASR）データセットであるAishell [1]、LibriSpeech [2]、Magicdata [3]、Primewords [4]を使用します。

同時に、次の命令セットが構築されます。各 (audio, text_label) サンプルに対して、対応する言語に応じて命令がランダムに選択され、データサンプル (instruction, audio, text_label) が構築されます。

表1: 英語の簡単な命令セット

表2: 中国語の簡単な命令セット

それからビジョンがあります。視覚モダリティについては、LLaVA [7]のオープンソースの視覚事前トレーニングデータを使用し、mBART [8]翻訳を通じてローカライズして中国語の画像とテキストのペアを生成し、モデルの中国語機能を向上させます。

命令微調整データセット

まずはオーディオを見てみましょう。音声データセットを構築するプロセスでは、まず、コード、記号、URL、その他の判読できないテキストなど、発声に適さない会話を削除して、すべての会話データを慎重にフィルタリングします。次に、データの品質を確保するために、会話の各ラウンドにおけるチャットボットの回答が再度フィルタリングされ、価値のある情報が含まれていないものは破棄されます。最後に、Microsoft Azure [12]音声合成APIを使用して音声データを生成します。

それからビジョンがあります。視覚モダリティについては、LLaVA [7]オープンソースの視覚コマンドデータセットを使用し、これをmBART [8]を使用して中国語に翻訳して中国語のマルチモーダルコマンドデータを生成し、モデルが中国語の視覚コマンドを実行できるようにしました。

オープンソースコミュニティがマルチモーダル大規模モデルの機能を迅速に体験し、マルチモーダル大規模モデルの研究の進歩を共同で促進できるように、トレーニングに使用されるデータはプロジェクト内でオープンソース化され、Hugging Face リポジトリからダウンロードできるように提供されています。

LinkSoul.AI チームにとって、これら 2 つのオープンソースで市販されているマルチモーダルビッグモデルは、ビッグモデルエコシステムに音声および視覚のマルチモーダル機能をもたらすだけでなく、ビッグモデルの多言語の側面にも貢献します。

さらに、商業シナリオでは、チームが立ち上げたモデルは商業目的で完全に無料で使用することが許可されており、これは国内の個人開発者やスタートアップにとっても非常に価値があります。

<<: ChatGPTに6つの新機能が追加され、GPT-4がデフォルトモデルとなり、ショートカットキーを使用してファイルのアップロードがサポートされるようになりました。

>>: ガートナー: データサイエンスと機械学習の未来に影響を与える 5 つのトレンド