Llama 2 の中国語版はオープンソースであり、言語モデルとマルチモーダルモデルの両方を備えているため、完全に商用利用可能です。

Llama 2 の中国語版はオープンソースであり、言語モデルとマルチモーダルモデルの両方を備えているため、完全に商用利用可能です。

7月19日、Metaはついに無料の商用版Llama 2をリリースし、オープンソースの大規模モデルの状況に大きな変化をもたらしました。

Llama 2 モデル ファミリには、70 億、130 億、700 億の 3 つのパラメータ バリアントが含まれています。前世代よりも 40% 多いトレーニング データがあり、推論、エンコード、熟練度、知識テストなど、多くの外部ベンチマークで優れたパフォーマンスが実証されており、複数の言語をサポートしています。

唯一の欠点は、Llama 2 コーパスでは依然として英語 (89.7%) が大部分を占めており、中国語はわずか 0.13% しか占めていないことです。このため、Llama 2 では流暢かつ詳細な中国語の会話を完了することが困難になります。

Llama2オープンソース大規模モデルの中国語版はコミュニティで初となる

良いニュースとしては、Meta Al が Llama 2 モデルをオープンソース化した翌日、ダウンロードして実行できる最初のオープンソースの中国製 LLaMA2 モデルがオープンソース コミュニティに登場したことです。このモデルは「Chinese Llama 2 7B」と呼ばれ、国内のAIスタートアップLinkSoul.Alによって発売された

わずか 2 週間で、このプロジェクトは Hugging Face で 10,000 回以上ダウンロードされ、GitHub で 1,200 個のスターを獲得しました。

プロジェクトの紹介によると、Chinese-Llama-2-7b のオープンソース コンテンツには、完全に商業的に実行可能な Llama2 モデルの中国語バージョンと、中国語および英語の SFT データ セットが含まれています。入力形式は llama-2-chat 形式に厳密に従っており、元の llama-2-chat モデルのすべての最適化と互換性があります。

プロジェクトアドレス: https://github.com/LinkSoul-AI/Chinese-Llama-2-7b

現在、一般ユーザーはオンラインで「Chinese Llama-2 7B Chat」を体験できます。

トライアルアドレス: https://huggingface.co/spaces/LinkSoul/Chinese-Llama-2-7b

たとえば、英語で質問して中国語で回答してもらうこともできます。

または、中国語で直接話すこともできます。中国語で正確かつ流暢な回答を得ることもできます。

主な特徴は、中国語と英語を柔軟に切り替えることができることです。

誰かがそれを試して、うまく機能したと言っています:

画像出典: https://twitter.com/roya10x7/status/1682781475458957315?s=20

言語モデルに加えて、2つの大規模な中国語マルチモーダルモデルをオープンソース化していきます。

LinkSoul.AIチームは、初のオープンソースLlama2中国語モデルを発表した後、まだ開発の初期段階にあるグローバルマルチモーダル音声テキストモデルと画像テキストモデルに注目し、再び関連モデルのオープンソース化を主導し、国内の開発者に無料ダウンロードと無料の商用利用を提供しました。

オープンソースの中国語マルチモーダル モデルには次の 2 つが含まれます。

  • LinkSoul.Al チームが主導し、中国語と英語の両方と音声テキスト変換をサポートする初のマルチモーダル オープンソース会話モデル (LLaSM) が、北京知源人工知能研究所、北京大学、Zero One Everything などの国内トップクラスの人工知能チームによって共同開発されました。
  • 中国語と英語のバイリンガル ビジョン ツー テキスト (Chinese-LLaVA) をサポートする初の Llama 2 ベースのマルチモーダル モデル

どちらのモデルも Apache-2.0 プロトコルに基づくオープン ソースであり、完全に商用利用可能です。

LinkSoul.Al開発チームのリーダーであるShi Yemin氏は、「世界を見渡しても、『モデルが世界に耳を傾け、世界を見る』ための信頼できるオープンソースモデルはまだありません。中国のビッグモデルエコシステムを国際的なトップ標準に近づけるために全力を尽くしたいと考えています」と語った。

音声テキスト変換マルチモーダル オープンソース会話モデル (LLaSM)

LinkSoul.AI は、市販されている中国語 - 英語バイリンガル音声言語アシスタント LLaSM と中国語 - 英語音声 SFT データセット LLaSM-Audio-Instructions をオープンソース化しました。 LLaSM は、中国語と英語の音声テキスト マルチモーダル会話をサポートする最初のオープン ソースの商用会話モデルです。

従来のソリューションと比較して、LLaSM は、便利な音声入力インタラクションを通じて、テキストを入力として使用していた大規模モデルのユーザー エクスペリエンスを大幅に向上させると同時に、ASR ベースのソリューションの面倒なプロセスや起こり得るエラーを効果的に回避できます。

  • プロジェクトアドレス: https://github.com/LinkSoul-AI/LLaSM
  • データセット: https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions

以下は、LLaSM からの音声テキスト会話の例です。

LLaSM には対応する文献紹介もあります。

モデル、コード、データアドレス: https://huggingface.co/spaces/LinkSoul/LLaSM

画像からテキストへのマルチモーダル オープンソース会話モデル (中国語 LLaVA)

LinkSoul.AI は、中国語と英語の視覚テキストによるマルチモーダル対話のためのオープンソースの商用対話モデルをサポートする、市販の中国語と英語のバイリンガル視覚言語アシスタント Chinese-LLaVA と中国語と英語の視覚 SFT データセット Chinese-LLaVA-Vision-Instructions をオープンソース化しました。

  • プロジェクトアドレス: https://github.com/LinkSoul-AI/Chinese-LLaVA
  • データセット: https://huggingface.co/datasets/LinkSoul/Chinese-LLaVA-Vision-Instructions

以下は中国語 LLaVA のビジュアルテキストダイアログの例です。

写真

モデル、コード、データアドレス: https://huggingface.co/spaces/LinkSoul/Chinese-LLaVa

マルチモーダルモデルの統一アーキテクチャの解釈

大規模言語モデルは多くの面で強力な能力を発揮し、ある程度、汎用人工知能 (AGI) の実現への希望を与えてきました。マルチモーダル モデルは、異なるモダリティ間の情報相互作用のためのチャネルを提供し、視覚情報、音声情報などがテキストの意味情報を補完できるようにし、大規模な言語モデルが世界を聞いて見ることができるようにすることで、GI に向けて新たな一歩を踏み出します。

したがって、マルチモーダル モデルのトレーニングの焦点は、異なるモダリティ間で情報を統合および補完し、既存の大規模言語モデルの機能を最大限に活用する方法にあります。 LinkSoul.AI のオープンソース音声言語マルチモーダルモデルと視覚言語マルチモーダルモデルは、以下の図に示すフレームワークを統一的に採用しています

まず、異なるモダリティのデータの特徴がモダリティ エンコーダーを介してエンコードされ、次に、マルチモーダル特徴アライメントの事前トレーニング段階でモダリティ アダプターが学習され、異なるモダリティの入力特徴が大規模言語モデルとアライメントされます。

次に、エンドツーエンドの教師あり微調整 (SFT) 段階で、さまざまなモダリティの指示データセットを使用して、モダリティ アダプターと大規模言語モデルを微調整します。教師あり微調整段階では、クロスモーダル指示データとテキストのみの指示データの両方がマルチタスクトレーニングに使用されます。 LinkSoul.AI チームは、マルチタスク トレーニングによって、モデル内のモーダル依存性とバイアスを回避し、1 つのモデルで複数のモダリティを自然に実装できると考えています。

LinkSoul.AI チームの次の仕事は、音声、視覚、テキストをさらに統合して、大規模な言語モデルが音声と視覚の両方のモダリティをサポートできるようにすることです。

事前トレーニング段階

事前トレーニング段階では、モーダル エンコーダーと大規模言語モデルのパラメーターが固定され、クロスモーダル音声/視覚テキスト ペアを使用してアダプターがトレーニングされます。最適化の目標は、入力指示に対応する応答を生成することです。

具体的には、音声モダリティに対しては、特徴エンコーダとしてWhisperを使用し、Whisper[5]を固定して音声入力の特徴を抽出する。我々は公開されている中国語と英語の自動音声認識(ASR)データセットであるAishell [1]、LibriSpeech [2]、Magicdata [3]、Primewords [4]を使用します。

各データサンプル(音声、テキストラベル)について、対応する言語に従って事前トレーニング済みの音声コマンドテーブル(セクション3のデータ部分を参照)からコマンドがランダムに選択され、(音声、指示、テキストラベル)形式のデータが形成され、トレーニングプロセス中にテキストラベルが予測されます。

視覚モダリティについては、画像特徴抽出器としてCLIP [6]を使用し、mBART [8]を使用してLLaVA [7]オープンソースの視覚事前トレーニングデータを中国語に翻訳し、中国語の画像とテキストのペアを生成します。事前トレーニング段階では、中国語と英語のデータが同時にトレーニングに使用されるため、モデルは中国語をより適切にサポートできます。

監督下での微調整

事前トレーニング段階では、さまざまなモダリティの特徴が大規模言語モデルに合わせて調整されます。教師あり微調整段階では、モダリティ エンコーダーの重みのみが固定され、モダリティ アダプターと大規模言語モデルのパラメーターがオンになり、クロスモーダル指示データを使用して微調整が行われます。

現在、公開されている音声マルチモーダル指示データがほとんどないという問題に対処するために、公開データセットWizardLM [9]、ShareGPT [10]、GPT-4-LLM [11]に基づいて、音声テキストマルチモーダル指示データセットLLaSM-Audio-Instructionsが構築されました。音声入力をコマンドとして受け取り、対応するテキスト出力を予測します。

視覚モダリティについては、まずLLaVA [7]オープンソースの視覚コマンドデータセットをmBART [8]を使用して中国語に翻訳し、中国語の視覚コマンドデータセットを生成し、同様の方法でトレーニングしました。

データセット

モダリティ変換事前トレーニングデータセット

まずはオーディオを見てみましょう。音声マルチモーダル事前トレーニングデータセットでは、公開されている中国語と英語の自動音声認識(ASR)データセットであるAishell [1]、LibriSpeech [2]、Magicdata [3]、Primewords [4]を使用します。

同時に、次の命令セットが構築されます。各 (audio, text_label) サンプルに対して、対応する言語に応じて命令がランダムに選択され、データ サンプル (instruction, audio, text_label) が構築されます。

表1: 英語の簡単な命令セット

表2: 中国語の簡単な命令セット

それからビジョンがあります。視覚モダリティについては、LLaVA [7]のオープンソースの視覚事前トレーニングデータを使用し、mBART [8]翻訳を通じてローカライズして中国語の画像とテキストのペアを生成し、モデルの中国語機能を向上させます。

命令微調整データセット

まずはオーディオを見てみましょう。音声データセットを構築するプロセスでは、まず、コード、記号、URL、その他の判読できないテキストなど、発声に適さない会話を削除して、すべての会話データを慎重にフィルタリングします。次に、データの品質を確保するために、会話の各ラウンドにおけるチャットボットの回答が再度フィルタリングされ、価値のある情報が含まれていないものは破棄されます。最後に、Microsoft Azure [12]音声合成APIを使用して音声データを生成します。

それからビジョンがあります。視覚モダリティについては、LLaVA [7]オープンソースの視覚コマンドデータセットを使用し、これをmBART [8]を使用して中国語に翻訳して中国語のマルチモーダルコマンドデータを生成し、モデルが中国語の視覚コマンドを実行できるようにしました。

オープンソース コミュニティがマルチモーダル大規模モデルの機能を迅速に体験し、マルチモーダル大規模モデルの研究の進歩を共同で促進できるように、トレーニングに使用されるデータはプロジェクト内でオープンソース化され、Hugging Face リポジトリからダウンロードできるように提供されています。

LinkSoul.AI チームにとって、これら 2 つのオープンソースで市販されているマルチモーダル ビッグ モデルは、ビッグ モデル エコシステムに音声および視覚のマルチモーダル機能をもたらすだけでなく、ビッグ モデルの多言語の側面にも貢献します。

さらに、商業シナリオでは、チームが立ち上げたモデルは商業目的で完全に無料で使用することが許可されており、これは国内の個人開発者やスタートアップにとっても非常に価値があります。

<<:  ChatGPTに6つの新機能が追加され、GPT-4がデフォルトモデルとなり、ショートカットキーを使用してファイルのアップロードがサポートされるようになりました。

>>:  ガートナー: データサイエンスと機械学習の未来に影響を与える 5 つのトレンド

ブログ    

推薦する

...

小売業界のトレンド: 人工知能からクーポンコードまで

テクノロジーによりシステム効率が大幅に向上し、ビジネス運営のコスト効率と時間効率が向上しました。テク...

ML コミュニティにおける 8 つの主要な「癌」: 盲目的崇拝、相互批判、SOTA の重視と有効性の軽視...

諺にあるように、人がいるところには川や湖があり、さまざまな立場や利害の争いがあるものです。科学研究の...

...

AIは音楽業界をどのように変えているのでしょうか?

[[269995]]音楽業界では、他の業界と同様に、AI テクノロジーによってサービスを自動化し、...

データインテリジェンスのない人工知能は人工的である

良いロボット掃除機が動いているところを見たことがありますか?最初は楽しいのですが、掃除してほしかった...

アルパカ科全体よりも優れたMeta AIの新しい自己アライメント手法は、人間の注釈データをほとんど必要としません

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

AIが70年間で急成長した理由が明らかに!タイム誌の4枚の写真がアルゴリズムの進化の謎を明らかにする

過去 10 年間の AI システムの進歩のスピードは驚くべきものでした。 2016年の囲碁対局でアル...

エッジAI: 人工知能の進化の次のステップ

[[422303]]人工知能(AI)は、かなり長い間、世界中のビジネスにおいて安定した存在となってい...

記憶は人工知能開発の重要な側面を示している

一般的に言えば、人間が不規則な電話番号の列を記憶するには長い時間がかかりますが、人工知能はこの情報を...

OpenAIに大きな打撃!米政府がChatGPTを「オープンソース化」、アルトマン氏はパニックに陥り3つのツイートを投稿

ビッグニュース!連邦取引委員会の調査が始まります!調査の対象は、人気の OpenAI に他なりません...

...

人間はAIの課題にどう立ち向かうのか

経済学者が懸念している大きな問題は、人工知能が雇用にどのような影響を与えるかということです。人工知能...

コロナウイルス:スマートシティ変革のきっかけ

都市環境は、物理的、デジタル的、人間的システムを統合し、住民と企業に優れた成果をもたらします。 [[...