国内の音声対話モデルはこちら:Kai-Fu LeeとZero One Everythingが参加、中国語と英語のバイリンガルマルチモーダル、オープンソースで市販されている

国内の音声対話モデルはこちら:Kai-Fu LeeとZero One Everythingが参加、中国語と英語のバイリンガルマルチモーダル、オープンソースで市販されている

中国語と英語のバイリンガル音声対話の最初のオープンソース モデルが登場しました。

最近、arXivに音声・テキストマルチモーダルビッグモデルに関する論文が掲載され、署名企業の中に李開復氏のビッグモデル企業01.aiの名前が登場した。

写真

この論文では、録音とテキスト入力の両方をサポートし、「混合ダブル」も問題にならない市販の中国語-英語バイリンガル対話モデル LLaSM を提案しています。

写真

この論文では、単なるテキスト入力よりも「音声チャット」の方が AI が人間と対話するためのより便利で自然な方法であると考えている。

この大型モデルを利用して、一部のネットユーザーはすでに「寝転がって話をしながらコードを書く」というシーンを想像している。

写真

この研究は、LinkSoul.AI、北京大学、Zero One Everything によるものです。現在はオープンソース化されており、HugFace で直接試すことができます。

写真

それがどれだけうまく機能するか見てみましょう。

テキストと音声入力をサポートし、携帯電話でも再生できます

研究者によると、LLaSM は中国語と英語のバイリンガル音声テキストマルチモーダル会話をサポートする、初のオープンソースの市販会話モデルです。

それでは、音声テキスト入力と中国語と英語のバイリンガル機能を見てみましょう。

まず、中国とイギリスの文化衝突を起こし、英語で李白を評価してもらいましょう。

写真

悪くない、李白の王朝を正確に述べている。英語が分からない場合は、中国語に翻訳してください。

写真

次に、中国語の「揚げ物」を混ぜた中国語と英語の混合質問を試してみましょう。モデルの出力も良好です。

写真

モデルをもう一度テストして、李白と杜甫のどちらが優れているか評価してみましょう。

モデルはしばらく考えた後、非常に中立的な評価を与え、また、大型モデル(手動犬頭)の基本的な「水分バランスの常識」を持っていることがわかります

写真

もちろんパソコンだけでなく携帯電話でもプレイ可能です。

音声入力を使って「レシピをおすすめして」と言ってみましょう。

モデルが「ナスとチーズ」のレシピを正確に出力していることはわかりますが、それがおいしいかどうかはわかりません。

しかし、試してみると、このモデルにはバグがあることもわかりました。

たとえば、人間の言語をうまく理解できないことがあります。

中国語と英語を混ぜて出力するように指示すると、理解できないふりをして英語を出力します。

写真

英語と中国語の混合クエリを使用して「Taylor Swift の Red」を聴いたところ、モデルに大きなバグがあり、同じ文を繰り返し出力し、停止することさえできませんでした...

写真

一般的に、中国語と英語が混在する質問やリクエストに直面した場合、モデルの出力機能はまだ十分ではありません。

しかし、分けて考えれば、中国語と英語での表現力は依然として優れています。

では、このようなモデルはどのように実装されるのでしょうか?

どんな新しいモデルを作りましたか?

試用プレイから、LLaSM には 2 つの主な特徴があります。1 つは中国語と英語の入力をサポートしていること、もう 1 つは音声とテキストのデュアル入力です。

これら 2 つのポイントを達成するには、アーキテクチャとトレーニング データにそれぞれいくつかの調整を加える必要があります。

アーキテクチャの面では、LLaSM は現在の音声認識モデルと大規模言語モデルを統合します。

LLaSM は、自動音声認識モデル Whisper、モダリティ アダプター、大規模モデル LLaMA の 3 つの部分で構成されています。

これらのうち、Whisper は生の音声入力を受信し、音声特徴のベクトル表現を出力する役割を担い、モダリティ アダプターは音声とテキストの埋め込みを揃える役割を担い、LLaMA は音声とテキスト入力の指示を理解して応答を生成する役割を担います。

写真

モデルのトレーニングは 2 つの段階に分かれています。第 1 段階では、モーダル アダプターをトレーニングし、エンコーダーと大規模モデルをフリーズして、音声とテキストの配置を学習できるようにします。第 2 段階では、エンコーダーをフリーズして、モーダル アダプターと大規模モデルをトレーニングし、マルチモーダル会話機能を学習します。

トレーニングデータに関しては、研究者らは、199,000件の会話と508,000件の音声テキストサンプルを含むLLaSM-Audio-Instructionsと呼ばれるデータセットをまとめました。

508,000 個の音声テキスト サンプルの中には、中国語の音声サンプルが 80,000 個、英語の音声サンプルが 428,000 個含まれています。

研究者らは主にWizardLM、ShareGPT、GPT-4-LLMなどのデータセットを使用し、無効な会話を除外しながら、テキスト読み上げ技術を使用してこれらのデータセットの音声パッケージを生成しました。

写真

これは現時点で最大の中国語と英語の音声テキスト指示追従データセットでもありますが、まだ整理中です。研究者によると、整理が終わったらオープンソース化される予定です。

しかし、この論文では、その出力を他の音声モデルやテキストモデルとまだ比較していません。

著者について

この論文は、LinkSoul.AI、北京大学、Zero One Everythingから提供されたものです。

共同筆頭著者のYu Shu氏とSiwei Dong氏はともにLinkSoul.AIに所属し、以前は北京智源人工知能研究所に勤務していた。

LinkSoul.AI は、以前に最初のオープンソース Llama 2 中国語言語モデルをリリースした AI スタートアップです。

写真

李開復氏の傘下にある大手モデル会社であるゼロワンエブリシングもこの研究に貢献した。著者のWenhao Huang氏のHugging Faceのホームページには、彼が復旦大学を卒業したことが記載されています。

写真

論文の宛先:
https://arxiv.org/abs/2308.15930

デモアドレス:
https://huggingface.co/LinkSoul/LLaSM-Cllama2

<<:  Google の覇権は崩壊するのか?支配から疑惑へ:20年間インターネットのトレンドを形作ってきたGoogle検索は謎に包まれている

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

論文執筆に必ず使うべき 12 のニューラル ネットワーク可視化ツール

この記事では、ニューラルネットワークの描画をより美しくする 12 個のツールを紹介します。 1. 描...

LEACH プロトコル アルゴリズムの簡単な紹介

今回はLEACHプロトコルとアルゴリズムおよびステージの構築について説明します。したがって、誰もがこ...

データ注釈サービスのアウトソーシングによって AI モデルはどのように強化されるのでしょうか?

人工知能 (AI) と機械学習 (ML) の分野では、基礎はデータにあります。データの品質、精度、深...

エンタープライズ ソフトウェア ベンダーのジェネレーティブ AI への取り組み

2023 年は生成 AI テクノロジーが爆発的に普及した年であり、ChatGPT などのツールが研究...

...

...

AI エキスパート: ビッグデータ ナレッジ グラフ - 実践経験のまとめ

データ サイエンティストとして、業界のトップ ナレッジ グラフをまとめ、技術専門家と共有して、ビッグ...

GenAIがより良い回答を提供するためのヒント

GenAI は、ユーザーが独自の方法でデータをクエリし、ニーズに合わせた回答を受け取ることができるイ...

ガートナー 2019 人工知能成熟サイクルのトレンド

このガートナーのハイプサイクルは、AIが企業に及ぼすさまざまな影響を強調しています。ガートナーの 2...

ChatGPTが企業の収益向上にどのように役立つか

ここ数か月、生成型人工知能(ChatGPT)に関するニュースがほぼ毎日のように報道されています。突然...

...

...

機械学習アルゴリズムは簡単に詐欺を検出できるので、詐欺を恐れる必要はありません。

実のところ、誰もが詐欺防止を必要としているわけではありません。金融機関が最新の犯罪手法に追いつこうと...

アルゴリズム学習のための動的プログラミング戦略の紹介

1. コンセプト動的プログラミング戦略、分割統治戦略。貪欲戦略と同様に、通常は最適解問題を解決するた...