国内の音声対話モデルはこちら:Kai-Fu LeeとZero One Everythingが参加、中国語と英語のバイリンガルマルチモーダル、オープンソースで市販されている

国内の音声対話モデルはこちら:Kai-Fu LeeとZero One Everythingが参加、中国語と英語のバイリンガルマルチモーダル、オープンソースで市販されている

中国語と英語のバイリンガル音声対話の最初のオープンソース モデルが登場しました。

最近、arXivに音声・テキストマルチモーダルビッグモデルに関する論文が掲載され、署名企業の中に李開復氏のビッグモデル企業01.aiの名前が登場した。

写真

この論文では、録音とテキスト入力の両方をサポートし、「混合ダブル」も問題にならない市販の中国語-英語バイリンガル対話モデル LLaSM を提案しています。

写真

この論文では、単なるテキスト入力よりも「音声チャット」の方が AI が人間と対話するためのより便利で自然な方法であると考えている。

この大型モデルを利用して、一部のネットユーザーはすでに「寝転がって話をしながらコードを書く」というシーンを想像している。

写真

この研究は、LinkSoul.AI、北京大学、Zero One Everything によるものです。現在はオープンソース化されており、HugFace で直接試すことができます。

写真

それがどれだけうまく機能するか見てみましょう。

テキストと音声入力をサポートし、携帯電話でも再生できます

研究者によると、LLaSM は中国語と英語のバイリンガル音声テキストマルチモーダル会話をサポートする、初のオープンソースの市販会話モデルです。

それでは、音声テキスト入力と中国語と英語のバイリンガル機能を見てみましょう。

まず、中国とイギリスの文化衝突を起こし、英語で李白を評価してもらいましょう。

写真

悪くない、李白の王朝を正確に述べている。英語が分からない場合は、中国語に翻訳してください。

写真

次に、中国語の「揚げ物」を混ぜた中国語と英語の混合質問を試してみましょう。モデルの出力も良好です。

写真

モデルをもう一度テストして、李白と杜甫のどちらが優れているか評価してみましょう。

モデルはしばらく考えた後、非常に中立的な評価を与え、また、大型モデル(手動犬頭)の基本的な「水分バランスの常識」を持っていることがわかります

写真

もちろんパソコンだけでなく携帯電話でもプレイ可能です。

音声入力を使って「レシピをおすすめして」と言ってみましょう。

モデルが「ナスとチーズ」のレシピを正確に出力していることはわかりますが、それがおいしいかどうかはわかりません。

しかし、試してみると、このモデルにはバグがあることもわかりました。

たとえば、人間の言語をうまく理解できないことがあります。

中国語と英語を混ぜて出力するように指示すると、理解できないふりをして英語を出力します。

写真

英語と中国語の混合クエリを使用して「Taylor Swift の Red」を聴いたところ、モデルに大きなバグがあり、同じ文を繰り返し出力し、停止することさえできませんでした...

写真

一般的に、中国語と英語が混在する質問やリクエストに直面した場合、モデルの出力機能はまだ十分ではありません。

しかし、分けて考えれば、中国語と英語での表現力は依然として優れています。

では、このようなモデルはどのように実装されるのでしょうか?

どんな新しいモデルを作りましたか?

試用プレイから、LLaSM には 2 つの主な特徴があります。1 つは中国語と英語の入力をサポートしていること、もう 1 つは音声とテキストのデュアル入力です。

これら 2 つのポイントを達成するには、アーキテクチャとトレーニング データにそれぞれいくつかの調整を加える必要があります。

アーキテクチャの面では、LLaSM は現在の音声認識モデルと大規模言語モデルを統合します。

LLaSM は、自動音声認識モデル Whisper、モダリティ アダプター、大規模モデル LLaMA の 3 つの部分で構成されています。

これらのうち、Whisper は生の音声入力を受信し、音声特徴のベクトル表現を出力する役割を担い、モダリティ アダプターは音声とテキストの埋め込みを揃える役割を担い、LLaMA は音声とテキスト入力の指示を理解して応答を生成する役割を担います。

写真

モデルのトレーニングは 2 つの段階に分かれています。第 1 段階では、モーダル アダプターをトレーニングし、エンコーダーと大規模モデルをフリーズして、音声とテキストの配置を学習できるようにします。第 2 段階では、エンコーダーをフリーズして、モーダル アダプターと大規模モデルをトレーニングし、マルチモーダル会話機能を学習します。

トレーニングデータに関しては、研究者らは、199,000件の会話と508,000件の音声テキストサンプルを含むLLaSM-Audio-Instructionsと呼ばれるデータセットをまとめました。

508,000 個の音声テキスト サンプルの中には、中国語の音声サンプルが 80,000 個、英語の音声サンプルが 428,000 個含まれています。

研究者らは主にWizardLM、ShareGPT、GPT-4-LLMなどのデータセットを使用し、無効な会話を除外しながら、テキスト読み上げ技術を使用してこれらのデータセットの音声パッケージを生成しました。

写真

これは現時点で最大の中国語と英語の音声テキスト指示追従データセットでもありますが、まだ整理中です。研究者によると、整理が終わったらオープンソース化される予定です。

しかし、この論文では、その出力を他の音声モデルやテキストモデルとまだ比較していません。

著者について

この論文は、LinkSoul.AI、北京大学、Zero One Everythingから提供されたものです。

共同筆頭著者のYu Shu氏とSiwei Dong氏はともにLinkSoul.AIに所属し、以前は北京智源人工知能研究所に勤務していた。

LinkSoul.AI は、以前に最初のオープンソース Llama 2 中国語言語モデルをリリースした AI スタートアップです。

写真

李開復氏の傘下にある大手モデル会社であるゼロワンエブリシングもこの研究に貢献した。著者のWenhao Huang氏のHugging Faceのホームページには、彼が復旦大学を卒業したことが記載されています。

写真

論文の宛先:
https://arxiv.org/abs/2308.15930

デモアドレス:
https://huggingface.co/LinkSoul/LLaSM-Cllama2

<<:  Google の覇権は崩壊するのか?支配から疑惑へ:20年間インターネットのトレンドを形作ってきたGoogle検索は謎に包まれている

>>: 

ブログ    
ブログ    

推薦する

AutoGPTオープンソースAIエージェントを理解する

こんにちは、ルガです。今日も引き続き、人工知能 (AI) エコシステムに関連するテクノロジーである ...

アメリカの企業は単純なタスクを処理するためにAIを活用することに熱心だが、若者にはトレーニングや開発の機会が不足している

7月18日のニュース、Businessinsiderによると、米国の若い労働者はキャリア危機に直面し...

...

...

今後5年間のAI技術の発展と影響を展望する

人工知能 (AI) テクノロジーは、ビジネス プロセスの合理化、運用コストの削減、面倒なタスクの自動...

時空間AI技術:スマートシティ分野における深層強化学習の応用入門

深層強化学習は近年人気が出てきている技術です。深層強化学習の制御および意思決定プロセスには、状態、ア...

...

5 つの主要分野をカバーする、知っておくべき 21 のオープンソース機械学習ツール

この記事では、まだ使ったことがないかもしれないオープンソースの機械学習ツールを21個紹介します。各オ...

8 クイーン問題を解く C# アルゴリズムの簡単な分析

8つのクイーンの問題の説明: 8 クイーン問題は古くからある有名な問題であり、バックトラッキング ア...

...

マイクロソフト、仕事の効率化に役立つ 7 つの新しい AI 製品を発表

Zhidongxi は 11 月 1 日に北京から、この日 (寒くて風が強い)、2017 Micro...

2022 年の 9 つの新しいテクノロジー トレンドと雇用機会

1. 人工知能(AI)と機械学習人工知能 (AI) は過去 10 年間で大きな注目を集めてきましたが...

凌創志新は、AI商業化の閉ループを作成するための最初のデータアノテーションビジネスを立ち上げました

アジアのビッグデータおよび人工知能企業である凌創志信は、同社の伝統的なリテイン事業であるデータラベリ...

...