国内の音声対話モデルはこちら:Kai-Fu LeeとZero One Everythingが参加、中国語と英語のバイリンガルマルチモーダル、オープンソースで市販されている

国内の音声対話モデルはこちら:Kai-Fu LeeとZero One Everythingが参加、中国語と英語のバイリンガルマルチモーダル、オープンソースで市販されている

中国語と英語のバイリンガル音声対話の最初のオープンソース モデルが登場しました。

最近、arXivに音声・テキストマルチモーダルビッグモデルに関する論文が掲載され、署名企業の中に李開復氏のビッグモデル企業01.aiの名前が登場した。

写真

この論文では、録音とテキスト入力の両方をサポートし、「混合ダブル」も問題にならない市販の中国語-英語バイリンガル対話モデル LLaSM を提案しています。

写真

この論文では、単なるテキスト入力よりも「音声チャット」の方が AI が人間と対話するためのより便利で自然な方法であると考えている。

この大型モデルを利用して、一部のネットユーザーはすでに「寝転がって話をしながらコードを書く」というシーンを想像している。

写真

この研究は、LinkSoul.AI、北京大学、Zero One Everything によるものです。現在はオープンソース化されており、HugFace で直接試すことができます。

写真

それがどれだけうまく機能するか見てみましょう。

テキストと音声入力をサポートし、携帯電話でも再生できます

研究者によると、LLaSM は中国語と英語のバイリンガル音声テキストマルチモーダル会話をサポートする、初のオープンソースの市販会話モデルです。

それでは、音声テキスト入力と中国語と英語のバイリンガル機能を見てみましょう。

まず、中国とイギリスの文化衝突を起こし、英語で李白を評価してもらいましょう。

写真

悪くない、李白の王朝を正確に述べている。英語が分からない場合は、中国語に翻訳してください。

写真

次に、中国語の「揚げ物」を混ぜた中国語と英語の混合質問を試してみましょう。モデルの出力も良好です。

写真

モデルをもう一度テストして、李白と杜甫のどちらが優れているか評価してみましょう。

モデルはしばらく考えた後、非常に中立的な評価を与え、また、大型モデル(手動犬頭)の基本的な「水分バランスの常識」を持っていることがわかります

写真

もちろんパソコンだけでなく携帯電話でもプレイ可能です。

音声入力を使って「レシピをおすすめして」と言ってみましょう。

モデルが「ナスとチーズ」のレシピを正確に出力していることはわかりますが、それがおいしいかどうかはわかりません。

しかし、試してみると、このモデルにはバグがあることもわかりました。

たとえば、人間の言語をうまく理解できないことがあります。

中国語と英語を混ぜて出力するように指示すると、理解できないふりをして英語を出力します。

写真

英語と中国語の混合クエリを使用して「Taylor Swift の Red」を聴いたところ、モデルに大きなバグがあり、同じ文を繰り返し出力し、停止することさえできませんでした...

写真

一般的に、中国語と英語が混在する質問やリクエストに直面した場合、モデルの出力機能はまだ十分ではありません。

しかし、分けて考えれば、中国語と英語での表現力は依然として優れています。

では、このようなモデルはどのように実装されるのでしょうか?

どんな新しいモデルを作りましたか?

試用プレイから、LLaSM には 2 つの主な特徴があります。1 つは中国語と英語の入力をサポートしていること、もう 1 つは音声とテキストのデュアル入力です。

これら 2 つのポイントを達成するには、アーキテクチャとトレーニング データにそれぞれいくつかの調整を加える必要があります。

アーキテクチャの面では、LLaSM は現在の音声認識モデルと大規模言語モデルを統合します。

LLaSM は、自動音声認識モデル Whisper、モダリティ アダプター、大規模モデル LLaMA の 3 つの部分で構成されています。

これらのうち、Whisper は生の音声入力を受信し、音声特徴のベクトル表現を出力する役割を担い、モダリティ アダプターは音声とテキストの埋め込みを揃える役割を担い、LLaMA は音声とテキスト入力の指示を理解して応答を生成する役割を担います。

写真

モデルのトレーニングは 2 つの段階に分かれています。第 1 段階では、モーダル アダプターをトレーニングし、エンコーダーと大規模モデルをフリーズして、音声とテキストの配置を学習できるようにします。第 2 段階では、エンコーダーをフリーズして、モーダル アダプターと大規模モデルをトレーニングし、マルチモーダル会話機能を学習します。

トレーニングデータに関しては、研究者らは、199,000件の会話と508,000件の音声テキストサンプルを含むLLaSM-Audio-Instructionsと呼ばれるデータセットをまとめました。

508,000 個の音声テキスト サンプルの中には、中国語の音声サンプルが 80,000 個、英語の音声サンプルが 428,000 個含まれています。

研究者らは主にWizardLM、ShareGPT、GPT-4-LLMなどのデータセットを使用し、無効な会話を除外しながら、テキスト読み上げ技術を使用してこれらのデータセットの音声パッケージを生成しました。

写真

これは現時点で最大の中国語と英語の音声テキスト指示追従データセットでもありますが、まだ整理中です。研究者によると、整理が終わったらオープンソース化される予定です。

しかし、この論文では、その出力を他の音声モデルやテキストモデルとまだ比較していません。

著者について

この論文は、LinkSoul.AI、北京大学、Zero One Everythingから提供されたものです。

共同筆頭著者のYu Shu氏とSiwei Dong氏はともにLinkSoul.AIに所属し、以前は北京智源人工知能研究所に勤務していた。

LinkSoul.AI は、以前に最初のオープンソース Llama 2 中国語言語モデルをリリースした AI スタートアップです。

写真

李開復氏の傘下にある大手モデル会社であるゼロワンエブリシングもこの研究に貢献した。著者のWenhao Huang氏のHugging Faceのホームページには、彼が復旦大学を卒業したことが記載されています。

写真

論文の宛先:
https://arxiv.org/abs/2308.15930

デモアドレス:
https://huggingface.co/LinkSoul/LLaSM-Cllama2

<<:  Google の覇権は崩壊するのか?支配から疑惑へ:20年間インターネットのトレンドを形作ってきたGoogle検索は謎に包まれている

>>: 

ブログ    
ブログ    

推薦する

自動運転車の実現はAIと人間のゲームである

「人間がテクノロジーを生み出すペースは加速しており、テクノロジーの力は指数関数的に成長しています。指...

91.3%の成長、「スマート」な製造業の実現は協働ロボットにかかっている

中国は、インダストリー4.0の提案と国家インテリジェント製造2025開発計画の公布により、製造大国か...

人工知能開発における5つの制約問題、数千の問題を解決する5つの解決策

[[237095]]人工知能はどこにでもあるようです。私たちはそれを自宅や携帯電話で体験します。起業...

2019年人工知能サバイバルガイド

「資本の冬は業界のマシュー効果と適者生存を加速させており、AI分野も例外ではありません。」Infer...

復旦大学の論文は、3体のSFシーンを実現:体にディスプレイ画面を装着し、ナビゲートやチャットも可能

誰もが歩くディスプレイ画面であり、これは単なる SF のワンシーンではありません。羅吉が最も感動した...

大人気すぎてブレイク中! ByteDanceのGPT部門フローの秘密を解明

ノアが編集制作:51CTO テクノロジースタック(WeChat ID:blog) 「大規模な言語モデ...

先進運転支援システム(ADAS)ライダーのイノベーターであるセプトンとグロースキャピタルが合併契約を締結

先進運転支援システム(ADAS)および自律走行車向けの光ベースの測距技術(LIDAR)の革新企業であ...

ThunderSoft の Sun Li: AI 対応産業の課題と解決策

[51CTO.comからのオリジナル記事] 現在、人工知能はセキュリティ、金融などのサブセクターを強...

農業生産の効率性を向上させるために、知能ロボットが力を発揮している

現在、知能ロボットは急速な発展期に入り、生活のあらゆる分野で非常に重要な役割を果たし、人類にとっての...

ICLR2021 対照学習 NLP 論文進捗レビュー

みなさんこんにちは。私はDiaobaiです。今回は、ICLR2021のNLP分野の論文を6本選んで解...

Baidu PaddlePaddleは4つの新しい業界アプリケーション開発キットをリリースし、業界インテリジェンスのアップグレードを支援するマスターモードを革新しました

産業社会の急速かつ安定した発展は、完璧なインフラと切り離すことはできません。ディープラーニングフレー...

世界で最も難しい「砂の彫刻」ゲームがAIによって解読された

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Google が新モデル EfficientNet をオープンソース化: 画像認識効率が 10 倍に向上、パラメータが 88% 削減

畳み込みニューラル ネットワークは通常、限られたリソースで開発され、その後、条件が許せば、より高い精...

1 つの記事で理解する: 「コンピューター ビジョン」とは一体何でしょうか?

[[183558]]誰かがあなたにボールを投げてきたら、どうしますか? もちろん、すぐにキャッチす...