2日間で星の数が1,000を突破:OpenAIのWhisperの蒸留後、音声認識が数倍高速化

2日間で星の数が1,000を突破:OpenAIのWhisperの蒸留後、音声認識が数倍高速化

少し前に、「テイラー・スウィフトが中国語を披露」する動画がさまざまなソーシャルメディアプラットフォームで人気となり、その後「郭徳剛が英語を披露」といった類似の動画も続いた。これらのビデオの多くは、「HeyGen」と呼ばれる AI アプリケーションから作成されています。

しかし、HeyGen の現在の人気から判断すると、同様のビデオを作成するには長い時間がかかる可能性があります。幸いなことに、これが唯一の方法ではありません。テクノロジーに精通している人は、音声テキスト変換モデル Whisper、テキスト翻訳 GPT、サウンドの複製 + オーディオ生成 so-vits-svc、オーディオに一致する唇の形のビデオを生成する GeneFace++ など、他の代替手段を探すこともできます。

その中でも、音声テキスト変換のWhisperモデルは非常に有用です。 Whisper は、OpenAI によって開発され、オープンソース化された自動音声認識 (ASR) モデルです。インターネットから 680,000 時間分の多言語 (98 言語) およびマルチタスクの教師ありデータを収集して、Whisper をトレーニングしました。 OpenAI は、このような大規模で多様なデータセットを使用することで、アクセント、背景ノイズ、技術用語を認識するモデルの能力が向上すると考えています。 Whisper は音声認識に使用されるだけでなく、複数の言語で文字起こししたり、それらの言語を英語に翻訳したりすることもできます。現在、Whisper には多くのバリエーションがあり、多くの AI アプリケーションを構築するために不可欠なコンポーネントとなっています。

最近、HuggingFace のチームが新しいバリエーションである Distil-Whisper を提案しました。このバリアントは、Whisper モデルの精製バージョンです。小型で高速、高精度であるため、レイテンシが低い環境やリソースが限られている環境に最適です。ただし、複数の言語を処理できる元の Whisper モデルとは異なり、Distil-Whisper は英語のみを処理できます。

論文アドレス: https://arxiv.org/pdf/2311.00430.pdf

具体的には、Distil-Whisper には、756M パラメータ (distil-large-v2) と 394M パラメータ (distil-medium.en) の 2 つのバージョンがあります。

OpenAIのWhisper-large-v2と比較すると、distil-large-v2の756Mバージョンはパラメータ数が半分以下に抑えられているにもかかわらず、6倍の高速化を実現し、精度の面でもWhisper-large-v2に非常に近いものとなっています。短い音声の単語誤り率(WER)の差は1%以内で、長い音声ではWhisper-large-v2よりもさらに優れています。これは、慎重なデータ選択とフィルタリングにより、Whisper の堅牢性が維持され、幻覚が軽減されるためです。

Whisper と Distil-Whisper の Web バージョンの速度を直接比較します。画像出典: https://twitter.com/xenovacom/status/1720460890560975103

ということで、Distil-Whisper はリリースされてからまだ 2 ~ 3 日しか経っていないのに、すでに星が 1,000 個を超えています。


  • プロジェクトアドレス: https://github.com/huggingface/distil-whisper#1-usage
  • モデルアドレス: https://huggingface.co/models?other=arxiv:2311.00430

さらに、テスト結果では、150 分のオーディオを処理する場合、Distil-Whisper は Faster-Whisper よりも 2.5 倍高速であることが示されました。

テストリンク: https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper

それで、どのようにしてこのような良い結果が達成されたのでしょうか?著者らは論文の中で、疑似ラベリング技術を使用して大規模なオープンソースデータセットを構築し、このデータセットを使用して Whisper モデルを Distil-Whisper に抽出したと述べています。シンプルな WER ヒューリスティックを使用して、トレーニング用に最高品質の疑似ラベルのみを選択します。

下の図 1 は、Distil-Whisper のアーキテクチャを示しています。研究者たちは、教師モデルからエンコーダー全体をコピーして生徒モデルを初期化し、トレーニング中にそれを凍結しました。彼らは、OpenAI の Whisper-medium.en および Whisper-large-v2 モデルから、最初と最後のデコーダー レイヤーをコピーして、それぞれ distil-medium.en と distil-large-v2 と名付けた 2 層デコーダー チェックポイントを抽出しました。

蒸留モデルの寸法詳細は表3に示されています。

データに関しては、モデルは 9 つの異なるオープンソース データセットで 22,000 時間トレーニングされました (表 2 を参照)。疑似ラベルは Whisper によって生成されます。重要なのは、WER フィルターを使用して、WER スコアが 10% を超えるラベルのみが保持されたことです。著者は、これがパフォーマンスを維持するための鍵だと言っています。

以下の表 5 に、Distil-Whisper の主なパフォーマンス結果を示します。

著者らは、エンコーダをフリーズする操作により、Distil-Whisper はノイズに対して非常に堅牢になると述べています。下の図に示すように、Distil-Whisper は Whisper と同様の堅牢性曲線に従い、ノイズの多い条件下では Wav2vec2 などの他のモデルよりも優れたパフォーマンスを発揮します。

さらに、比較的長いオーディオ ファイルを処理する場合、Distil-Whisper は Whisper と比較して幻覚を効果的に削減しますが、これは主に WER フィルタリングによるものだと著者らは考えています。

同じエンコーダを共有することで、Distil-Whisper を Whisper と組み合わせて投機的デコードを行うことができます。これにより、Whisper と同じ出力を生成しながら、パラメータがわずか 8% 増加するだけで速度が 2 倍になります。

詳細については元の記事をご覧ください。

<<:  ビッグモデル実装の最後の一歩: ビッグモデル評価の 111 ページに及ぶ包括的なレビュー

>>:  AIは自分が生成したものを理解できるのか?GPT-4とMidjourneyを試した後、誰かがこの問題を解決した

ブログ    

推薦する

データサイエンスにおける強力な思考

統計学の入門コースを受講したことがあるなら、データ ポイントは理論を刺激したりテストしたりするために...

光速画像認識について学ぶ: 1ナノ秒未満

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Googleは、ニュースコンテンツを作成するために生成AIツールを使用するためにいくつかの出版社と提携していると報じられている。

2月28日、Adweekは、Googleがいくつかの出版社と、ニュースコンテンツを作成するための新...

彼らはAIを使って時の塵を拭い去り、半世紀前のアジア競技大会で中国が初めて金メダルを獲得した時の記憶を再現した。

杭州アジア競技大会初の金メダルが誕生した。女子軽量級ダブルスカルボート決勝では、中国の鄒佳琦選手と邱...

ビッグデータとリアルタイム分析のためのアルゴリズム分類

今日、ビッグデータ技術の発展と進歩により、大量のデータを収集および送信するための新しい、より効率的な...

人工知能:ニューノーマルにおける成長促進要因

SHRMのレポートによると、中小企業経営者の43%がパンデミック中に事業を生き残るための新たな方法を...

...

IBMとNASAが協力して地理空間AIモデルをオープンソース化し、気候科学の発展を目指す

8月4日、海外メディアFagen Wasanni Technologiesによると、IBMは最近、N...

なぜSoraはOpenAIから生まれたのでしょうか?最前線で働く従業員の勤務と休息のタイムラインの秘密:私たちは

OpenAI が最初に Sora を作成した理由は何ですか?現在、世界中の研究者、エンジニア、投資家...

7つの機械学習アルゴリズムの7つの重要なポイント

さまざまなライブラリとフレームワークの助けを借りて、たった 1 行のコードで機械学習アルゴリズムを実...

...

...

トランスフォーマーのメンバー8人全員がGoogleに亡命!最後の共著者は今月末に自身のビジネスを始めるために退社する。

トランスフォーマーのメンバー8人全員がGoogleから離脱した。 Googleの画期的なTransf...

スーパーコンピューターで設計された、カエルの細胞から作られた初の生きたロボット

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...