みなさんこんにちは。私はFeng Kiteです オーディオおよびビデオ ファイル内のオーディオをテキスト コンテンツに変換することは 2 年前は困難でしたが、現在では数分で解決できます。 すでにいくつかの企業では、DouyinやKuaishouなどのショートビデオプラットフォーム上のすべてのビデオを検索してトレーニングデータを取得し、音声をテキストに抽出してビッグデータモデルのトレーニングコーパスとして使用していると聞きました。 ビデオまたはオーディオ ファイルをテキストに変換する必要がある場合は、現在提供されているオープン ソース ソリューションを試してみるとよいでしょう。たとえば、映画やテレビのセリフが出てくる時間を検索します。 さっそく本題に入りましょう。 ささやきこのソリューションは、OpenAI のオープンソース Whisper であり、もちろん Python で書かれています。いくつかのパッケージをインストールし、数行のコードを書いて、少し待つだけで (マシンのパフォーマンスとオーディオとビデオの長さによって異なります)、最終的なテキスト コンテンツが表示されます。とても簡単です。 GitHubリポジトリアドレス: https://github.com/openai/whisper ファストウィスパー非常にシンプルですが、プログラマーにとってはまだ簡潔さが足りません。結局のところ、プログラマーは非常に怠惰です。Whisper はインストールと呼び出しが簡単ですが、それでも PyTorch、ffmpeg、さらには Rust を個別にインストールする必要があります。 そこで、より高速でシンプルな Fast-Whisper が登場しました。 Fast-Whisper は Whisper の単純なラッパーではなく、Transformer モデル用の高速推論エンジンである CTranslate2 を使用して OpenAI の Whisper モデルを再実装したものです。 まとめると、Whisper よりも高速です。公式発表では、Whisper よりも 4 ~ 8 倍高速であるとされています。 GPU だけでなく CPU もサポートしており、私の安物の Mac でも使用できます。 GitHub リポジトリ アドレス: https://github.com/SYSTRAN/faster-whisper 使い方はたったの2ステップです。
はい、とても簡単です。 何ができるでしょうか?たまたま、私の友人が短いビデオを作ってチキンスープ文学のビデオを投稿したいと言っていました。チキンスープは有名人のインタビュービデオから生まれました。しかし、彼はビデオ全体を視聴したくなかったので、できるだけ早くテキストコンテンツをダウンロードしてからテキストを読みたいと考えました。テキストを読む方がビデオを見るよりもはるかに速く、検索もできるからです。 言いたいのは、動画を最後まで見るという誠意さえなければ、どうやってアカウントをうまく管理できるのかということです。 そこで私は Fast-Whisper を使って彼のために作ってみました。 クライアントクライアントは Swift を使用し、Mac のみをサポートします。
、再生時間 00:10 サーバサーバー側はもちろん Python ですが、これは Flask でパッケージ化されて外部に公開されます。 上記は議論を刺激するための単なる小さなツールであり、あなた自身の使用には十分です。 |
>>: マイクロソフトが新たなAIアクセス原則を発表、同社史上最大の投資計画
[[395964]]導入機械学習エンジニアの役割は通常、プログラミング、ソフトウェア実装、データ分析...
マイクロソフトは、動画や画像に基づいて感情を識別するサービスを含む、人工知能を活用した顔認識ツールの...
急速に進化する今日のテクノロジーの世界では、「人工知能」、「機械学習」、「アルゴリズム」などの用語が...
序文音声認識の現在の開発状況をまとめると、DNN、RNN/LSTM、CNN が音声認識における主流の...
JLLの新しいレポートによると、人工知能の需要とクラウドサービスの継続的な導入により、データセンター...
近年、研究者らはトカマクの停止や損傷の原因となる核分裂反応を研究している。核分裂反応を予測・制御でき...
[[420540]] 1. 基本Diff アルゴリズムは、仮想 DOM の最小限の更新を実装します。...
大規模言語モデル (LLM) は、自然言語からコード スニペットを生成できることが示されていますが、...
今年 5 月、OpenAI はすべての ChatGPT Plus ユーザー向けにネットワーキングおよ...
人工知能革命の到来は、IBMの先駆的な研究者アーサー・サミュエルが世界初のコンピューターにチェッカー...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
CRISPRは遺伝子編集技術の専門用語です。簡単に言えば、ウイルスは細菌に自身の遺伝子を組み込み、細...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
[[205151]] 1. 問題の説明画像認識や画像分類、その他の機械学習タスクを扱う場合、どのよ...
Google Gemini のバグ修正はネットユーザーの目を開かせた! X という人物は、Gemin...