このチュートリアルでは、OpenAI の Whisper と GPT-4 モデルを使用して自動会議議事録ジェネレーターを開発する方法を説明します。このアプリの機能は、会議の音声を書き起こし、議論された内容を要約し、重要なポイントとアクション項目を抽出し、感情分析を実行することです。 基本的なスキルこのチュートリアルでは、読者が Python と OpenAI API キーの基本を理解していることを前提としています。このチュートリアルに付属のオーディオを使用することも、独自のオーディオを使用することもできます。 さらに、python-docx と OpenAI ライブラリをインストールする必要があります。次のコマンドを使用して、新しい Python 環境を作成し、必要なパッケージをインストールできます。 Whisperで音声を書き起こす会議の音声を書き起こす最初のステップは、会議の音声ファイルを OpenAI の /v1/audio API に渡すことです。 Whisper は、音声言語をテキストに変換するオーディオ API を強化するモデルです。最初はプロンプトまたは温度パラメータ(モデル出力を制御するために使用されるオプションのパラメータ)を渡さずに、デフォルトを使用します。 次に、必要なパッケージをインポートし、Whisper を使用してオーディオ ファイルを読み取り、書き起こす関数を定義します。 この関数では、audio_file_path は文字起こしするオーディオ ファイルへのパスです。この関数はファイルを開き、それを Whisper ASR モデル (whisper-1) に渡して転写します。結果は生のテキスト形式で返されます。 openai.Audio.transcribe 関数では、ローカル サーバーまたはリモート サーバー上のファイルへのパスだけでなく、実際のオーディオ ファイルを渡す必要があることに注意することが重要です。つまり、オーディオ ファイルが保存されていない可能性のあるサーバー上でコードを実行している場合は、まずそのデバイスにオーディオ ファイルをダウンロードするための前処理手順が必要になる可能性があります。 GPT-4を使用してトランスクリプトを要約および分析するトランスクリプトを取得したら、ChatCompletions API を使用して GPT-4 に渡します。 GPT-4 は、OpenAI がリリースした現在最高の大規模言語モデルであり、要約の生成、重要なポイントとアクション項目の抽出、感情分析の実行に使用されます。 このチュートリアルでは、GPT-4 に実行させるタスクごとに異なる関数を使用します。これは最も効率的な方法ではありませんが (これらの指示を関数に入れることもできます)、タスクを分離すると、より質の高い要約が作成されます。 これらのタスクを分離するには、関数 meeting_minutes を定義し、それをアプリケーションのメイン関数として使用します。 この機能では、転写は Whisper から取得されたテキストです。転写は、それぞれ特定のタスクを実行する他の 4 つの関数に渡すことができます。abstract_summary_extraction (会議の概要を生成する)、key_points_extraction (重要なポイントを抽出する)、action_item_extraction (アクション項目を識別する)、sentiment_analysis (感情分析を実行する) です。他の機能を追加したい場合は、上記と同じフレームワークを使用できます。 各機能の動作は次のとおりです。 要約抽出 abstract_summary_extraction 関数は、不必要な詳細や余談を避けながら最も重要なポイントを保持することを目的として、トランスクリプトを簡潔な要約にまとめます。このプロセスを実現するための主なメカニズムは、次のシステム メッセージです。いわゆるプロンプトエンジニアリングを通じて、同様の結果を達成するためのさまざまな方法が可能です。これを最も効果的に行う方法を知りたい場合は、OpenAI が提供する GPT ベスト プラクティス ガイドに記載されている詳細なアドバイスを確認してください: https://platform.openai.com/docs/guides/gpt-best-practices 要点の抽出 key_points_extraction 関数は、会議の議論の主要なポイントを識別してリストします。これらのハイライトには、会議の議論の内容にとって極めて重要な、最も重要なアイデア、調査結果、またはトピックを含める必要があります。繰り返しになりますが、これらの識別ポイントを制御する主なメカニズムはシステム メッセージです。ここでは、プロジェクトや会社の運営方法を説明するために、次のような追加情報を提供する必要があるかもしれません。「当社は、消費者にレーシングカーを販売する会社です。当社の事業内容と目標は何ですか。」この追加情報により、モデルが関連情報を抽出する能力が大幅に向上します。 アクションアイテムの抽出 action_item_extraction 関数は、会議中に合意または言及されたタスク、割り当て、またはアクションを識別します。これには、特定の個人に割り当てられたタスクやグループによって決定されたアクションが含まれる場合があります。このチュートリアルでは詳しく説明しませんが、Chat Completions API は、タスク管理ソフトウェアでタスクを自動的に作成し、関係者に割り当てることができる機能を提供します。 感情分析 sentiment_analysis 関数は、会議の議論の全体的な感情を分析します。使用される言語の調子、伝えられる感情、単語やフレーズが現れる文脈を考慮します。複雑度の低いタスクの場合は、gpt-4 に加えて gpt-3.5-turbo を試して、同様のパフォーマンス レベルを達成できるかどうかを確認する価値があります。 sentiment_analysis 関数の結果を他の関数に渡して、会話の感情が他のプロパティにどのように影響するかを確認することも役立つ場合があります。 会議議事録をエクスポートする会議の議事録を生成した後、通常は、人間が読みやすく配布しやすい形式で保存する必要があります。このタイプのレポートの一般的な形式は Microsoft Word です。 Python docx ライブラリは、Word 文書を作成するためによく使用されるオープン ソース ライブラリです。エンドツーエンドの会議議事録アプリケーションを構築している場合は、このエクスポート手順を削除し、代わりにフォローアップメールで要約を送信することを検討してください。 このエクスポート プロセスを実装するには、元のテキストを Word 文書に変換する関数 save_as_docx を定義します。 この機能では、議事録は会議の要約、要点、アクション項目、感情分析を含む辞書です。ファイル名は、作成する Word 文書ファイルの名前です。この関数は、新しい Word 文書を作成し、議事録の各セクションにタイトルと内容を追加し、その文書を現在の作業ディレクトリに保存します。 最後に、すべてをまとめて、オーディオ ファイルから会議の議事録を生成できます。 このコードは、まずオーディオ ファイル Earningscall.wav を書き起こし、次に会議の議事録を生成して出力し、最後に会議の議事録を meeting_minutes.docx という名前の Word 文書として保存します。 基本的な会議議事録処理はこれで完了です。プロンプト エンジニアリングを通じてパフォーマンスを最適化するか、ローカル関数呼び出しを使用してエンドツーエンドのシステムを構築してみてください。 |
<<: ドローンレースが人間のトッププレイヤーを上回り、強化学習が再びネイチャーの表紙を飾る
「顔認証」や「顔スキャン決済」は顔認識技術の継続的な発展です。今では、小型カメラの助けを借りて、私た...
[51CTO.com からのオリジナル記事] 2010 年以降、レコメンデーション システムの分野で...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
戦略的利益のために AI を活用している企業の中に、アメリカの衣料品会社 Carhartt がありま...
GPT-3.5が海外で発売されてからまだ1年も経っていないし、文心易言が国内で発売されてからまだ半...
サプライチェーン管理、製造業務、モビリティサービス、画像およびビデオ分析、音声分析の進歩により、次世...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[260907]] [[260908]] AIはさまざまな産業に大きな変化をもたらします。よりイ...
チャリティーは常に実行速度が遅いことで知られています。慈善団体が社会、経済、環境の変化に対応するには...
昨年 6 月に Google Brain チームが発表した 43 ページの論文「Scaling Vi...