メッシのサッカーの試合とリーグ・オブ・レジェンドについての解説:OpenAI GPT-4ビジュアルAPIは開発者が新しい方法を作成するために使用されています

メッシのサッカーの試合とリーグ・オブ・レジェンドについての解説:OpenAI GPT-4ビジュアルAPIは開発者が新しい方法を作成するために使用されています

記事の冒頭では、サッカーの試合解説ビデオを見てみましょう。

それは正しいように聞こえませんか?

あなたの感覚は正しいです。なぜなら、この解説は AI によって生成されたものであり、「メッシ!メッシ!」と叫ぶ声は実際に AI から発せられたものだからです。

これは、X プラットフォーム (旧 Twitter) ブロガー @Gonzalo Espinoza Graham が投稿したビデオです。彼は、制作過程では主にGPT-4VとTTSという2つの技術を使用したと語った。

GPT-4Vは、OpenAIが以前リリースした大規模なマルチモーダルモデルです。オリジナルのChatGPTのようにテキストでチャットできるほか、チャットでユーザーが提供した画像も理解できます。さらに興味深いのは、昨日の開発者会議で、OpenAI が視覚機能に関連する API、gpt-4-vision-preview を公開したと発表したことです。この API を通じて、開発者は OpenAI の最新の GPT-4 Turbo (ビジュアル バージョン) を使用して新しいアプリケーションを開発できます。

開発者たちは、この待望の API をぜひ試してみたいと考えています。そのため、APIが公開されてわずか1日で、多くの開発者が試用結果を投稿しており、このサッカー解説もその1つでした。

ブロガーによると、この解説動画を作るために、元の動画のフレームをバッチで gpt-4-vision-preview に渡し、簡単なプロンプトを通じてモデルにナレーションを生成させたという。最後に、その結​​果を TTS (テキスト読み上げ技術) を使用して音声に変換し、動画に示されている効果を得たという。少し編集するだけで、理論的にはさらに良い結果が得られます。 OpenAI の現在の価格設定によると、このビデオの制作には約 30 ドルかかるとのことで、作者は「安くはない」と述べている。

関連コード: https://github.com/ggoonnzzaallo/llm_experiments/blob/main/narrator.ipynb

サッカーの試合に加え、開発者の中には、OpenAIのビジュアルAPIを使って「リーグ・オブ・レジェンド」の解説をするデモも公開した。このデモではLNGとT1の試合のビデオが使われ、インターネット上で50万人以上のネットユーザーが注目した。

説明効果は以下のとおりです。

しかし、このようなビデオはどのように作るのでしょうか?幸いなことに、これらの完成品のエフェクトに加えて、一部の開発者は独自のチュートリアルと各ステップに必要な特定のツールも投稿しました。

Xプラットフォームユーザー@小互が投稿した内容によると、実装プロセス全体は7つのステップに分けられます。

  • ビデオフレームを抽出します。
  • ビルドの説明プロンプト。
  • GPT リクエストを送信します。
  • 音声解説プロンプトを作成します。
  • 音声ナレーションのスクリプトを生成します。
  • スクリプトをオーディオに変換します。
  • オーディオとビデオを組み合わせます。

詳細については、次のチュートリアルを参照してください。

しかし、コメント欄には「コメントされている試合はすべて過去のもの。リアルタイムの試合にもコメントできるのか?」という疑問の声も上がっていた。

リアルタイムのゲームを解釈できるかどうかはまだわかりませんが、開発者は実際に OpenAI Vision API を使用してカメラのコンテンツをリアルタイムで解釈するデモを共有しています。

プロジェクトリンク: https://github.com/bdekraker/WebcamGPT-Vision

同様の実験を行った開発者は、OpenAI Vision API は認識速度が速く、精度が高いとコメントしています。

リアルタイム描画ツールとして使用し、以前は専門的な描画ツールが必要だったスケッチをチャートに変換する人もいます。

ただし、このリアルタイム実験は OpenAI によって設定されたレート制限の対象となります。

OpenAIはGPT-4Vと新たに公開されたビジュアルAPIを通じて、マルチモーダル性の威力を世界に知らしめていると言えるが、上記の効果は氷山の一角に過ぎない。

実際、実生活でも研究でも、画像や動画を理解できる AI は幅広い用途に使われています。

実生活では、より知能の高いロボットを構築するために使用でき、ロボットが目の前の状況をリアルタイムで分析し、柔軟に対応できるようになります。これは、現在人気の身体化知能が研究している問題でもあります。

国内のスタートアップ企業が開発した具現化された知能ロボット(「独占 | DAMOアカデミーの次の目的地:陳俊波が具現化された知能の大型モデルを発表し、すべてのロボットの脳の構築を目指す」を参照)

さらに、視覚障害者の生活の質を向上させ、ビデオ画像や生活シーンの解釈を支援するためにも使用できます。実際、昨年 ByteDance が視覚障害者を支援するために開催したチャリティー コンテストでも同様の創造性が数多く見られましたが、当時はマルチモーダル技術が十分に成熟していませんでした (「色とりどりの靴下を履いて最新のドラマを見る: このプログラマー グループは視覚障害者の肩の重荷を降ろすのを手助けしています」を参照)。

マイクロソフトの最近の論文では、研究者らはGPT-4Vを使用して「ミスタ​​ー・ビーン」のストーリーを解釈するなど、この分野での進歩も実証した。

この優れたビデオ解釈機能により、研究者はビデオをより深く理解できるようになり、広く利用可能なビデオを新しいトレーニング データに変換して、よりスマートな AI をトレーニングし、閉ループを形成できます。

よりスマートな世界が加速しているようです。

<<:  物理学界に嵐を巻き起こした室温超伝導の論文は、8人の共著者によって報告された後、ネイチャー誌によって撤回された。第一著者は調査中である。

>>: 

ブログ    

推薦する

現実世界の問題を解決するための 4 つの機械学習戦略

広く認識されている機械学習の形式には、教師あり学習、教師なし学習、半教師あり学習、強化学習の 4 つ...

人工知能のヒューマニズム:AIをより愛らしくする方法

1. デジタル格差が拡大し、高齢者は「デジタル難民」となっている最近、高齢者に関する2つのニュース...

人工知能が教育改革にどのように貢献しているかをご覧ください

人工知能によってもたらされる将来の教育の変革と発展は、新たな機会を生み出すだけでなく、より大きな課題...

快手テクノロジーのマルチメディアコンテンツ理解部門のLi Yan氏:AI技術は快手製品に統合されています

「AI技術はKuaishou製品ライン全体に浸透しています。AI技術による多次元のエンパワーメントに...

知らないうちに個人のプライバシーを人工知能に「提供」しないでください

[[260334]] BBCによると、IBMは最近、顔認識アルゴリズムの訓練のため、ユーザーの同意を...

ネイチャー誌の表紙:量子コンピューターの実用化はまだ2年先

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

自分の写真がディープフェイクに使われるのではないかと心配ですか?ボストン大学の新しい研究を試してみてください

顔を入れ替えた動画は、DL を悪用した大きな結果です。インターネット上にあなたの写真がある限り、あな...

Baidu AIは素晴らしいキャンパスライフに新たなタッチを加え、新学期をより技術的に

幼少期、小学校、中学校、高校、大学に至るまで、キャンパスライフはほとんどの人にとって欠かせないもので...

ディープラーニングの基本概念のチートシート

ディープラーニングは多くの初心者にとってわかりにくいかもしれません。急速に発展するにつれて、多くの新...

IEEE: 新たな AI サイバーセキュリティの課題と解決策

人工知能はさまざまな課題に直面しており、IEEE の専門家は対応する解決策を提案しています。合成現実...

「製造」から「スマート」な製造へ、産業用インターネットが最良の選択となる

新インフラ政策の導入以来、データセンター、5G、ビッグデータの開発が最も頻繁に言及されていますが、産...

人工知能の時代は私たちの生活にどのような影響を与えるのでしょうか?

これは視覚障害者向けに設計された特別な人工知能メガネです。このメガネを通して、視覚障害者は再びこの色...

人工知能は寒い冬を迎え、自動運転車の開発は妨げられている

懐疑論者は、完全な自動運転の実現は業界が考えているよりもずっと先のことかもしれないと述べている。 [...

パンデミックの中、大量のAIロボットが職務に就いている

2016年、著名な科学ライターでありシリコンバレーの投資家でもある呉軍氏は、大胆に次のように予測しま...

将来、人工知能によって一般の人々は職を失うことになるのでしょうか?マスク氏の答えを見てください。

[[437743]]あなたは人工知能の将来について楽観的でしょうか、それとも悲観的でしょうか?実際...