百度研究所が新しいAIツールを発表:10分以内に記事を自動的に動画に変換可能

百度研究所が新しいAIツールを発表:10分以内に記事を自動的に動画に変換可能

[[322859]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

人工知能技術により、自動ビデオ編集が実現できるようになりました。

あらかじめ用意された画像とテキストのリンクがあれば、AIが画像とテキストに記述されたテーマに沿って言語を再構成し、自動的に素材を検索して短い動画を切り出すことができます。

つまり、興味深いニュースを見たけれど記事を読むのが面倒な場合は、読んでいる記事のアドレスをAIに入力するだけで、その記事が自動的に短い動画になります。

さらに、このプロセスはわずか数分で完了し、完全に無人で自動で行われます。階下に降りてコーヒーを 1 杯買うと、ビデオが自動的に作成されます。

この「AI動画作成」技術は百度研究所が開発したもので、製品はVidPressと呼ばれています。ご覧のとおり、自分の誕生を報告するビデオを作成できます。

普通のテレビニュースのようでした。今では、ビデオ編集者は、素材の検索、スクリプトの修正、特殊効果の追加、レンダリングとエクスポートのために残業したり夜遅くまで起きていたりする必要がなくなりました。

ビデオ向けAI

本質的に、VidPress は「テキストと画像をビデオに変換する」、つまり人間が書いたテキストと画像をビデオに再編集するものです。上記のビデオの元のテキストを参照してください。

比較してみると、動画と記事のコピーライティング部分は似ていますが、動画で使用されている素材は記事のものよりはるかに多く、キャラクターやシーンのダイナミックなショットが多く追加されており、テーマと非常に一致しています。

ということは、吹き替え部分は音声合成を使って、あとはビデオ編集者が映像素材を探してアップしたということでしょうか?

いいえ。ビデオ全体は AI によって生成されます。ビデオ編集者は記事へのリンクを提供するだけで、数分後にはホットなビデオが公開されます。

信じられないなら、読み続けてください。

リンクがあれば、ビデオは自動的に生成されます

VidPress でビデオを作成するには、ビデオ編集の技術的な知識は必要ありません。コピーと貼り付けの方法を知っていれば十分です。

まず、ビデオに変換する記事のアドレスをコピーし、VidPress に貼り付けます。

次に、合成するサウンドを選択し、必要なビデオの長さと解像度を決定します。

今では、ビデオ編集者は AI に作業を任せるだけで済みます。

AI はグラフィックとテキストのコンテンツを取得した後、NLP モデルを使用して意味理解を実行し、トピック モデルを使用して関連するニュースと資料を集約します。

その後、音声と画像の編集を別々に完了する必要があります。

音声に関しては、システムは複数の言語モデルを使用して元のテキストを処理および解析し、解説を生成し、音声合成技術の助けを借りてそれを音声に変換します。

画像に関しては、原文の写真だけでは明らかに不十分であり、より多くの動画や画像素材を探す必要があります。素材のソースは、ビデオ編集者の独自の素材ライブラリにすることも、Baidu 検索を直接使用して素材をリアルタイムで見つけることもできます。

素材を見つけたら、顔認識、オブジェクト認識、OCR、ビデオコンテンツ理解などのテクノロジーを使用して、ビデオ素材のコンテンツを解析して理解し、適切なクリップを自動的にカットして選択する必要があります。

ビデオ素材と解説のオーディオ ファイルが用意できたので、この 2 つを 1 つに結合する必要があります。このタスクのために、Baidu は 2 世代の配置アルゴリズムを開発しました。第 1 世代は段落配置に基づいており、第 2 世代はアンカー ポイントのタイムライン配置に基づいています。

第 2 世代のアライメント アルゴリズムでは、まず解説における視聴者の関心ポイントを見つけ、次に、素材のソース、類似性、画像/ビデオ コンテンツの適合性、コンテンツの品質などの側面を考慮して、検索された素材とこれらの関心ポイントの関連性をスコア付けする必要があります。

その後、高得点を獲得した素材が最初にめくられ、ビデオタイムラインの注目ポイントに配置されます。残りの素材を隙間に埋めていき、最終的にタイムライン全体のコンテンツ配分を調整していきます。

これで、AIが動画を作成し、レンダリングすると、完成した動画になります。

このプロセスには数分しかかかりません。エディターが VidPress ページに戻ると、ビデオが自動的に生成され、字幕が自動的に追加されています。

その後、編集者は手動で変更を加えることもできます。テキストの一部が不十分だと感じた場合は、必要なテキストに置き換えてビデオを再エクスポートできます。

スピードが勝つ

確かに、VidPress は、実際のビデオ ブロガーが特別に企画して撮影した短いビデオを現時点では作成できませんが、ニュース速報ビデオの作成に使用する場合、VidPress のレベルはすでに商用利用に十分です。実際のアナウンサーがいないことを除けば、作成されたビデオは以前のテレビ ニュース番組と非常によく似ています。

しかし、その利点はそのスピードにあります。ビデオを生成するのに10分以上かかることもあり、その半分の時間はAIが自動的に作業しています。人間のビデオ編集者は、リンクを貼り付けて、サウンドと時間解像度を設定するだけで済みます。ビデオを編集するためにコンピューターの前に座る必要はもうありません。

このような働き方をすると、動画制作に費やす時間は、さまざまなプラットフォームに動画を投稿する時間よりも短くなると言えます。これまで1時間かかっていた仕事が、今では10分で完了するかもしれません。もう残業したり、夜更かししたりする必要はありません。ショートビデオ編集者は、955勤務スケジュールを笑顔で迎えることができます。

このような編集効率により、メロンが来たときに、他の編集者がまだビデオをカットするための素材を探すのに忙しい間に、VidPress を使用している編集者はすでにビデオを作成し、メロンを食べている群衆に送信しています。トレンド検索が削除される前に、10 万回以上の視聴を獲得できます。これは素晴らしいことです。

現在、VidPress が約 2 分の 720p ビデオを生成するのに必要な平均時間はわずか 2.5 分です。

Baidu Haokan Video では、プラットフォーム全体で毎日 500 ~ 1,000 本のビデオを制作でき、これらのビデオに関連するニュースのホットスポットはシステムによって自動的に検出され、生成されます。サーバーが稼働している限り、たとえ自宅で寝転がっていても、プラットフォーム上に動画が次々と表示され、視聴者に自動的に配信されます。

このような高い制作効率は、短編動画の分野ではまさに驚異的です。

ショートビデオは現在非常に人気があり、ボーナス期にあります。テンセント、今日頭条、百度自身も、ショートビデオプラットフォームの開発や投資で競争しています。このようなツールが公開されると、あらゆる規模のクリエイターやMCNが市場で競争する大きなチャンスになります。AIによって作成されたショートビデオは、過去のMade in Chinaのようなさまざまなビデオプラットフォームに殺到し、トラフィックハーベスターの新たな波となるでしょう。

結局のところ、グラフィックコンテンツの制作コストはビデオコンテンツよりもはるかに低いです。良い記事を書いてさえいれば、数分で一致するビデオが利用可能になります。同じ努力で、数倍のトラフィックを獲得できます。したがって、少なくとも現段階では、このタイプのAI生成ビデオは手の届く範囲にあるボーナスです。

おそらく近い将来、誰もがQuantum Bitのビデオ版を視聴できるようになるでしょう。

ポータル

現在、VidPress プラットフォームのトライアルに申し込むことができます。申し込みリンクは次のとおりです:

https://ai.baidu.com/creation/external/labprojectlist

<<:  Pythonでゲームボーイエミュレーターを作成し、AIモデルをトレーニングする:デンマーク人の大学のプロジェクトが大ヒット

>>:  データがあなたを監視することに抵抗はありませんか?

ブログ    

推薦する

AI企業がソフトウェアサプライチェーンの脆弱性の犠牲になると何が起こるか

OpenAI の侵害を調査し、AI 企業 SSC のハッキングの可能性とその影響の可能性を推測します...

オープンワールドでテストセグメントトレーニングを実行するにはどうすればいいですか?動的プロトタイプ拡張に基づく自己トレーニング法

モデルの一般化能力を向上させることは、視覚ベースの認識方法の実装を促進するための重要な基盤です。テス...

99.9%の精度!小園口算は算数の問題をAIで訂正しており、誤り率は小学校教師の10分の1に過ぎない。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

時間との競争! AIは病気の遺伝子解析と診断の加速器である

科学技術分野において、国境を越えた融合による新しいものによってもたらされる破壊的な競争は、あくまでも...

AIテキスト翻訳システムの品質が44%向上し、500億以上のパラメータを使用して200の言語を翻訳

Meta Platforms は本日、Meta が社内開発した、200 言語のテキストを翻訳できる人...

将来の戦争において、AIは最も危険な兵器となるのでしょうか?

AI兵器は歴史の流れとともに進化し、今日では危険な一歩となっている。 [[406883]] AIは...

2021年、民間ドローン分野では5つの大きなトレンドが見られる

近年、ドローン産業の発展は加速し続けており、軍事分野から民間分野へと徐々に拡大しています。新興の民間...

パーセプトロンの物語: 機械学習はどのようにして今日の地位に到達したのでしょうか?

[[352089]]人工知能は今、巷で話題になっています。企業は顧客やターゲットユーザーを引き付け...

企業はどのように AI を活用してビジネスの成長を促進できるのでしょうか?

人工知能 (AI) の導入によって得られる潜在的な利益を考えると、企業は傍観者でいるわけにはいきませ...

考えてみてください。連合学習は大規模な言語モデルをトレーニングできるのでしょうか?

1. 概要大規模言語モデル (LLM) の急速な発展に伴い、LLM が人工知能業界の発展に与える影...

Apple が MobileViT を提案: モバイル デバイス向けの軽量で低遅延のビジュアル トランスフォーマー

この論文では、Apple の研究者がモバイル デバイス用の軽量な汎用ビジュアル トランスフォーマーで...

人工知能は日常のビジネス業務をどのように変えるのでしょうか?

「人工知能」という言葉を聞くと、まず頭に浮かぶのは「スマートデバイス/スマートシステム」です。しか...

レポート:データセンターは人工知能を生成するサーバーを冷却するために大量の水を消費している

ChatGPT のような生成 AI モデルが大量のエネルギーを消費することはよく知られていますが、そ...

AIセキュリティリスクの予防と管理を強化するには、技術統合と法的規制に重点を置く必要がある

人工知能は、新たな科学技術革命と産業変革をリードする戦略的技術として、世界の主要国が科学技術の飛躍的...

よく使われる6つのクラスタリング評価指標

クラスタリング結果の妥当性を評価すること、つまりクラスタリング評価または検証は、クラスタリング アプ...