フォーカス分析: 動画向けAIと画像向けAIの違い

フォーカス分析: 動画向けAIと画像向けAIの違い

[51CTO.com クイック翻訳] 画像処理と比較すると、ビデオから洞察を抽出したり、AI 技術を使用したりすると、新たな課題が生じる一方で、かなりの最適化のメリットも得られます。ビデオ AI は、ビデオ映像から特定のフレームを抽出し、各フレームに対してコンピューター ビジョン アルゴリズムを実行するだけだという誤解があります。このアプローチは確かに機能しますが、真の分析的洞察は得られません。本日の記事では、単一のビデオ フレームを処理するこのアプローチの欠点の例をいくつか見ていきます。ただし、スペースの制限により、これらの欠点を克服するために必要な他のアルゴリズムについては詳しく説明しません。興味のある方は、このような目標を達成できるさまざまな特定のビデオ アルゴリズムを提供する Video Indexer を参照してください。

ビデオに映っている人々

次の[ビデオ]の最初の25秒を見てみましょう。

この 25 秒間、ダグは常に画面に表示されていることに注意してください。

ダグのビデオ出演のタイムラインを描くと、次のようになります。

このプロセス中、ダグはカメラの方を向いていないことに注意してください。動画の7秒目で彼はエミリーを見つめており、23秒目にも同じことが起こります。

ビデオのその時間帯に顔検出を実行すると、Doug の顔は検出されません (次のスクリーンショットを参照)。

つまり、各ビデオフレームに対して顔検出のみを実行すると、上記のようなタイムラインを描画することはできません。このようなタイムラインを取得するには、ビデオセグメント全体で顔を追跡し、その中に表示される顔の横顔ビューを考慮できる必要があります。 Video Indexer は顔を追跡できるため、先ほど示したタイムライン全体を表示できます。

光学文字認識を使用してトピック/キーワードを抽出

次の2つのフレームをご覧ください。

[[220618]]

これら 2 つのフレームは、講演者がステージ上でスピーチをしているビデオからのもので、講演者の背後の壁に「Microsoft」という単語が現れたり消えたりしています。私たち人間の視聴者は、確かに「Microsoft」と書かれていることは容易に推測できます。しかし、これら 2 つの画像に対して OCR を実行すると、出力は「Microsc」と「crosoft」のみになります。ビデオ編集でビデオ フレームの完全なシーケンスを処理すると、このような不完全な単語が多数生成されます。映像から正確で完全な語彙を正常に抽出するには、この部分的な語彙にアルゴリズムを適用する必要があります。 Video Indexer はこの機能を有効にし、ビデオからのより優れた分析情報を提供します。

顔認識

顔認識システムは、さまざまな人間のオブジェクトのトレーニング画像のセットを含む顔データベースで構成されています。また、クエリ画像から顔の特徴を抽出し、顔のデータベースと照合するためのクエリ機能も提供します。クエリ関数の出力には、信頼度値とともに一致する可能性のあるリストが含まれます。クエリ関数の出力品質は、顔データベースとクエリ画像の実際の品質によって異なります。

ビデオ処理シナリオでは、複数のビデオ フレームが含まれ、キャラクターはさまざまな頭の姿勢と照明条件で表示されます。確かに、各キャラクターが登場するフレームごとに顔認識システムにクエリを実行することはできますが、このアプローチでは顔のマッチングの結論が異なり、フレーム間で信頼度の値に大きな差が生じる可能性があります。つまり、顔の一致結果を決定するには、追加のロジック レイヤーを使用する必要があります。最適化の手段として、対象となる顔認識システムのクエリに適したフレームのサブセットを選択し、システムへの実際のクエリ数を減らすことができます。

ビデオを処理する際に、複数のビデオ フレームからの人物のトレーニング画像を使用して変化する傾向を分類することで、顔データベースを構築および強化することもできます。さらに、フレーム間で文字を追跡するロジックを構築し、ヒューリスティックを使用して変更を評価することもできます。 Video Indexer でもこの機能を実現できるため、ユーザーは現在のビデオからより高品質の顔データベースを構築できるようになります。

元のタイトル: ビデオ向け AI と画像向け AI の違い

AIに関するその他のコンテンツについては、公式アカウント「AI Pusher」をフォローしてください。

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  ユーザーの検索ログに基づくマルチタスク学習による商品タイトル圧縮手法

>>:  JDロジスティクスは知能を高めつつ、宅配業者から仕事を奪っている

ブログ    

推薦する

ジェネレーティブAIはソフトウェア開発に3つの幻想をもたらす:高速、高品質、そしてより少ない人員

著者 |張開峰ソフトウェア業界は長い間、コスト削減と効率性向上に取り組んできました。長期にわたる開発...

...

2020 年の DevOps の 7 つのトレンド

[51CTO.com クイック翻訳] 権威ある調査によると、2017 年に DevOps は市場で ...

プログラマーの 95% が決して使用しない「アルゴリズム」を勉強する必要はないのでしょうか?

私はほぼ 10 年間コードを書いてきましたが、挿入ソートや赤黒木を書いたことはなく、再帰を使用したこ...

ChatGPT 新学期ギフトパック: 公式教師ユーザーガイドがオンラインになりました

こんにちは、教師向けに特別に設計された ChatGPT 教室チートの登場です! OpenAIの公式製...

...

「機械学習システム設計ガイド」は、このNVIDIAガールの人気プロジェクトです

今年 8 月、スタンフォード大学を卒業し、現在 NVIDIA の人工知能アプリケーション チームに勤...

CESの半導体大手:自動運転のオープンな競争と5Gの秘密の競争

[[255293]]明らかに、自動運転と5Gはチップビジネスそのものよりもはるかに魅力的です。 AI...

AIコミック: 人工知能の3つの主要分野とその産業応用について1つの記事で学ぶ

音声認識 「音声認識」は、私たちが日常生活で使える iPhone の Siri など、コンピューター...

Nature: 光コンピューティングと AI 推論を統合して高速かつ高帯域幅の AI コンピューティングを実現

電子コンピューティングと比較すると、光コンピューティングは高速、高帯域幅、低消費電力という利点があり...

公安部:「AI顔変え」事件79件を摘発、容疑者515人を逮捕

IT Homeは公安部の公式サイトから、公安部が8月10日に記者会見を開き、公安機関が国民の個人情報...

東京オリンピックでロボットが美しい風景になる

[[413763]]最近、4年に一度のオリンピックがついに東京で開催されました。フィールドでは、世界...

WOT2018 Xian Yunsen: O2O検索にはアルゴリズムがあふれている

[51CTO.com からのオリジナル記事] 7 年間の努力と見事な変貌。 2012年以降、6年連続...

人工知能とビッグデータとは何ですか?彼らの間にはどのような関係があるのでしょうか?

ビッグデータとは、従来のソフトウェアツールでは一定期間内に収集、管理、処理できないデータの集合を指し...

ZTEのインテリジェントビデオReIDアルゴリズムは大きな進歩を遂げ、3つの主要なデータセットで世界記録を更新しました。

最近、ZTEコーポレーションは人物再識別(ReID)技術で画期的な進歩を遂げました。Market15...