COVID-19パンデミックが始まって以来、私たちのほとんどは友人、同僚、家族とのリモートビデオ通話に慣れてきました。私たちは皆、ビデオチャット中に仮想背景を使用したことがあります。 ビデオ中に背景を変更することで、ユーザーは仮想画像内で周囲を制御し、環境による気を散らすものを減らし、プライバシーを保護し、さらにはビデオ内でユーザーをよりエネルギッシュに見せることもできます。
しかし、仮想背景によって提示される効果が、ユーザーが必要とするものと異なる場合もあります。私たちの多くは、動いたときに仮想背景が顔を隠したり、仮想背景が手とテーブルの境界を認識できなかったりする経験をしたことがあるでしょう。 最近、Meta は強化された AI モデルを使用して画像をセグメント化し、背景のぼかし、仮想背景、その他の AR 効果を Meta 製品およびサービス向けに最適化しました。これにより、写真やビデオのさまざまな部分をより明確に区別できるようになります。 Meta AI、Reality Labs、および Meta の他の部門の研究者とエンジニアからなる部門横断的なチームは最近、Portal、Messenger、Instagram などの多くのプラットフォームでのリアルタイム ビデオ通話や、Spark AR などの拡張現実アプリケーションで使用される新しい画像セグメンテーション モデルを開発しました。 チームはまた、Instagram や Messenger で使用されている 2 人の画像分割モデルを最適化しました。 AIで仮想背景を改善する方法チームは、画像セグメンテーションを最適化するプロセスにおいて、3 つの大きな課題に直面しました。1. さまざまな環境で画像を認識できるように AI に教えること。例えば、環境が暗い、キャラクターの肌の色が違う、キャラクターの肌の色が背景色に近い、キャラクターの姿勢が普通でない(例えば、靴ひもを結ぶためにかがんだり、伸びをしたりしている)、キャラクターが隠れている、キャラクターが動いている、などです。 2. エッジの位置をより滑らかで安定し、一貫性のあるものにします。これらの特性については現在の研究ではあまり議論されていませんが、ユーザーフィードバック調査では、これらの要因がさまざまな背景効果を使用する際のユーザーの体験に大きな影響を与えることが示されています。 3. モデルが世界中の何十億台ものスマートフォンで柔軟かつ効率的に動作できることを確認します。最新のプロセッサを搭載する傾向にある最先端の携帯電話のごく一部でしか利用できないというのは、問題です。 さらに、このモデルは、ノートパソコン、Meta のポータブルビデオ通話デバイス、および一般の携帯電話で縦向きモードと横向きモードの両方で使用できるように、さまざまなアスペクト比の携帯電話をサポートする必要がありました。 Meta の AI モデルによって処理された仮想背景の例。左側は正面からのポートレート、右側は全身ポートレートです。 現実世界の個人画像セグメンテーションモデルの課題画像セグメンテーションの概念は理解するのが難しくありませんが、高精度な個々の画像セグメンテーション結果を得るのは困難です。良好な結果を得るには、画像を処理するモデルは極めて高い一貫性と極めて低いレイテンシを備えている必要があります。 不適切にセグメント化された画像出力は、仮想背景を使用するビデオ ユーザーにさまざまな注意散漫な効果をもたらす可能性があります。さらに重要なのは、画像のセグメンテーション エラーによって、ユーザーの実際の物理環境が不必要に露出してしまう可能性があることです。 これらの理由から、画像セグメンテーション モデルの精度は、実際の市場製品で使用する前に、交差結合比が 90% を超える必要があります。交差オーバーユニオン (IoU) 比は、画像セグメンテーション予測値と実際の値との重なりの比率を測定するために一般的に使用される標準メトリックです。 使用シナリオとインスタンスの非常に複雑なため、Meta の画像セグメンテーション モデルが達成する必要のある交差オーバーユニオン比率の最後の 10% を完了するのは、それ以前のすべての部分を完了するよりもはるかに困難です。 Meta のソフトウェア エンジニアは、交差対結合の比率が 90% に達すると、画像の測定可能な指標が飽和する傾向があり、時間的一貫性と空間的安定性のさらなる改善を達成することが困難になることを発見しました。 この障害を克服するために、Meta は、この追加の困難に対処するために他のいくつかの指標と連携するビデオベースの測定システムを開発しました。 実世界のアプリケーションのための AI トレーニングと測定戦略の開発AI モデルは、提供されたデータセットからのみ学習できます。したがって、高精度の画像セグメンテーション モデルをトレーニングする場合、明るい部屋でユーザーが直立して座っているビデオ サンプルを大量に記録するだけでは不十分です。サンプルの種類はできるだけ豊富で、現実世界に近いものにする必要があります。 Meta AI Lab は独自の ClusterFit モデルを使用して、さまざまな性別、肌の色、年齢、体の姿勢、動き、複雑な背景、複数の人々からなる膨大なサンプルから使用可能なデータを抽出しました。 リアルタイム モデルには通常、時間情報に依存する追跡パターンがあるため、静止画像のメトリックは、動的なビデオをリアルタイムで処理するモデルの品質を正確に反映しません。モデルのリアルタイム品質を測定するために、Meta AI Lab は、モデルが画像を予測する際にフレームごとにさまざまな指標を計算する定量的なビデオ評価アーキテクチャを設計しました。 論文の理想的な状況とは異なり、Meta の個人画像セグメンテーション モデルは、多数の日常的なユーザーによって評価されます。 ギザギザのエッジ、歪み、またはその他の不十分な効果が存在する場合、他のパフォーマンスがベースラインよりもはるかに優れていても問題はありません。 そこで、Meta AI Labは自社製品のユーザーに直接、画像セグメンテーションの効果を評価してもらいました。その結果、粗いエッジとぼやけがユーザー エクスペリエンスに最も大きな影響を与えます。 この需要に応えるため、Meta AI Lab はビデオ評価フレームワークに「エッジ交差対結合比」という新しい指標を追加しました。画像の通常 I/O 比率が 90% を超えてほぼ飽和状態になると、エッジ I/O 比率はより注意が必要な指標になります。 さらに、画像の時間的な一貫性が不十分な場合、グラフィックスのエッジに混合効果が生じ、ユーザー エクスペリエンスにも影響します。 Meta AI Lab は、画像の時間的一貫性を測定するために 2 つの方法を使用します。 まず、Meta の研究者は、時間的に互いに近い 2 つのフレームの画像は基本的に同じであると想定します。したがって、モデルの予測に違いがあると、最終画像に時間の不一致が生じることになります。 次に、Meta の研究者は、時間的に近い 2 つのフレームの前景アクションから始めました。前景のオプティカルフローにより、モデルはフレーム N の予測値からフレーム N+1 に進むことができます。次に研究者たちは、この予測値を実際の N+1 フレームの値と比較しました。 両方の方法で測定された差は、交差和集合メトリックとして表されます。 Meta AI Labは、フィッツパトリック尺度による性別や肌の色調に関するあらゆる人間の表現を含む、30のグループ、100を超えるカテゴリーの人々からの1,100のビデオサンプルを使用してAIモデルに入力しました。 分析結果によると、Meta の AI モデルは、すべての人口サブカテゴリのビデオ処理効果において同様に有意な精度を示し、交差結合比と信頼度はどちらも 95% を超えています。カテゴリ間の交差結合比の差は基本的に約 0.5 パーセントポイントで、優れた信頼性の高いパフォーマンスを発揮します。 肌の色や性別が異なる人々のビデオ。Meta の AI モデルによって IoU データが処理されている。 モデルの最適化Architecture Meta の研究者は、最適化されたモデルのバックボーンとして FBNet V3 を使用しました。これは複数のレイヤーを混合して形成されるデコード構造であり、各レイヤーは同じ空間解像度を持ちます。 研究者らは、軽量デコーダーと重量エンコーダーを備えたアーキテクチャを設計しました。これにより、完全に対称的な設計よりも優れたパフォーマンスを実現できます。結果として得られるアーキテクチャは、Neural Architecture Search を活用し、デバイス上の速度が高度に最適化されています。 セマンティックセグメンテーションモデルのアーキテクチャ。緑色の四角形は畳み込み層を表し、黒い円は各層の融合ポイントを表します。 データ学習 研究者らは、オフラインの大容量 PointRend モデルを使用して、注釈のないデータの疑似標準実数値ラベルを生成し、トレーニング データの量を増やしました。同様に、研究者らは教師と生徒の半教師付きモデルを使用して、疑似ラベルの偏りを排除しました。 アスペクト比に依存する再サンプリング 従来のディープラーニング モデルでは、画像を小さな正方形に再サンプリングし、ニューラル ネットワークに入力します。再サンプリングのため、画像が歪んで見えます。また、各フレームのアスペクト比が異なるため、歪みの大きさも異なります。 歪みの存在と歪みの程度の違いにより、ニューラル ネットワーク AI は安全でない低レベルの機能を学習することになります。この歪みによって生じる制限は、画像セグメンテーション アプリケーションではさらに大きくなります。 その結果、トレーニング画像のほとんどが縦長の比率である場合、モデルは実際の画像やビデオに対してパフォーマンスが大幅に低下します。 この問題に対処するため、研究チームは Detectron 2 のアスペクト比依存サブサンプリング方式を使用しました。この方式では、類似のアスペクト比を持つ画像をグループ化し、同じサイズで再度サンプリングします。 左側はアスペクト比の不一致により歪んだベースライン画像で、右側は AI モデルによって処理された改善された画像です。カスタム ボーダー パディング アスペクト比に依存するサブサンプリング方式では、同様のアスペクト比を持つ画像のボーダー パディングが必要ですが、一般的に使用されるゼロ パディング方式ではアーティファクトが生成されます。 さらに悪いことに、ネットワークの深さが増すにつれて、アーティファクトは他の領域に広がります。過去には、これらのアーティファクトを除去するために境界を多重化する方法が使用されていました。 最近の研究では、畳み込み層の反射境界によりアーティファクトの伝播を最小限に抑えることでモデルの品質をさらに向上できることが示されましたが、それに応じてレイテンシコストも増加します。アーティファクトの例とその削除方法を以下に示します。 追跡時間が一貫していないと、AI がグラフィックを処理するときにフレーム間で予測の相違が生じ、ちらつきが発生し、ユーザー エクスペリエンスに大きな損害を与えます。 時間的な一貫性を改善するために、研究者らは「マスク検出」と呼ばれる検出プロセスを設計した。現在のフレーム イメージ (YUV) から 3 つのチャネルを取得し、4 番目のチャネルもあります。 最初のフレームの場合、4 番目のチャネルは単なる空のマトリックスですが、後続のフレームの場合、4 番目のチャネルは前のフレームの予測になります。 研究者たちは、追跡に4番目のチャネルを活用するこの戦略により、時間的一貫性が大幅に改善されることを発見しました。同時に、CRVOS や変換不変 CNN モデリング戦略などの最先端の追跡モデルのアイデアもいくつか採用し、より時間的に安定したセグメンテーション モデルを実現しました。 「マスク検出」方法のフローチャート 境界クロスエントロピー 滑らかで明確な境界を構築することは、AR 画像セグメンテーション アプリケーションにとって非常に重要です。研究者は、画像をセグメント化する際、標準的なクロスエントロピー損失に加えて、境界加重損失も考慮する必要がありました。 研究者たちは、オブジェクトの内部はセグメント化が容易であることを発見したため、Unet モデルとその後継モデルのほとんどの作成者は、モデルの品質を向上させるために三元グラフの加重損失を使用することを提案しました。 しかし、三元マップの加重損失には制限があり、三元マップは標準の実数値に従って境界領域のみを計算するため、すべての誤判断の影響を受けず、非対称の加重損失となります。 研究者らは、「境界交差和集合」に着想を得て、交差和集合法を使用して標準実数値と各種予測の境界領域を抽出し、これらの領域でクロスエントロピー損失を確立しました。境界交差エントロピーでトレーニングされたモデルは、明らかにベースラインを上回ります。 新しいモデルでは、最終的なマスク出力の境界領域がより明確になるだけでなく、新しい方法を適用した後の誤検出率も低くなります。 Meta Virtual Background Processor によって適用される新しい AI モデルには、より効率的で、より安定し、より多様な新しい機能が備わっています。これらの最適化により、バックグラウンド フィルターの品質と一貫性が向上し、製品への適用効果が向上します。 たとえば、最適化されたセグメンテーション モデルを使用すると、人物の全身や複数の人物が写っているシーンのほか、ソファ、机、ダイニング テーブルなどで隠れている全身ポートレートも認識できます。 この技術は、ビデオ通話への応用に加えて、仮想環境と現実世界の人や物体を組み合わせることで、AR および VR 技術に新たな次元を追加することもできます。このアプリケーションは、メタバースを構築し、没入型エクスペリエンスを作成するときに特に重要になります。 |
>>: LeCun はそれを見て良かったと言っていました! Meta AI は音声、視覚、テキストで同時に SOTA を達成
信じますか?近い将来に配達員が失業するなどとは信じられない人もいるかもしれないが、これは紛れもない事...
著者 | 李世馨翻訳者 | 朱 仙中編纂者:Qianshan人工知能に関する議論にはしばしば論争が伴...
近年、私たちの生活におけるドローンの応用はますます一般的になっています。当初は軍事分野でしたが、その...
この人工呼吸器は、コンピューターアーキテクチャの巨匠ビル・ダリー氏によって設計されました。コンピュー...
車に乗り込み、目的地を入力し、車を始動し、車内で作業または休憩し、快適かつ安全に目的地に到着します。...
ライブイベントは優れたマーケティング形式であり、ビジネスと顧客との関係を強化する優れた方法です。調査...
[51CTO.comより引用] 遅かれ早かれ、この日はやって来る。イ・セドルがアルファ碁に1対4で負...
2022年11月にOpenAIのChatGPTがリリースされて以来、大規模言語モデル(LLM)が非常...
過去 10 年間で、食品業界では 3D プリント食品、食用センサー、ロボット調理、AR ダイニングな...
現在、建設部門は大規模なプロジェクトによって活性化しており、大きな成長を牽引しています。しかし、これ...
モノのインターネット (IoT) の将来の可能性は無限です。 2025 年までに、世界中の IoT ...