紙から携帯電話まで、このチームはワンクリックでますます楽しい特殊効果を実現しています。 近年、特殊効果における AI モデルのスキルは最大限に高められているようです。そのため、私たちは生涯で、しゃべるモナ・リザ、油絵のコスプレをしたジェイ・チョウ、一瞬で人をハゲにできる「東勝ヘアスタイル・ジェネレーター」などを見てきました。しかし、これらの技術は、使用の面ではあまり「現実的」ではないようです。これらの技術を「ワンクリック生成」アプリケーションにして携帯電話にインストールする人はほとんどおらず、リアルタイムアプリケーションにインストールする人はさらに少ないです。 2021年までに状況は変わります。 短編動画アプリでは、最近人気の「ディープノスタルジア」や「フォトシンギング」がワンクリックで生成できるようになったことに驚きました。 これらの特殊効果はすべて Tencent Weishi から提供されています。ユーザーは Weishi アプリをダウンロードして写真をアップロードするだけで、希望の特殊効果を利用できます。そのうち、「古い写真を動かす」は、古い写真に色を付ける、超解像度にする、写真の中の人物を動かすなどの効果を実現できます。また、「写真に歌を歌わせる」は、どんな写真に写っている人でも、豊かな表情とともに歌を歌わせることができます。 しかし、これはWeishiが実現する多くの特殊効果の1つにすぎません。Weishiアプリでは、有名人、欧米人、人形などに変身するなど、リアルタイムで体験できる特殊効果がさらにたくさんあります。 さらに、携帯電話を介して生成された画像の顔の動きをリアルタイムで制御し、顔の動きの移行を実現することもできます。 これらのリアルタイムの特殊効果は、まるで「魔法の鏡」が次々と現れ、人間の顔にさまざまな素晴らしい魔法の効果をもたらすことができます。ゲームプレイは非常に簡単です。アプリで対応するテンプレートを見つけて、カメラを開いて撮影するだけです。 「論文が発表されてから随分経っているのに、なぜ今になって携帯電話でしかこの効果を確認できないのか」と疑問に思う人もいるかもしれません。これにより、AI モデルを紙から携帯電話に移行する際の難しさが明らかになります。 携帯電話に特殊効果を取り入れる上での難しさは何ですか? 近年登場した AI 特殊効果の多くは GAN (敵対的生成ネットワーク) をベースにしていることがわかっており、前述の特殊効果のほとんども例外ではありません。しかし、従来の GAN には次のような問題がよくあります。 1.大量のトレーニングデータが必要です。 AI モデルにとってデータの重要性は自明ですが、一部の GAN ベースの顔エフェクトでは、モデルにデータだけでなく大量のペアデータも必要となり、データ収集に新たな課題が生じます。たとえば、人種を変える特殊効果では、同じ人物を異なる人種として同時に撮影することはできません。 2.制御性が悪い。 GAN を使用して顔を生成する場合、目だけを拡大するなど、他の属性を変更せずに特定の属性を個別に調整したい場合があります。しかし問題は、画像情報が非常に小さな次元の潜在ベクトル空間に圧縮され、さまざまな属性が非常に密接に結合されていることです。したがって、これらの属性をどのように分離し、顔の属性の制御性を向上させるかが難しい問題になります。 3.生産品質が不安定です。入力データの品質と生成モデル自体の不安定性により、GAN モデルによって生成された画像の品質が低くなる可能性があるため、生成された画像の品質を向上させるために他の対策を講じる必要があります。 4.計算量が多く、モバイルデバイスに展開するのが困難です。強力な生成機能を備えた GAN では、数百ギガバイトの計算が必要になる場合があり、モバイル デバイスへの展開には適していません。そのため、視覚効果を大幅に損なうことなく、モデルの効率的な圧縮を実現する方法が緊急に解決すべき問題となっています。 これらの課題をどう克服できるでしょうか? 上記の課題に対応するため、Tencent Weishi の技術チームは、モバイル端末でのリアルタイム特殊効果をサポートする GAN モデルのトレーニングおよび展開フレームワークを開発しました。全体的なプロセスは、次の手順にまとめることができます。 必要に応じて非対データを集め、高パラメータモデルをトレーニングして対データを生成します。 ペアデータの画像品質を向上させます。 ペアデータを使用して、モバイル デバイス上の軽量モデルをトレーニングします。 これらの手順により、モデルは実際のペアデータがなくても目的の効果を実現できます。生成された画像の制御性と品質が大幅に向上しました。また、さまざまなモデルに適応し、より多くの人がシンプルで高品質のフェイスマジック効果を使用できるようになりました。 高パラメータモデルを使用してペアデータを生成する ペアデータを取得するのが難しい場合、パラメータ数の多い大規模なモデルを使用してペアデータを生成することが避けられない選択になります。生成される効果は次のとおりです。 この課題を解決するために、Weishi の技術チームは3 つの異なる大型モデルを開発しました。 1つ目はCycleGANとStyleGANを組み合わせたCycle-StyleGANです。 StyleGAN は強力な高解像度の顔生成機能を備えていますが、条件なしの生成モデルであり、ランダムなベクトルを通じてランダムな顔を生成することしかできません。そこで研究者らはCycleGANというアイデアを導入し、モデルが画像間の条件付き生成機能を持つようにした。 Cycle-StyleGANの基本構造。 このモデル設計の助けを借りて、Weishi は若返りの効果を開発し、実現しました。 しかし、このモデルには欠点もあります。それは、必要なデータが多すぎることと、安定性と制御性に欠けていることです。そこで、Weishi は2 番目の大きなモデル、潜在ベクトルに基づく属性編集モデルを開発しました。 まず、アジア人の顔のデータセットを使用して高品質の生成モデルをトレーニングしました。モデルは、AdaIN モジュールを通じて潜在ベクトル情報を抽出し、デコーダー ネットワークを使用してデータを生成します。データ分離問題を解決し、単一属性制御(目のサイズのみの調整など)を実現するために、チームは次の最適化を行いました。 方向ベクトルを分離し、効果的な属性分離方法を見つけます。 トレーニングプロセス中、潜在ベクトルの具体的な意味は、鼻の形状を制御するために特定の次元を制限したり、顔の形状を制御するために特定の次元を制限するなど、監督情報を通じて制御されます。 上記の操作を通じて、チームはほとんどの属性を個別に制御できるようになりましたが、目の下のたるみや目尻のしわなどの過度に詳細な属性は、まだきれいに分離できませんでした。この目的のために、チームはスタイル空間に基づいた一連の属性編集方法を開発しました。さらに、チームは、実際のデータとトレーニング データの違いによって生じるぼやけやノイズなどの問題も最適化しました。 全体的に、第 2 世代の大規模モデルは、モデルの制御性を向上させるだけでなく、データ要件も大幅に削減します。少量の非ペアリング データしか収集できない実際の顔生成シナリオで使用できます。このソリューションに基づいて、Weishi は有名人に変身したり、偽の笑顔を浮かべたりするエフェクトを開発し、リリースしました。 しかし、現実の顔の特殊効果に対する需要は、実際の顔に限定されず、CG 顔生成など、満たすべき様式化されたニーズもいくつかあります。このようなタスクのデータ不足はより深刻であるため、データ要件がより小さいモデルが必要になります。この目的のために、Weishiチームは、小さなサンプルに基づくモデル融合モデルという3番目の大規模モデルを設計しました。このモデルの主なアイデアは、少量の収集データに基づいて事前トレーニング済みの実際の顔モデルを微調整し、事前トレーニング済みのモデルがターゲット スタイルの画像 (CG スタイルの画像など) をより適切に生成できるようにすることです。次に、微調整およびトレーニングされたモデルを元のモデルと融合して、元の事前トレーニング済みモデルの強力で多様な生成機能を備えながら、ターゲット スタイルの画像を生成できるハイブリッド モデルを取得します。 CGレンダリング。 データの多様性を高めるために、研究者らはモデルにデータ拡張モジュールを追加し、3D顔などの技術を使用してより多様なデータを生み出しました。このモデルの助けを借りれば、要件を満たす顔を生成するのに必要なデータは数十個だけです。 ペアデータ画像強化 3 つの大規模モデルを反復処理した後、小規模モデルのトレーニングに必要なペア データは基本的に準備完了ですが、美観、安定性、明瞭性の点ではまだ最適化する必要があります。美観の面では、Weishi は画像処理技術と属性編集ソリューションを使用して、しわ除去モデルを使用して目の下のたるみや涙溝を除去するなど、大型モデルによって生成された写真を美化します。安定性と鮮明さの点では、マイクロビュー参照画像復元と超解像の関連手法により、鮮明さを向上させ、顔の傷を除去できる GAN モデルが個別にトレーニングされました。無作為調査の結果、ユーザーの美化写真に対する好みが大幅に増加したことがわかりました。 目の下のたるみや涙溝の除去効果の模式図。 モバイル小型モデルトレーニング 携帯電話に展開される特殊効果は、アルゴリズムのリアルタイム性と安定性に対する要求が非常に高いため、Weishiチームは、モバイル端末でスムーズに実行できる小型モデル構造を設計し、大型モデルによって生成されたペアデータを小型モデルのトレーニングと精製の監督情報として使用しました。 軽量小型モデルの全体的なバックボーンは、MobileNet の深い分離可能な畳み込みと ShuffleNet の特徴の再利用の利点を反映した Unet 構造に基づいています。研究チームは、生成された画像の鮮明さと全体的な品質を向上させるために、画像全体を識別器に入れてトレーニングするだけでなく、顔のポイントに応じて目、眉毛、鼻、口を切り取り、それぞれ識別器に入力してトレーニングしました。 さまざまなモデルに適応するために、チームは複数のコンピューティング要件を備えたモデルを設計しました。さらに、ローエンドマシンに展開されたモデルパラメータは比較的小さいことを考慮して、知識蒸留法を使用して、学生の小さなモデルがより多くの情報を学習できるようにしました。 上記の 3 つのステップにより、Weishi は画像間のリアルタイム特殊効果生成を実現しましたが、チームはそこで止まりませんでした。リアルタイムの軽量な顔の動きの移行も実現しました。 リアルタイムの顔の動きの転送 顔の動きの移行の方向では、いくつかの作業のアイデアは、まずターゲット画像からソース画像への逆オプティカルフローを推定し、オプティカルフローに基づいてソース画像の特徴表現をワープし、次にMonkey-Net、FOMMなどの再構築結果を復元することです。 Weishi のリアルタイム顔モーション転送モデルは、このタイプの方法を利用しています。 携帯電話でのリアルタイム推論を実現するために、モデルサイズと計算の複雑さの点で大規模モデルを最適化し、GhostNet に基づいて対応する小規模モデル構造を設計することで、モデルサイズを 99.2%、GFLOPS を 97.7% 削減しました。小型モデルが大型モデルの機能をうまく学習できるようにするために、段階的な蒸留トレーニング戦略も採用しました。 チームは、小規模モデルをトレーニングした後、テンセント独自のモバイルディープラーニング推論フレームワーク TNN を使用して、携帯電話の展開とリアルタイム推論を実装し、ユーザーがカメラを通じてあらゆる顔画像を操作できるようにしました。
特殊効果を作る上で、テンセント威視のメリットは何ですか? 確かな技術サポートがなければ、リアルな効果と効率的なモデルを実現することはできません。これらのプロジェクトの中核技術は、テンセントの威師撮影アルゴリズムチームとテンセントプラットフォームおよびコンテンツグループ(PCG)の応用研究センター(ARC)によって共同開発されました。テンセントの微石撮影アルゴリズムチームは、画像/ビデオ分野での技術探求に力を入れており、業界トップクラスのアルゴリズム専門家と、豊富な製品経験を持つ研究者やエンジニアのグループを結集しています。豊富なビジネスシナリオを駆使して、最先端のAIおよびCVアルゴリズムのコンテンツ制作と消費分野への応用と実装を継続的に探求しています。 ARC は PCG の偵察部隊および特殊部隊です。主な任務は、オーディオおよびビデオ コンテンツの生成、強化、検索、理解に重点を置き、スマート メディアに関連する最先端のテクノロジーを探求し、挑戦することです。 AI 特殊効果の実装に関して、チームは以下の利点を確立しました。 アルゴリズム開発、モデルの反復からオンライン展開までの完全なプロセスフレームワークが構築されており、さまざまなテクノロジーの迅速な実装を実現し、より多くの特殊効果を探索するための効率保証を提供できます。 アルゴリズムを何度も繰り返し実行した結果、必要なデータ量が非常に少なくなり、数十枚の画像で良好な結果が得られるようになり、より多くの特殊効果を実現できるようになりました。 当社は、画質改善、モデル圧縮などの独自の技術を蓄積しており、さまざまなモバイル プラットフォーム上で AI モデルを正常に展開することができます。 前述のGANに加えて、R&Dチームは拡張現実、3D空間理解などの側面も研究し、コミュニティ全体でも人気のある研究方向であるWeishi APPでいくつかの特殊効果を発表しました。 技術の継続的な進歩により、将来的には、これまでは論文でしか見られなかった Weishi の驚くべき効果がさらに明らかになるでしょう。 |
Milvus は、オープンソースの人工知能エコシステムにデータ サービス機能を提供するオープンソース...
CBC および RC4 暗号化アルゴリズムが相次いで「衰退」しているため、SSL/TLS に依存して...
[[346568]] 1 スケジュールされたタスクNetty、Quartz、Kafka、Linux ...
将来的には、ML 製品の構築がより楽しくなり、これらのシステムはより良く機能するようになります。 M...
導入データ サイエンティストになる上で最も良いことの 1 つはプログラミングです。多くの場合、私は...
編集者注:この記事はWeChatパブリックアカウント「脑极体」(ID:unity007)からのもので...
最近はロボットが家事のすべてを担うようになりました。ポットを使えるスタンフォードのロボットが登場した...
日常生活では、情報を提示する次の 2 つの方法によく遭遇します。表示される情報量はどちらも同じですが...
清華大学の卒業生 2 人によって作成されたこのツールは、ツールの使用においてGPT-4 の主要な利点...
ロジスティック回帰の2つの方法:勾配降下法と最適化関数ロジスティック回帰は非常に人気のある機械学習手...
問題は、アリ・タブロイド紙の公開記事によると: [[93064]] #p#これは本当の、そして少し悲...
2012 年にディープラーニングが再び注目されて以来、初期の学術フレームワークである Caffe ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を...
オンラインビデオの読み込み速度と鮮明さに対する人々の要求は常に尽きることがありません。最近、マサチュ...