家族に王位継承者はいないのですか?それは問題ではない、誰かがAIを使っておとぎ話の魔法の世界を作ったのだ

家には鉱山も王座もありませんが、王子様やお姫様になりたいという夢を持たない人がいるでしょうか?

最近、マシンハートは「逃亡王子」の一団を受け入れている。

これらの王子たちは異なる王国から来ていますが、彼らの衣装とメイクはすべて同じ会社である Kuaishou のものです。

これはKuaishouの新しい「童話魔法」特殊効果です。王子様気分だけでなく、お姫様気分も味わえます。あらゆる分野の有名人が、自分だけのプリンセス特殊効果画像を共有しています。

ヤン・ミ

ディルラバ・ディルムラト

ルー・イーシャオ

「フェアリーテイルマジック」は、生成アルゴリズムに基づいたビデオ特殊効果技術で、ユーザーは携帯電話でリアルタイムに自分が王女や王子様に変身する魔法の効果をプレビューできます。生成された画像は、おとぎ話のようなスタイルが強いだけでなく、ユーザー自身の顔の特徴も保持し、ユーザーに斬新な撮影体験を提供します。

現在、この「おとぎ話の魔法」セットには、氷の王女、ファンタジー城、おとぎ話の王女、おとぎ話の王子など、いくつかのスタイルの変身効果があります。

それだけでなく、ユーザーは自分の好みに応じて変身したキャラクターの特殊効果をさらに洗練させたり、さまざまなスタイルのメイク、ボディビューティー、フィルター、カバーテキストなどを追加したり、サウンドトラックを変更したり、独自の吹き替えを行ったり、ミニオン、ロボット、ロリ、おじさんなどのさまざまなスタイルに変身したりすることもできます。

「童話の魔法」の背後にある快手ブラックテクノロジー

実在の人物が数秒で漫画に変身するのはもはや珍しいことではありません。これまで、韓国のゲーム会社NCSOFTが開発した教師なし画像変換アルゴリズムU-GAT-ITは、学習可能なILN層と注意機構を導入することで、顔画像を日本のアニメの2次元画像に変換することに成功し、業界で大きな注目を集めました。

しかし、日本の漫画と童話のスタイルには依然として大きな違いがあります。童話風の画像変換を完了するには、生成された画像がユーザーの本来の顔の特徴を保持するだけでなく、アニメーション化された3Dポートレートのスタイルも持たなければなりません。同時に、ターゲットスタイルデータの多様性が不十分であるという問題もあり、U-GAT-ITは要件を満たすことができません。

そして、かつて有名だったToonifyだけでは十分ではないようです。 Toonify は実在の人物からアニメ映画のキャラクターへの変換を完了できますが、この方法では微調整された StyleGAN モデルから低解像度のレイヤーを直接抽出し、元の StyleGAN の高解像度のレイヤーのみを保持するため、変換された画像は元の顔に比べて変形し、元の顔の顔の特徴を完全に保持することはできません。また、この方法で生成された顔画像の中には、色調が変化するなどの問題があり、リアルタイムで処理できないものもあり、工業製品の発売要件を満たすことができません。

これらの課題に対処するため、快手YテックチームのAIエンジニアは、自社開発のKStyleGAN構造を採用し、顔の構造を表現し、3D空間でスタイルマッピングを行い、ニューラルネットワークレンダリングを使用して結果画像のテクスチャを細かく制御することで、従来の2D表現に基づくStyleGAN方式の欠点を効果的に克服し、モバイルデバイス上でリアルタイムの特殊効果を実現しました。

モデル構造に関しては、半自動ネットワークアーキテクチャ検索 (NAS) を使用して、モバイル側とサーバー側のさまざまなコンピューティングハードウェアに効率的なネットワーク構造を取得し、これに基づいて多くの革新を行っています。

一方、Kuaishou はピクセルレベルのアテンションメカニズムであるSTA モジュール(スタイル転送アテンションモジュール) を設計し、浅い特徴と深い特徴を融合する方法を改善しました。一般的な特徴融合方法には、浅い特徴と深い特徴の直接追加、連結、そして複数の畳み込み演算が含まれます。スタイル転送タスクでは、元の画像とターゲット画像の間に大きな違いがあるため、これらの一般的な融合方法では、元の画像情報の損失、生成品質の低下、スタイル感覚の低下などの問題が発生することがよくあります。 STA モジュールは、少量の計算と注意を使用して、ピクセルレベルで浅い特徴と深い特徴の融合プロセスをガイドし、スタイルを維持しながら元の画像の詳細を保持し、生成された画像のテクスチャを改善します。

一方、Kuaishou は、従来の Resnet ブロック構造に代わる、マルチブランチ、マルチデプスの FS ブロック (機能拡張モジュール)を構築します。この改善により、計算量を減らしながらフィーチャの詳細を強化し、全体的な変形に適応する能力が向上し、より優れた生成効果を実現できます。

モデルのトレーニングに関しては、Kuaishou はリアルタイムのスタイル設定タスクにおけるさまざまな効果の問題に的を絞った調整を行いました。

ハイブリッドトレーニングを通じて、スタイル機能の学習を強化し、最終モデルによって生成されるスタイル感覚を高めることができます。

モデルピラミッド内の異なる解像度の機能に対してマルチタスクおよびマルチスケールの監視を設計し、モデルの収束を加速し、生成の品質と堅牢性を向上させます。

事前トレーニング機能は敵対的トレーニング段階で導入され、識別器の詳細なテクスチャを判断する能力を向上させ、識別器のトレーニングプロセスを安定させ、最終的にモデルの詳細なテクスチャを生成する能力を強化します。

特殊効果は素晴らしいですが、すべての携帯電話モデルに適応させるにはどうすればよいのでしょうか?

特殊効果は簡単に使用できますが、携帯電話のモデルや構成が多岐にわたるため、デバイスの計算能力とモデル効果を最適に組み合わせて、最高のユーザーエクスペリエンスを提供するにはどうすればよいでしょうか。

Kuaishou は初めて詳細なコンピューティング能力の分類を実施しました。

現在のモバイルハードウェアは多種多様で、断片化が激しいため、コンピューティング能力のグレーディングは水平方向と垂直方向の課題に直面しています。水平的課題：機器は、CPU、GPU、DSP、NPU に大別されます。各タイプの計算能力は異なります。一般的に言えば、計算能力レベルは NPU ≥ GPU ≥ DSP ≥ CPU ですが、実際の状況では、各レベルの計算能力が重複したり、逆転したりします。垂直的な課題: CPU を例にとると、メーカーには Apple、Qualcomm、Huawei、MTK などがあります。CPU のパフォーマンスはメーカーやモデルによって大きく異なります。Adreno や Mali シリーズなどの GPU でも同様の状況が見られます。

断片化されたデバイスを水平および垂直に分散させることで、複雑なコンピューティングパワーマトリックスが形成されます。Kuaishouが独自に開発したディープラーニング推論エンジンYCNNは、非常に最適化されたバックエンドコードと組み合わせられ、複数のモデルで理論と実践の両面で徹底的にテストされ、最終的にKuaishouのユーザーベースに基づいて詳細なグレーディングプランを設計しました。

このコンピューティングパワーのグレーディング戦略に従って、Kuaishou はモデル構造とコンピューティングパワーを調整し、異なるコンピューティングパワーを持つモデルを設計しました。たとえば、CPU 向けには、より優れた効果を持つ中程度の計算モデルが設計されていますが、NPU、GPU、DSP などの高計算能力に適したデバイスでは、より大きな計算強度とより優れた効果を持つモデルを実行できます。

また、実際のアプリケーションでは、モデルが複数あるとリソースパッケージが大きくなりすぎたり、読み込みが遅くなったりするなどの問題が発生します。このため、Kuaishou ではモデルサーバーに階層的な分散メカニズムを導入しました。デバイスは端末のハードウェア情報に従って分類、配布、ロードされ、デバイスのコンピューティング能力を最大限に活用しながら、すべての Kuaishou ユーザーに最高のエクスペリエンスを提供します。

YCNN の全体的なアーキテクチャ

Kuaishou は、さまざまなハードウェア向けに階層モデルを設計し、独自に開発したアルゴリズム圧縮モデルと YCNN エンジンを使用して、すべてのユーザーが「おとぎ話の魔法」を体験できるようにします。

すべての人に「変革」の舞台と可能性を与えることは、Kuaishou の技術革新の追求とユーザー志向の堅持を反映しています。

<<: USPTO レポート: 人工知能を使わないと取り残される!

>>: モデルは、人々の言葉をいくつか聞くことで、よりよく学習できるでしょうか?スタンフォード大学は学習を支援するために言語説明を使うことを提案している