一瞬であなたを紙人間に変える人気の AI 特殊効果の背後に、これほど多くの知識ポイントがあるとは予想していませんでした。

一瞬であなたを紙人間に変える人気の AI 特殊効果の背後に、これほど多くの知識ポイントがあるとは予想していませんでした。

[[419073]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

今、最も皆さんに身近な AI 技術は何かと言えば、それは間違いなくAI 特殊効果でしょう。

手描きのアバターが欲しい場合、絵を描くスキルを習得する必要はありません。携帯電話を取り出してアプリを開き、写真を撮るだけです。AI が数秒で自動的にそれを行います。

△快手「手描き表紙」特殊効果

そして、それはもはや 1 枚の写真に限定されません。このマグルの「魔法」を使えば、短いビデオのすべてのフレームをスムーズにカバーできます。

さまざまなアートスタイル。AIにできないことはありません。

しかし、これらの特殊効果フィルターは数え切れないほどあり、しばしばオンラインで大騒ぎを引き起こしますが、モデルの誕生から実際に携帯電話に導入されるまでのストーリーを数語で簡単に説明することはできません。

特殊効果はどのようにして携帯電話に取り入れられるのでしょうか?

Kuaishouで人気の手描き特殊効果を例に、これについて詳しく話してみましょう。

まず、当然ながら、アルゴリズムレベルでの一連の操作となります。

ユーザーがビデオ/写真を撮影してから AI が「手描き作品」を出力するまでのプロセスは、AI の観点から見るとおおよそ次のようになります。

ISP は処理済みのビデオ/写真をアプリに送信します。AI は処理対象の画像を受信すると、各フレームを前処理してフォーマットとサイズを統一します。

次に、写真内の顔の検出と切り取りを開始し、カスタマイズされたスタイルの「アーティスト」ニューラル ネットワーク (U-Net など) を使用して処理できます。

このステップで生成された手描き効果が入力フレームとさらに統合されると、手描きの特殊効果が最初に完成します。

もちろん、正式な出力の前に、各フレームは全体的な画質を向上させるためにメイクアップと美容のステップを経る必要があります。

この時点で、一部の友人は、現在さまざまなオープンソース生成アルゴリズムが非常に成熟しているので、それらを直接携帯電話に移行するのはどれほど難しいのかと尋ねるかもしれません。

いいえ、いいえ。

言うまでもなく、手描き風の美学や芸術的効果を考慮しながら、ユーザーの顔の特徴や外見特性を最大限に保持するためには、全体的なスタイルやローカルの詳細に関して AI モデルをより厳密に調整する必要があります。Kuaishou のようなアプリの場合、安定した使いやすいモデルをトレーニングすることは、多くの場合、最初のステップにすぎません

実際、より大きな問題は携帯電話自体にあります。

モバイルデバイスであるため、携帯電話自体の計算能力には限界があります。つまり、AI の手描き機能が強力になるほど、またテクノロジーが複雑になるほど、携帯電話で遅延なくスムーズに動作させることが難しくなるということです。

しかし、私たちユーザーにとって、特殊効果をオンにした途端に携帯電話が詰まり、バッテリーが切れてしまったら、まったく楽しくありません。

さらに、手描きフィルターなどのアルゴリズムは、デフォルトで携帯電話の CPU 上で実行されます。 CPU は汎用コンピューティング ユニットであり、本質的に AI ワークロードを実行するための最適な選択肢ではありません。

[[419077]]

どうすれば解決できるでしょうか?一般的に言えば、3つのアプローチがあります。

最初のアプローチは、アルゴリズムの観点からモデルを圧縮することです。 Kuaishou を例にとると、AI フィルターはカスタマイズされたモデル圧縮アルゴリズムによってサポートされており、さまざまな境界条件、限られたコンピューティング リソースとメモリ リソースを考慮しながら、モデル計算の量を最小限に抑えることができます。

しかし、アルゴリズムがどれだけ最適化されても、ハードウェア レベルでの制限は回避できない問題のままです。

そこで、クラウドに移行するという2番目のアイデアがあります。多くのアプリプロバイダーは、モバイルデバイスの計算能力不足によって生じる課題に対処するために、複雑な AI 処理をクラウドで実行することを選択しています。

しかし、これにより新たな問題が発生しました。クラウドでのコンピューティングはネットワーク環境の影響を受け、さらなる遅延やその他の変化が生じ、オフラインのニーズを満たす方法がなくなるのです。

したがって、 3 番目のアプローチは、 SoC ハードウェア メーカー側から直接問題を解決することです。

最も一般的な Qualcomm Snapdragon モバイル プラットフォームを例にとると、これに搭載されている Qualcomm AI Engine は、ハードウェア側で AI コンピューティングを加速します。

Qualcomm の AI エンジンの違いは何ですか?

Qualcomm AI Engine は、実際には Snapdragon モバイル プラットフォームに組み込まれたソフトウェアおよびハードウェア AI ソリューションの完全なセットです。

ハードウェアに関しては、Qualcomm AI Engine は次のようなマルチコア異種コンピューティング ソリューションを使用します。

  • 六角形ベクトルプロセッサ
  • 副腎GPU
  • クライオCPU

したがって、CPU、GPU、ベクトルプロセッサをインテリジェントにスケジュールして AI 計算を実行することにより、Qualcomm AI エンジンはさまざまなアーキテクチャのプロセッサの利点を最大限に活用し、エネルギー効率を最大化しながら高い計算能力を実現できます。

ソフトウェアに関しては、Qualcomm AI Engine のソフトウェア ツールには、Snapdragon Neural Processing SDK、Android NN、Hexagon NN が含まれます。これらのソフトウェア ツールを使用すると、ビデオ プラットフォームなどのアルゴリズム開発者は、Qualcomm AI エンジンに迅速にアクセスし、AI アルゴリズムのパフォーマンスの限界を完全に探索できます。

実際、KuaishouとQualcommは、Snapdragon 765モバイルプラットフォームの発売当初から協力を開始していた。 Qualcomm Neural Processing SDK は、モバイル プラットフォーム上のアプリのパフォーマンス、電力消費、スケーラビリティ、互換性に関するソフトウェア サポートを提供し、CPU のワークロードを解放し、Hexagon プロセッサを通じて AI アクセラレーションを実現します。さらに、両者はモデルの量子化と圧縮でも協力し、AI処理の精度を確保しながらモデルのパフォーマンスとエネルギー効率を向上させました。

結果として得られた効果は、一連のデータに直接反映されています。手描きフィルターのフレーム レート (FPS) は56%増加し、消費電力は32%減少しました。

今年は、新世代のSnapdragon 778Gモバイルプラットフォームの発売により、両者の協力はさらに深まりました。コアは第6世代のQualcomm AIエンジンを中心に展開します。

Snapdragon 778G がサポートする第 6 世代 Qualcomm AI エンジンには、最大 12TOPS の計算能力を備えた Qualcomm Hexagon 770 プロセッサが含まれており、前世代のプラットフォームと比較してパフォーマンスが 2 倍になります。参考までに:Apple A14 は 11TOPS です。

さらに、Snapdragon 778G で使用されている新しい Qualcomm Spectra ISP は、1 秒あたり 20 億ピクセルの処理をサポートしており、Qualcomm AI エンジンが特殊効果アルゴリズムを実行するための追加サポートを提供できます。

快手YテックAIエンジニアリンググループ代表のビアン・ホンチャン氏もこの協力について次のように述べた。

Qualcomm Technologies との素晴らしいコラボレーションにより、Kuaishou は AI アルゴリズムのパフォーマンスの限界を突破することができました。当社は、Qualcomm との協力を継続し、Snapdragon ハイエンド チップの強力な異種コンピューティング機能を最大限に活用できることを嬉しく思います。ニューラル ネットワークのパフォーマンスを強化し、出力品質を改善することで、より魅力的なアプリケーションとより大きな価値をユーザーに提供できるようになります。 ”

「AIの巨人」クアルコム?

Qualcomm といえば、やはり「ゲームやグラフィックに優れた携帯電話用チップ工場」という印象が強いかもしれません。

しかし、手描きフィルターの事例から、Qualcomm がすでに大手 AI 企業であり、アプリ開発者が喜んで協力してくれる企業であることは容易にわかります。

実際、クアルコムは、AI がまだ初期段階にあった頃から、AI を技術開発の焦点として位置づけていました。

2007年、クアルコムの子会社であるクアルコムリサーチは初の人工知能プロジェクトを立ち上げ、2018年に正式にクアルコムAIリサーチを設立しました。

2015年には、第1世代のQualcomm AIエンジンを搭載したSnapdragon 820がリリースされ、より強力なAI処理機能をサポートするQualcomm Hexagonベクトル拡張コアが正式に導入されました。

6年間の毎年の改良を経て、今年のSnapdragon 888 Plusは、第6世代のQualcomm AIエンジンも搭載し、最大32 TOPSの強力なコンピューティングパワーを実現しました。

さらに、Qualcomm の AI 機能は、私たちが思っている以上に私たちの日常生活に深く組み込まれている可能性があります。

アプリ内の AI 特殊効果アルゴリズムほど顕著ではありませんが、Qualcomm AI エンジンは、携帯電話とモバイル アプリケーションのインテリジェンスの向上に多少なりとも貢献しています。

最近、新たな例があります:

Snapdragon 888シリーズを搭載したHonor Magic 3は、シーン要素の認識、インテリジェントなマッチングと推奨を通じてAIトーン推奨機能を実現し、ユーザーは携帯電話で大ヒット映画の質感を持つ動画を撮影できます。

Snapdragon 888 Plusも搭載されているXiaomi Mi MIX 4には、AI画像強化アルゴリズムでサポートされている素晴らしい画面下カメラがあります。また、パノラマAI翻訳の新しい遊び方があり、同時通訳、画面翻訳、写真翻訳、AI字幕などの実用的なAI機能をもたらし、ユーザーはビデオの視聴やオンライン会議など、多くのシナリオでAI「翻訳マスター」のサービスを体験できます...

ブラックテクノロジーはどれくらい複雑ですか?これはほとんどのユーザーが考慮する必要のあることではありません。

しかし、クアルコムとそのパートナーとの衝突により、より多くのブラックテクノロジーが生活の標準になりつつある。

持ってくれば完成です、どう思いますか(犬の頭)?

<<:  スマートシティにおける低リスクの AI 応用分野 3 つ

>>:  アルゴリズムを使って従業員を解雇する人工知能は、労働者の新たなリーダーになったのだろうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

TigerGraph がトップ 10 のグラフ データベース アルゴリズム ライブラリをオープンソース化

最近、世界最速のエンタープライズ レベルのグラフ分析プラットフォームである TigerGraph は...

悲劇!ウーバー、自動運転車が人をはねて死亡させたため全テストを中止

ウーバー、自動運転車が人をはねて死亡させたため全テストを中止 アメリカ現地時間19日朝、アリゾナ州...

世界に革命を起こす5つの新興技術

急速に進化するデジタル環境において、テクノロジーは私たちの生活を変え続け、私たちが可能だと思っていた...

...

ニューラルネットワークの背後にあるシンプルな数学

[[376715]] > Unsplash の Alina Grubnyak による画像ニュー...

陳作寧院士:人工知能モデルとアルゴリズムの7つの発展傾向

[[344779]] 2020年は紆余曲折と困難の年でした。このような背景から、人類にさらに貢献し、...

GenAIがより良い回答を提供するためのヒント

GenAI は、ユーザーが独自の方法でデータをクエリし、ニーズに合わせた回答を受け取ることができるイ...

人工知能は航空宇宙に貢献しており、我が国の有人宇宙計画の宇宙ステーションの軌道上建設ミッションは着実に前進している。

中国有人宇宙工程弁公室によると、2021年以来、我が国の有人宇宙計画は宇宙ステーションの重要技術検証...

インドネシアのゴミ分別:人工知能が役に立つ

上海市は7月に「史上最も厳しいゴミ分別措置」を実施し始めて以来、ゴミ分別は多くの人々の日常生活におけ...

...

ビッグモデルの「錯覚」、この記事を読んでください

ビッグモデルの「幻想」がついに体系的にレビューされました! 49 ページの記事では、幻覚の定義、分類...

...

凌創志新は、AI商業化の閉ループを作成するための最初のデータアノテーションビジネスを立ち上げました

アジアのビッグデータおよび人工知能企業である凌創志信は、同社の伝統的なリテイン事業であるデータラベリ...

PyTorchに負けました! GoogleはTensorFlowを放棄し、JAXに賭ける

私はネットユーザーの一部が言ったことにとても満足しています。 「この子は本当にダメだ、もう一匹産もう...

...