この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 今、最も皆さんに身近な AI 技術は何かと言えば、それは間違いなくAI 特殊効果でしょう。 手描きのアバターが欲しい場合、絵を描くスキルを習得する必要はありません。携帯電話を取り出してアプリを開き、写真を撮るだけです。AI が数秒で自動的にそれを行います。 △快手「手描き表紙」特殊効果 そして、それはもはや 1 枚の写真に限定されません。このマグルの「魔法」を使えば、短いビデオのすべてのフレームをスムーズにカバーできます。 さまざまなアートスタイル。AIにできないことはありません。 しかし、これらの特殊効果フィルターは数え切れないほどあり、しばしばオンラインで大騒ぎを引き起こしますが、モデルの誕生から実際に携帯電話に導入されるまでのストーリーを数語で簡単に説明することはできません。 特殊効果はどのようにして携帯電話に取り入れられるのでしょうか?Kuaishouで人気の手描き特殊効果を例に、これについて詳しく話してみましょう。 まず、当然ながら、アルゴリズムレベルでの一連の操作となります。 ユーザーがビデオ/写真を撮影してから AI が「手描き作品」を出力するまでのプロセスは、AI の観点から見るとおおよそ次のようになります。 ISP は処理済みのビデオ/写真をアプリに送信します。AI は処理対象の画像を受信すると、各フレームを前処理してフォーマットとサイズを統一します。 次に、写真内の顔の検出と切り取りを開始し、カスタマイズされたスタイルの「アーティスト」ニューラル ネットワーク (U-Net など) を使用して処理できます。 このステップで生成された手描き効果が入力フレームとさらに統合されると、手描きの特殊効果が最初に完成します。 もちろん、正式な出力の前に、各フレームは全体的な画質を向上させるためにメイクアップと美容のステップを経る必要があります。 この時点で、一部の友人は、現在さまざまなオープンソース生成アルゴリズムが非常に成熟しているので、それらを直接携帯電話に移行するのはどれほど難しいのかと尋ねるかもしれません。 いいえ、いいえ。 言うまでもなく、手描き風の美学や芸術的効果を考慮しながら、ユーザーの顔の特徴や外見特性を最大限に保持するためには、全体的なスタイルやローカルの詳細に関して AI モデルをより厳密に調整する必要があります。Kuaishou のようなアプリの場合、安定した使いやすいモデルをトレーニングすることは、多くの場合、最初のステップにすぎません。 実際、より大きな問題は携帯電話自体にあります。 モバイルデバイスであるため、携帯電話自体の計算能力には限界があります。つまり、AI の手描き機能が強力になるほど、またテクノロジーが複雑になるほど、携帯電話で遅延なくスムーズに動作させることが難しくなるということです。 しかし、私たちユーザーにとって、特殊効果をオンにした途端に携帯電話が詰まり、バッテリーが切れてしまったら、まったく楽しくありません。 さらに、手描きフィルターなどのアルゴリズムは、デフォルトで携帯電話の CPU 上で実行されます。 CPU は汎用コンピューティング ユニットであり、本質的に AI ワークロードを実行するための最適な選択肢ではありません。 どうすれば解決できるでしょうか?一般的に言えば、3つのアプローチがあります。 最初のアプローチは、アルゴリズムの観点からモデルを圧縮することです。 Kuaishou を例にとると、AI フィルターはカスタマイズされたモデル圧縮アルゴリズムによってサポートされており、さまざまな境界条件、限られたコンピューティング リソースとメモリ リソースを考慮しながら、モデル計算の量を最小限に抑えることができます。 しかし、アルゴリズムがどれだけ最適化されても、ハードウェア レベルでの制限は回避できない問題のままです。 そこで、クラウドに移行するという2番目のアイデアがあります。多くのアプリプロバイダーは、モバイルデバイスの計算能力不足によって生じる課題に対処するために、複雑な AI 処理をクラウドで実行することを選択しています。 しかし、これにより新たな問題が発生しました。クラウドでのコンピューティングはネットワーク環境の影響を受け、さらなる遅延やその他の変化が生じ、オフラインのニーズを満たす方法がなくなるのです。 したがって、 3 番目のアプローチは、 SoC ハードウェア メーカー側から直接問題を解決することです。 最も一般的な Qualcomm Snapdragon モバイル プラットフォームを例にとると、これに搭載されている Qualcomm AI Engine は、ハードウェア側で AI コンピューティングを加速します。 Qualcomm の AI エンジンの違いは何ですか?Qualcomm AI Engine は、実際には Snapdragon モバイル プラットフォームに組み込まれたソフトウェアおよびハードウェア AI ソリューションの完全なセットです。 ハードウェアに関しては、Qualcomm AI Engine は次のようなマルチコア異種コンピューティング ソリューションを使用します。
したがって、CPU、GPU、ベクトルプロセッサをインテリジェントにスケジュールして AI 計算を実行することにより、Qualcomm AI エンジンはさまざまなアーキテクチャのプロセッサの利点を最大限に活用し、エネルギー効率を最大化しながら高い計算能力を実現できます。 ソフトウェアに関しては、Qualcomm AI Engine のソフトウェア ツールには、Snapdragon Neural Processing SDK、Android NN、Hexagon NN が含まれます。これらのソフトウェア ツールを使用すると、ビデオ プラットフォームなどのアルゴリズム開発者は、Qualcomm AI エンジンに迅速にアクセスし、AI アルゴリズムのパフォーマンスの限界を完全に探索できます。 実際、KuaishouとQualcommは、Snapdragon 765モバイルプラットフォームの発売当初から協力を開始していた。 Qualcomm Neural Processing SDK は、モバイル プラットフォーム上のアプリのパフォーマンス、電力消費、スケーラビリティ、互換性に関するソフトウェア サポートを提供し、CPU のワークロードを解放し、Hexagon プロセッサを通じて AI アクセラレーションを実現します。さらに、両者はモデルの量子化と圧縮でも協力し、AI処理の精度を確保しながらモデルのパフォーマンスとエネルギー効率を向上させました。 結果として得られた効果は、一連のデータに直接反映されています。手描きフィルターのフレーム レート (FPS) は56%増加し、消費電力は32%減少しました。 今年は、新世代のSnapdragon 778Gモバイルプラットフォームの発売により、両者の協力はさらに深まりました。コアは第6世代のQualcomm AIエンジンを中心に展開します。 Snapdragon 778G がサポートする第 6 世代 Qualcomm AI エンジンには、最大 12TOPS の計算能力を備えた Qualcomm Hexagon 770 プロセッサが含まれており、前世代のプラットフォームと比較してパフォーマンスが 2 倍になります。参考までに:Apple A14 は 11TOPS です。 さらに、Snapdragon 778G で使用されている新しい Qualcomm Spectra ISP は、1 秒あたり 20 億ピクセルの処理をサポートしており、Qualcomm AI エンジンが特殊効果アルゴリズムを実行するための追加サポートを提供できます。 快手YテックAIエンジニアリンググループ代表のビアン・ホンチャン氏もこの協力について次のように述べた。
「AIの巨人」クアルコム?Qualcomm といえば、やはり「ゲームやグラフィックに優れた携帯電話用チップ工場」という印象が強いかもしれません。 しかし、手描きフィルターの事例から、Qualcomm がすでに大手 AI 企業であり、アプリ開発者が喜んで協力してくれる企業であることは容易にわかります。 実際、クアルコムは、AI がまだ初期段階にあった頃から、AI を技術開発の焦点として位置づけていました。 2007年、クアルコムの子会社であるクアルコムリサーチは初の人工知能プロジェクトを立ち上げ、2018年に正式にクアルコムAIリサーチを設立しました。 2015年には、第1世代のQualcomm AIエンジンを搭載したSnapdragon 820がリリースされ、より強力なAI処理機能をサポートするQualcomm Hexagonベクトル拡張コアが正式に導入されました。 6年間の毎年の改良を経て、今年のSnapdragon 888 Plusは、第6世代のQualcomm AIエンジンも搭載し、最大32 TOPSの強力なコンピューティングパワーを実現しました。 さらに、Qualcomm の AI 機能は、私たちが思っている以上に私たちの日常生活に深く組み込まれている可能性があります。 アプリ内の AI 特殊効果アルゴリズムほど顕著ではありませんが、Qualcomm AI エンジンは、携帯電話とモバイル アプリケーションのインテリジェンスの向上に多少なりとも貢献しています。 最近、新たな例があります: Snapdragon 888シリーズを搭載したHonor Magic 3は、シーン要素の認識、インテリジェントなマッチングと推奨を通じてAIトーン推奨機能を実現し、ユーザーは携帯電話で大ヒット映画の質感を持つ動画を撮影できます。 Snapdragon 888 Plusも搭載されているXiaomi Mi MIX 4には、AI画像強化アルゴリズムでサポートされている素晴らしい画面下カメラがあります。また、パノラマAI翻訳の新しい遊び方があり、同時通訳、画面翻訳、写真翻訳、AI字幕などの実用的なAI機能をもたらし、ユーザーはビデオの視聴やオンライン会議など、多くのシナリオでAI「翻訳マスター」のサービスを体験できます... ブラックテクノロジーはどれくらい複雑ですか?これはほとんどのユーザーが考慮する必要のあることではありません。 しかし、クアルコムとそのパートナーとの衝突により、より多くのブラックテクノロジーが生活の標準になりつつある。 持ってくれば完成です、どう思いますか(犬の頭)? |
<<: スマートシティにおける低リスクの AI 応用分野 3 つ
>>: アルゴリズムを使って従業員を解雇する人工知能は、労働者の新たなリーダーになったのだろうか?
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
今日、多くの地域で、伝統的に顧客独占を享受してきた水道事業者は、規制政策の変更、気候変動の影響、消費...
自然言語処理 (NLP) はここ数年で大きな進歩を遂げており、BERT、ALBERT、ELECTRA...
1. はじめにGitHub Copilot と Amazon CodeWhisperer は、コーデ...
[[388190]] • 食糧需要が増加するにつれて、世界は水の使用を管理する必要があります。 • ...
1. 欠陥検出のためのディープラーニング[[391865]]製造業では、生産ラインにおける欠陥検出...
人工知能は、特に交通インフラに関して、都市開発の近代化という使命を変革することができます。現代社会に...
Microsoft Research Asia の最新の調査は少々衝撃的だ。彼らは、実際にトークンを...
注意メカニズムに依存する大規模言語モデル (LLM) は通常、トレーニング中に固定のコンテキスト長を...
ウイルスのさらなる拡散を防ぐため、米国で初めて新型肺炎に感染した患者は隔離室に隔離され、治療中はロボ...
組合せ最適化問題の背景組み合わせ最適化は、NP 困難な制約付き最適化問題を解決することを目的とした、...
海外メディアの報道によると、8月2日、Googleの研究者らは、OpenAIのGPT-4を研究アシス...