10億パラメータモデルが携帯電話に登場!飛行モードでも画像を生成するのにわずか15秒しかかかりません

10億パラメータモデルが携帯電話に登場!飛行モードでも画像を生成するのにわずか15秒しかかかりません

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

携帯電話だけで Stable Diffusion を使用して写真を生成するにはどのくらいの時間がかかりますか?

答えは15秒以内です。機内モードをオンにするのと同じなので、クラウド サーバーの計算能力に頼る必要はまったくありません。

装甲猫戦士のアニメ版を生成できるだけでなく、ドラゴンボールのコスプレ集合写真の実写版もすぐに想像できます。

△写真提供:@TK Bay

もちろん、中国風のウサギの切り絵を描いても全く問題ありません。

△写真提供:@TK Bay

これまで、一部のネットユーザーは携帯電話で実行できる安定した拡散プロジェクトをいくつか作成していましたが、実際の操作では、これらのプロジェクトは画像の生成に長い時間がかかり、多くのメモリを占有し、多くの電力を消費するか、生成された画像のスタイルが比較的単純であることがわかりました。

携帯電話の計算能力の助けを借りて、15秒で多様なスタイルの写真をどうやって作成できるのでしょうか?

携帯電話が15秒で10億レベルのモデルを実行

このモバイル版は、Stable Diffusion プロジェクトを 15 秒で実行し、Qualcomm が自社の携帯電話チップをベースに作成した「デモ」アプリです。

先日のMWC 2023では、クアルコムがこのアプリの生成効果を現地で実演し、オフライン会議に参加した多くのネットユーザーも、例えばポケモンの群れの生成を試みるなど、それを体験しました。

△画像出典 @NewGadgets.de

反復ステップ数は 20 に達し、解像度 512×512 の画像を生成できます。

Qualcomm によると、このバージョンの Stable Diffusion が他のプロジェクトと比較して携帯電話上で高速に実行できる理由は、チームがモバイル AI ソフトウェアとハ​​ードウェア技術に基づいてオープンソース モデルを最適化したためです。

このうち、Stable Diffusion モデルは、Hugging Face 上の FP32 バージョン 1-5 オープンソースを使用します。

15秒で「画像を素早く出力する」という効果を実現するために、研究者らはハードウェア、フレームワーク、AI圧縮アルゴリズムから着手し、出力効果を確保しながら、モデルサイズと端末操作も最適化しました。

  • ハードウェア: 第2世代Snapdragon 8モバイルプラットフォーム
  • フレームワーク: Qualcomm AI Engine Direct
  • AIモデル圧縮ツール: AIモデル効率化ツールキット AIMET

まず、Qualcomm AI モデル効率ツールキット AIMET に基づいて、トレーニング済みの安定拡散モデルが量子化されます。 AIMET には、モデルの精度を FP32 から INT8 に圧縮し、モデルの実行効果を確保しながら消費電力を削減できる AdaRound などの Qualcomm の以前の定量研究アルゴリズムがいくつか含まれています。

次に、チームは、Qualcomm の AI Engine Direct フレームワークに基づいてモデルのソフトウェアとハ​​ードウェアを最適化し、AI コンピューティング専用の Hexagon プロセッサ上でより適切に実行できるようにして、メモリ オーバーフローを最小限に抑えながらパフォーマンスを向上させました。

最後に、クアルコムは、ネットワーク層をタイムライン上で分割してプロセッサを常に効率的な動作状態に保ち、効率を向上させることができるマイクロ推論と呼ばれる技術をサポートする、新しくリリースされた第2世代Snapdragon 8モバイルプラットフォームも採用しました。

これは、Stable Diffusion だけでなく、他の生成 AI アルゴリズムにも当てはまります。

Qualcomm はまた、モバイル デバイス上で顔生成アルゴリズムを実行する場合の Hexagon プロセッサの効率を他の GPU や CPU と比較して実証しました。

Hexagonプロセッサを搭載した第2世代Snapdragon 8モバイルプラットフォームは、超解像(RDN)、背景ぼかし(DeeplabV3+)、顔認識(FaceNet)、自然言語処理(MobileBERT)などのアルゴリズムの実行において、同等の製品よりも3~4倍高いパフォーマンスを発揮します。

これはまさに、クアルコムが常に重視してきた「エンドサイドAIコンピューティングパワー」のパフォーマンスです。

クアルコムによれば、この生成AIの波では、AIモデルを処理するためにクラウドコンピューティングのパワーに単純に頼るのではなく、端末側のコンピューティングパワーも活用できるようになるという。

エンドサイドのコンピューティングパワーが生成AIの実装を加速

このビッグモデルの波の普及により、クラウドコンピューティングは多くの人々の注目を集めるテクノロジーになりました。

しかし、AI技術の最も直接的な応用分野の一つとして、計算能力も提供できるモバイル端末も、この生成AIの波に影響を与えるのでしょうか?

クアルコム・テクノロジーズの製品管理担当上級副社長兼AI責任者であるジアド・アスガー氏は、これについて自身の見解を述べた。

Ziad Asghar 氏は、大規模モデルなどの生成 AI を純粋にクラウドで実行することにはいくつかの問題があると考えています。

一方、Web 検索などのアルゴリズムの場合、生成 AI のクエリ効果は従来の方法よりも優れていますが、単一のクエリのコストも高くなります。

ユーザー数が増加し続けると、クラウド コンピューティング能力だけに頼っていては、同時に実行される生成 AI アプリケーションの増加をサポートできなくなる可能性があります。

一方、クラウドコンピューティングのパワーは向上しているものの、多くの AI モデルをエンド側に適用すると、推論中のユーザーデータの処理など、プライバシーとセキュリティに関する問題に直面することになります。

パーソナル検索を例に挙げてみましょう。AI アルゴリズムを使用して、クラウドにアップロードして処理することなく、携帯電話上のデータをよりインテリジェントに検索したい場合、ユーザー データを「インターネット経由」でアップロードするのではなく、最終的にはクライアント側にモデルを展開する必要があります。

したがって、生成 AI を大規模に実装するには、モバイル端末でもコンピューティング方法とアプリケーション アプローチの面で対応する準備を行う必要があります。

これは、クアルコムが、一部の AI モデルを端末側に置いて処理するというハイブリッド AIの概念を提案した理由でもあります。

Ziad Asghar 氏はまた、モバイル AI 処理能力が向上を続けるにつれて、今後数か月以内に100 億のパラメータを持つ大規模なモデルがモバイル デバイス上で実行されるようになるだろうと述べました。

その頃には、携帯電話のAIアシスタントが本当に「個人ごとにカスタマイズ」できるようになるかもしれません。

<<:  ネイチャー誌の表紙:量子コンピューターの実用化はまだ2年先

>>:  AIによる朗読がオーディオブック市場に影響、声優の仕事が脅かされる

ブログ    
ブログ    
ブログ    

推薦する

...

AIはインダストリー4.0の最適化段階の鍵となる

[[282511]]製造業の新たな課題製造業はインテリジェント製造に向けてアップグレードし、変革する...

トップエキスパートが語る: 生成型AIとロボット工学の未来

ビッグデータダイジェスト制作最近、カーネギーメロン大学、カリフォルニア大学バークレー校、Meta、N...

怠け者に朗報:AIが家事を引き受けてくれる

誰もが食べることは大好きですが、必ずしも鍋を洗うのは好きではありません。この文章を読んだ後、自分自身...

...

2024 年にビジネスを一変させる可能性のあるテクノロジーはどれでしょうか?

2023 年は、世界中の政府、公共部門、企業、さらには一般大衆の生活を大きく変えるテクノロジーの急...

企業はどのように人工知能を導入し、そこから価値を得ることができるのでしょうか?

人工知能は近い将来、私たちの日常生活を変えるでしょう。企業は来たるイノベーションの波から価値を獲得す...

新薬研究開発の方向性は?人工知能はどのように発展するのでしょうか?トップ科学者の意見

昨日は第4回世界トップ科学者フォーラムの2日目でした。世界トップの科学者たちがオンラインとオフライン...

マルチモーダル LLM 幻覚問題が 30% 減少しました!業界初の「キツツキ」無重力トレーニング法が誕生

大規模なマルチモーダル モデルの「幻覚」問題を解決するために、まだ命令の微調整を使用していますか?例...

実験により、人工知能がパスワードを簡単に解読できることが証明された

[[204299]]先週、信用調査会社エキファックスは、同社のシステムに保存されていた1億4,300...

...

マイクロソフトとフェイスブックが共同で人工知能ソフトウェアを開発し、グーグルの主導的地位に挑戦

マイクロソフトはすでにオープンソースの人工知能ソフトウェアを持っています。しかしここ数カ月、マイクロ...

AIによって殺された最初の人々を見てみましょう

過去2日間、「絵を当てようソング」がスクリーンのあちこちで流れていたその背後にあるAIブラックテクノ...

強く連結されたコンポーネントを解決するための Tarjan アルゴリズムを実装する 20 行のコード

今日紹介するアルゴリズムは Tarjan と呼ばれていますが、これも非常に奇妙な名前です。奇妙なのは...

...