ワークステーションはクライアント側の大規模モデルの「幸せな家」です

ワークステーションはクライアント側の大規模モデルの「幸せな家」です

MacでSiriを呼び出したことがありますか?とにかく一度も合格していない。

AIの世界では「ベテラン」として知られるこのバーチャルアシスタントは、iPhoneではあまり人気がなく、Macではまったく存在感がありません。しかし、ChatGPT の登場により、モバイル フォンでのその限定的な存在はさらに縮小されました。

11月がすぐそこにあり、ChatGPT のローンチ 1 周年ももうすぐです。今年、私たちは生成型人工知能の驚くべき反復速度を目の当たりにし、大規模なモデルはほぼ一年を通じて話題となっていました。序盤はChatGPTの使い方から「100機種バトル」、そして業界大手機種、いよいよ末端大手機種の議論ですが、主役は携帯電話でしょうか? 「2024年は大型エンドサイドモデル元年になる」と嘆く人もいたほどだ...

等! 「エンドサイドビッグモデル」には携帯電話だけが含まれるのでしょうか?

ワークステーションが、一種の業務用高性能端末機器として、以前から大型機種のアプリケーションを搭載していたことを、皆さんは忘れているかもしれません。現在のワークステーションは、非常に高い計算能力を必要としないいくつかの軽いトレーニング タスクをすでに処理できるため、実行に問題はありません。

もちろん、ワークステーションを含むあらゆるデスクトップ デバイスには、強力なインターネット ポータル (Web ブラウザー) があり、これを使用してさまざまなオンラインの大規模モデル サービスにアクセスできますが、ローカルに展開された大規模モデルと比較すると、オンライン サービスには依然として多くの制限があります。

生成量:多くのオンライン サービスは大量のコンピューティング リソースを必要とし、また運営を維持するために収益に依存する必要があるため、通常、無料ユーザーにはさまざまな制限が課せられます。たとえば、ChatGPT の無料バージョンでは、GPT 3.5 で生成されたコンテンツのみを使用でき、速度制限があります。ローカル展開にワークステーションを使用する場合は、ローカルのコンピューティング リソースのみを消費すればよく、もちろんそれ以上の追加料金を支払う必要はありません。

自由。オンライン サービスでは、クラウド サービスのテクノロジ、条件、および現地の規制を考慮する必要があります。ユーザーが生成したコンテンツには、違反が指摘されることがあります。一部の有料サービスでは、生成が遅い、フリーズする、生成に失敗するなどの問題が発生することもあります。ユーザーが実行できるのは、ページを更新して指示を再入力することだけです。大規模なモデルをワークステーションにローカルに展開すると、想像力を自由に発揮でき、エクスペリエンスに影響を与える唯一の要素は通常、ハードウェア構成です。

生成時間:オンライン サービスでは、広域ネットワークを介して指示を送信し、コンテンツを生成する必要があります。これは、クラウド サービスのパフォーマンスだけでなく、ネットワーク アクセス速度にも影響されます。ネットワーク アクセス速度は、生成速度に影響を与えるもう 1 つの重要な要素です。無料ユーザーの場合や、サービスを利用するユーザーが多すぎる場合は、キューに入れる必要がある場合があります。ワークステーションをローカル展開に使用する場合は、これらの問題を考慮する必要はありません。手順に機密情報が含まれている場合は、ローカル操作の方が安全なアプローチです。

大規模なモデルをローカルに展開することには多くの利点があるため、多少の技術的知識を持つ専門家の中には、ワークステーションに大規模なモデルを展開しようとする人もいます。ワークステーションに展開できる大規模なモデルはすでに多数存在しており、Stable Diffusion と Llama 2 の 2 つが最もよく知られています。

テキストグラフィックスの分野では、Stable Diffusion はよく知られた名前です。親会社である Stability AI も、Stable DiffusionV1、StableLM、Stable Diffusion XL などのモデルを次々とオープンソース化しており、テキストグラフィックスの分野で確固たる地位を築いています。

個人ユーザーの場合、ワークステーションに Stable Diffusion を展開して使用するのは少し難しいです。デバイスでは、少なくとも GT1060、4G 以上のグラフィック カード、16G 以上のメモリを搭載した NVIDIA グラフィック カードを使用する必要があります。Windows 10 または Windows 11 を実行する必要があります。インストールには、次の 3 つの手順のみが必要です。

環境を構成するには、 Python 環境を作成し、それに基づいて Stable Diffusion ユーザー インターフェイスを作成し、CUDA をインストールするなどする必要があります。

Stable Diffusion を構成するには、ソース コードをダウンロードし、Stable Diffusion WebUI プロジェクトをクローンし、Stable Diffusion トレーニング モデルをダウンロードする必要があります。

Stable Diffusion を実行し、 Stable Diffusion WebUI を実行して AI 描画の旅を始めましょう。

Stable Diffusion が画像生成の分野で大きな進歩を遂げている一方で、Stability AI も黙って見過ごすことはなく、チャットボットの分野にも進出し始めています。 Stability AIは今年8月、「Stable Chat」というチャットボットをリリースした。これはOpenAIのChatGPTと同様の機能を持つが、それが使用する大規模言語モデルStable Belugaは2世代のLlamaをベースに開発されている。

Llama は、Meta がリリースした大規模言語モデルであり、さまざまな分野の自然言語テキストを理解し、生成することができます。オープンソース製品であるため、Llama 2 もさまざまなバージョンの大規模言語モデルに改良されています。 Stable Diffusion と同様に、ワークステーションに展開することもできます。

Llama 2 を実行するには NVIDIA グラフィック カードも必要です。最も一般的なのは GeForce RTX 3090 で、24 GB のメモリを搭載し、4 ビット量子化 LLaMA 30B モデルを実行して、1 秒あたり約 4 ~ 10 トークンを処理できます。 Windows にインストールするには、次の手順に従います。

モデルをダウンロードするには、 Meta 公式サイトで情報を入力してキーを取得し、LLaMA GitHub ライブラリでプロジェクト ライブラリをクローンし、download.sh スクリプトを実行してキーを入力し、モデル ファイルを取得する必要があります。

変換モデルはtext-generation-webui メソッドを使用して展開されますが、形式が異なるため、最初に変換する必要があります。

text-generation-webui をビルドし、 Github で text-generation-webui プロジェクトのクローンを作成し、huggingface 形式のファイルをモデルに配置し、フォルダーに名前を付けると、デプロイは完了です。

このとき、Llama2 モデルと通信するには、コマンドラインから text-generation-webui を実行する必要があります。さらに text-generation-webui の API を使用して、YourChat クライアントで Llama 2 を実行できるようにすることもできます。

Llama 2 をローカルに展開することは、高速で会話が弾むチャットボットをデバイスにインストールするようなものです。確かに、Mac で Siri に話しかけることはできますが、適切な応答が得られない可能性があります。

しかし、Siriのようなバーチャルアシスタントとだけ比較するのはもったいないです! Mac 上の Siri はほとんど目立たず、携帯電話上の Siri もそれほど良くはありません。 Apple が過去 2 年間 Siri についてあまり言及していないことにお気づきですか?実は、ChatGPTの登場後、AppleがSiriに対して大きな動きを準備しているという噂が流れており、この「大きな動き」とはエンドサイドの大型モデルだ。

多くの携帯電話メーカーがエッジでのビッグモデルを模索していますが、少なくとも現段階では、専門的な分野のアプリケーションでは、携帯電話のエッジでのビッグモデルでワークステーションでの体験を再現することはまだ困難です。結局のところ、両者の計算能力と価格はあまりにも異なります。

ワークステーションは高価ですが、ワークステーションを使用して展開された大規模なモデルは、単純な会話以上の多くのことを行うことができます。災害対応、交通管理、医療相談などの分野でも使用できます。残念ながら、これらの大規模なモデルの展開には依然として一定の技術的障壁があります。起動もコマンド ラインから行う必要があります。関連する技術的背景を持たないユーザーにとっては、単に混乱した体験となります。現時点では、YourChat のような製品は一筋の光明のようなもので、グラフィカル ユーザー インターフェイスに慣れている一般の人々が「通常の」ウィンドウで Llama 2 と会話することを可能にします。

エッジサイドビッグモデルがますます注目されるようになると、今後はより便利な展開や使用方法が登場したり、AutodeskやAdobeなどのさまざまなソフトウェアに統合されて、ユーザーがより業務内容に集中できるようになると信じています。

将来、ワークステーション上の大型モデルがより専門的な分野で役割を果たすようになると、携帯電話に展開された「スリム化された」大型モデルは、まさに消費者向け製品のインテリジェントな中心となり、忘れ去られた Siri ではなくなるでしょう。

<<: 

>>:  光学行列乗算は人工知能をどう変えるのか

ブログ    
ブログ    

推薦する

...

...

危険な環境を恐れず、人工知能配信ネットワークライブ操作ロボットが重い責任を勇敢に引き受けます

現在、産業、農業、住民の電力消費は急速に増加しており、風力発電、水力発電などの電源が電力供給の主な手...

数学モデルが人間の視覚の秘密を解き明かす

人間の視覚はどのように発達するのでしょうか?今日に至るまで、それは謎のままです。脳の視覚系は、世界自...

FMI2017----人工知能とビッグデータが時代を力づける

2017年8月5日、ペガサスが主催する「FMI人工知能&ビッグデータサミットフォーラム」が北京国家会...

Facebookの新しいAIモデルは、英語以外の言語から英語以外の言語に直接翻訳できる

海外メディアの報道によると、機械翻訳技術は誕生以来長い道のりを歩んできた。 Google のような翻...

機械学習向けのテキスト注釈ツールとサービスのトップ 10: どれを選びますか?

[[347945]] [51CTO.com クイック翻訳] 現在、検索エンジンや感情分析から仮想ア...

動的ベンチマークDynabenchがリリースされました。Facebookは人間を使って人工知能を「尋問」したいと考えています

Facebook は、人工知能分野初の動的データ収集およびベンチマーク プラットフォームである Dy...

二重あごをなくすコツがある。浙江大学の2000年代生まれの大学生が、ACM SIGGRAPHで発表した新しい美容アルゴリズムを開発

ソーシャルネットワーク、ライブ放送、ショートビデオの普及に伴い、他人により良い印象を与えるために、顔...

ジェネレーティブAIがファッション業界にもたらす変化

業界ではデザインやスキンケアに AI 技術が活用されています。一部の企業は、生成ツールを超えて、コン...

一般相対性理論の予測に沿って、M87ブラックホールの最新の研究結果がネイチャー誌に掲載されました。

9月27日、ネイチャー誌は45の機関からなる国際科学研究チームの最新の研究成果を発表した。 200...

人工知能の安全で制御可能な開発について議論するために、AIセキュリティと産業ガバナンスフォーラムが正式に開催されました。

第四次科学技術革命をリードする戦略的技術として、人工知能は社会構築と経済発展に重大かつ広範囲な影響を...

フロントエンドでも機械学習を理解する必要があるパート2

[[376486]]前回の記事では機械学習の基礎知識について説明しました。この記事ではいくつかのア...

産業用ロボットの開発動向

産業用ロボットは、さまざまな産業用タスクを自動的に実行できる一種の機器として、製造、組み立て、梱包、...

Python コードを書くことができる人工知能 Kite が Linux のサポートを発表。プログラマーは職を失うことになるのでしょうか?

[[264788]]プログラマーが Python コードを書くという反復的な作業を軽減するのに役立...