2GBのDAYU200に大規模な言語モデルをローカルにデプロイする

2GBのDAYU200に大規模な言語モデルをローカルにデプロイする

実装のアイデアと手順

軽量 LLM モデル推論フレームワーク InferLLM を OpenHarmony 標準システムに移植し、OpenHarmony で実行できるバイナリ製品をコンパイルします。 (InferLLM は、量子化されたモデルを LLM にローカルに展開できるシンプルで効率的な LLM CPU 推論フレームワークです)

OpenHarmony NDK を使用して、OpenHarmony 上で InferLLM 実行可能ファイルをコンパイルします (具体的には、OpenHarmony lycium クロスコンパイル フレームワークを使用し、いくつかのスクリプトを記述します。次に、それらを tpc_c_cplusplusSIG リポジトリに保存します)。

DAYU200に大規模な言語モデルをローカルにデプロイする

InferLLM 3 パーティ ライブラリ コンパイル製品をコンパイルして取得する

OpenHarmony SDK をダウンロードするには、ダウンロード アドレス:

http://ci.openharmony.cn/workbench/cicd/dailybuild/dailyList

このリポジトリをダウンロードする

git clone https://gitee.com/openharmony-sig/tpc_c_cplusplus.git --depth=1
 # 设置环境变量export OHOS_SDK=解压目录/ohos-sdk/linux # 请替换为你自己的解压目录cd lycium ./build.sh InferLLM

InferLLM の 3 者ライブラリ ヘッダー ファイルと生成されたライブラリを取得します。

InferLLM-405d866e4c11b884a8072b4b30659c63555be41d ディレクトリは、コンパイルされた 32 ビットおよび 64 ビットのサードパーティ ライブラリを含む tpc_c_cplusplus/thirdparty/InferLLM/ ディレクトリに生成されます。 (関連するコンパイル結果は、lycium ディレクトリの下の usr ディレクトリにパッケージ化されません)。

 InferLLM-405d866e4c11b884a8072b4b30659c63555be41d/arm64-v8a-build InferLLM-405d866e4c11b884a8072b4b30659c63555be41d/armeabi-v7a-build

コンパイルされた製品ファイルとモデルファイルを開発ボードにプッシュして実行します。

  • モデルファイルのダウンロード: https://huggingface.co/kewin4933/InferLLM-Model/tree/main
  • InferLLMをコンパイルして生成されたllama実行ファイル、OpenHarmony SDKのlibc++_shared.so、およびダウンロードしたモデルファイルchinese-alpaca-7b-q4.binをフォルダllama_fileにパッケージ化します。
 # 将llama_file文件夹发送到开发板data目录hdc file send llama_file /data
 # hdc shell 进入开发板执行cd data/llama_file # 在2GB的dayu200上加swap交换空间# 新建一个空的ram_ohos文件touch ram_ohos # 创建一个用于交换空间的文件(8GB大小的交换文件) fallocate -l 8G /data/ram_ohos # 设置文件权限,以确保所有用户可以读写该文件: chmod 777 /data/ram_ohos # 将文件设置为交换空间: mkswap /data/ram_ohos # 启用交换空间: swapon /data/ram_ohos # 设置库搜索路径export LD_LIBRARY_PATH=/data/llama_file:$LD_LIBRARY_PATH # 提升rk3568cpu频率# 查看CPU 频率cat /sys/devices/system/cpu/cpu*/cpufreq/cpuinfo_cur_freq # 查看CPU 可用频率(不同平台显示的可用频率会有所不同) cat /sys/devices/system/cpu/cpufreq/policy0/scaling_available_frequencies # 将CPU 调频模式切换为用户空间模式,这意味着用户程序可以手动控制CPU 的工作频率,而不是由系统自动管理。这样可以提供更大的灵活性和定制性,但需要注意合理调整频率以保持系统稳定性和性能。 echo userspace > /sys/devices/system/cpu/cpufreq/policy0/scaling_governor # 设置rk3568 CPU 频率为1.9GHz echo 1992000 > /sys/devices/system/cpu/cpufreq/policy0/scaling_setspeed # 执行大语言模型chmod 777 llama ./llama -m chinese-alpaca-7b-q4.bin -t 4

InferLLM 三部ライブラリを移植して、OpenHarmmony デバイス rk3568 に大規模な言語モデルを展開し、人間とコンピューターの対話を実現します。最終的な実行効果は少し遅く、人間とコンピューターのダイアログボックスが少しゆっくりとポップアップするので、しばらくお待ちください。

<<:  GPT-4/Llama2のパフォーマンスを大幅に向上させるためにRLHFは必要ない、北京大学のチームはAlignerの新しいアライメントパラダイムを提案

>>:  OccNeRF: LIDARデータの監視は不要

ブログ    
ブログ    
ブログ    

推薦する

AIOps の実装を公開! 3 人の WOT エキスパートが AIOps を実現する方法をご覧ください

[51CTO.comよりオリジナル記事] 6月21日、WOT2019グローバル人工知能技術サミットが...

ビジネスを阻害する 6 つの AI 神話

AI テクノロジーは職場環境に深く浸透しており、単調で反復的な手作業を置き換えるだけでなく、他の仕事...

生成された分子は、逆分子設計の誘導拡散モデリングに対してほぼ100%有効です。

「デノボ分子設計」は材料科学の「聖杯」です。生成的ディープラーニングの導入により、この方向は大きく...

...

...

次世代人工知能の開発方向(第2部)

[[349523]]人工知能は半世紀以上前から存在していますが、人工知能の分野は過去 10 年間で...

AIシステムが初めて自律プログラミングを実現し、初心者プログラマーを上回る成果を達成!

AI による自動プログラミングを可能にすることは、人工知能分野における長年の夢の 1 つです。現在...

...

Googleは社内でAIを使ったコンピュータチップの開発を試みていることを明らかに

グーグルの人工知能研究責任者ジェフ・ディーン氏によると、同社は人工知能プログラムを搭載したソフトウェ...

AIがデータセンターのワークロード管理の課題を解決

データセンターのワークロードが急増するにつれ、効率性の向上と経費削減を図りながら IT チームの管理...

...

百度がスマートシティ向け「ACE計画」を発表、ロビン・リーはAI思考でインターネット思考に打ち勝ちたい

11月1日、北京で百度世界博覧会2018が開幕した。百度の創業者で会長兼CEOの李克強(ロビン・リー...

ディープラーニングを専門家以外の人に説明するにはどうすればよいでしょうか?

昨年から、AIの普及に関わる仕事がたくさん必要になりました。私は長い間、ディープラーニングがなぜ特に...

Baidu Brainの生体検知+合成画像識別、顔の「写真活性化」ブラックマーケット攻撃を1秒で捉える

現在、顔認識技術の成熟度が増すにつれ、特にDeepFakeやFaceSwapなどの顔編集・生成技術の...

...