2GBのDAYU200に大規模な言語モデルをローカルにデプロイする

2GBのDAYU200に大規模な言語モデルをローカルにデプロイする

実装のアイデアと手順

軽量 LLM モデル推論フレームワーク InferLLM を OpenHarmony 標準システムに移植し、OpenHarmony で実行できるバイナリ製品をコンパイルします。 (InferLLM は、量子化されたモデルを LLM にローカルに展開できるシンプルで効率的な LLM CPU 推論フレームワークです)

OpenHarmony NDK を使用して、OpenHarmony 上で InferLLM 実行可能ファイルをコンパイルします (具体的には、OpenHarmony lycium クロスコンパイル フレームワークを使用し、いくつかのスクリプトを記述します。次に、それらを tpc_c_cplusplusSIG リポジトリに保存します)。

DAYU200に大規模な言語モデルをローカルにデプロイする

InferLLM 3 パーティ ライブラリ コンパイル製品をコンパイルして取得する

OpenHarmony SDK をダウンロードするには、ダウンロード アドレス:

http://ci.openharmony.cn/workbench/cicd/dailybuild/dailyList

このリポジトリをダウンロードする

git clone https://gitee.com/openharmony-sig/tpc_c_cplusplus.git --depth=1
 # 设置环境变量export OHOS_SDK=解压目录/ohos-sdk/linux # 请替换为你自己的解压目录cd lycium ./build.sh InferLLM

InferLLM の 3 者ライブラリ ヘッダー ファイルと生成されたライブラリを取得します。

InferLLM-405d866e4c11b884a8072b4b30659c63555be41d ディレクトリは、コンパイルされた 32 ビットおよび 64 ビットのサードパーティ ライブラリを含む tpc_c_cplusplus/thirdparty/InferLLM/ ディレクトリに生成されます。 (関連するコンパイル結果は、lycium ディレクトリの下の usr ディレクトリにパッケージ化されません)。

 InferLLM-405d866e4c11b884a8072b4b30659c63555be41d/arm64-v8a-build InferLLM-405d866e4c11b884a8072b4b30659c63555be41d/armeabi-v7a-build

コンパイルされた製品ファイルとモデルファイルを開発ボードにプッシュして実行します。

  • モデルファイルのダウンロード: https://huggingface.co/kewin4933/InferLLM-Model/tree/main
  • InferLLMをコンパイルして生成されたllama実行ファイル、OpenHarmony SDKのlibc++_shared.so、およびダウンロードしたモデルファイルchinese-alpaca-7b-q4.binをフォルダllama_fileにパッケージ化します。
 # 将llama_file文件夹发送到开发板data目录hdc file send llama_file /data
 # hdc shell 进入开发板执行cd data/llama_file # 在2GB的dayu200上加swap交换空间# 新建一个空的ram_ohos文件touch ram_ohos # 创建一个用于交换空间的文件(8GB大小的交换文件) fallocate -l 8G /data/ram_ohos # 设置文件权限,以确保所有用户可以读写该文件: chmod 777 /data/ram_ohos # 将文件设置为交换空间: mkswap /data/ram_ohos # 启用交换空间: swapon /data/ram_ohos # 设置库搜索路径export LD_LIBRARY_PATH=/data/llama_file:$LD_LIBRARY_PATH # 提升rk3568cpu频率# 查看CPU 频率cat /sys/devices/system/cpu/cpu*/cpufreq/cpuinfo_cur_freq # 查看CPU 可用频率(不同平台显示的可用频率会有所不同) cat /sys/devices/system/cpu/cpufreq/policy0/scaling_available_frequencies # 将CPU 调频模式切换为用户空间模式,这意味着用户程序可以手动控制CPU 的工作频率,而不是由系统自动管理。这样可以提供更大的灵活性和定制性,但需要注意合理调整频率以保持系统稳定性和性能。 echo userspace > /sys/devices/system/cpu/cpufreq/policy0/scaling_governor # 设置rk3568 CPU 频率为1.9GHz echo 1992000 > /sys/devices/system/cpu/cpufreq/policy0/scaling_setspeed # 执行大语言模型chmod 777 llama ./llama -m chinese-alpaca-7b-q4.bin -t 4

InferLLM 三部ライブラリを移植して、OpenHarmmony デバイス rk3568 に大規模な言語モデルを展開し、人間とコンピューターの対話を実現します。最終的な実行効果は少し遅く、人間とコンピューターのダイアログボックスが少しゆっくりとポップアップするので、しばらくお待ちください。

<<:  GPT-4/Llama2のパフォーマンスを大幅に向上させるためにRLHFは必要ない、北京大学のチームはAlignerの新しいアライメントパラダイムを提案

>>:  OccNeRF: LIDARデータの監視は不要

ブログ    

推薦する

...

マスク氏のAIスタートアップxAIは社会への影響を優先する特別な構造を採用

12月27日、テスラのCEOイーロン・マスク氏が新たに設立したAIスタートアップ企業xAIは、競合他...

インドは、大規模言語モデルの開発を強化するためにAI分野に1037億ルピーの投資を発表した。

インド政府は3月8日、「インドにAIを根付かせる」と「AIをインドのために役立てる」という2大目標の...

このレビューでは、5年間にわたる89の研究を数え、ディープラーニングにおけるコードデータ拡張がどのように進んでいるかを示しています。

今日のディープラーニングと大規模モデルの急速な発展により、革新的なテクノロジーの絶え間ない追求がもた...

IoTとAIがキャッシュレス小売業をどう推進するか

Amazon Go ストアのオープンは、私たちの買い物方法に大きな変化をもたらします。私たちは初め...

並列コンピューティングの量子化モデルとディープラーニングエンジンへの応用

この世で唯一負けない武術はスピードだ。ディープラーニング モデルをより速くトレーニングする方法は、常...

自然言語処理パート1: テキスト分類器

[[194511]]序文テキスト分類は、自動記事分類、自動メール分類、スパム識別、ユーザー感情分類な...

従来のモデルに別れを告げて、機械学習がディープラーニングへとどのように移行していくのかを見てみましょう。

[[203224]]概要: 従来のモデルに別れを告げましょう。テクノロジー企業が機械学習に取り組む...

Pytorchの核心部分である自動微分化を突破! !

こんにちは、Xiaozhuangです! PyTorch での自動微分演算に関して、この論文では Py...

...

人工知能市場の需要と応用

「人工知能」は3年連続で政府活動報告に盛り込まれており、2019年にはビッグデータ、人工知能などの研...

運営:申し訳ありませんが、当社は責任を負いかねます

[51CTO.com より引用] 運用保守というと、多くの人が無意識のうちに運用保守担当者を「スケー...

...

手術ロボットには依然としてリスクがあり、人工知能技術の応用は成熟する必要がある

外科用ロボット、人工知能心理学者、そして一連の「人工知能+」プロジェクト技術の統合が医療分野に急速に...