2GBのDAYU200に大規模な言語モデルをローカルにデプロイする

2GBのDAYU200に大規模な言語モデルをローカルにデプロイする

実装のアイデアと手順

軽量 LLM モデル推論フレームワーク InferLLM を OpenHarmony 標準システムに移植し、OpenHarmony で実行できるバイナリ製品をコンパイルします。 (InferLLM は、量子化されたモデルを LLM にローカルに展開できるシンプルで効率的な LLM CPU 推論フレームワークです)

OpenHarmony NDK を使用して、OpenHarmony 上で InferLLM 実行可能ファイルをコンパイルします (具体的には、OpenHarmony lycium クロスコンパイル フレームワークを使用し、いくつかのスクリプトを記述します。次に、それらを tpc_c_cplusplusSIG リポジトリに保存します)。

DAYU200に大規模な言語モデルをローカルにデプロイする

InferLLM 3 パーティ ライブラリ コンパイル製品をコンパイルして取得する

OpenHarmony SDK をダウンロードするには、ダウンロード アドレス:

http://ci.openharmony.cn/workbench/cicd/dailybuild/dailyList

このリポジトリをダウンロードする

git clone https://gitee.com/openharmony-sig/tpc_c_cplusplus.git --depth=1
 # 设置环境变量export OHOS_SDK=解压目录/ohos-sdk/linux # 请替换为你自己的解压目录cd lycium ./build.sh InferLLM

InferLLM の 3 者ライブラリ ヘッダー ファイルと生成されたライブラリを取得します。

InferLLM-405d866e4c11b884a8072b4b30659c63555be41d ディレクトリは、コンパイルされた 32 ビットおよび 64 ビットのサードパーティ ライブラリを含む tpc_c_cplusplus/thirdparty/InferLLM/ ディレクトリに生成されます。 (関連するコンパイル結果は、lycium ディレクトリの下の usr ディレクトリにパッケージ化されません)。

 InferLLM-405d866e4c11b884a8072b4b30659c63555be41d/arm64-v8a-build InferLLM-405d866e4c11b884a8072b4b30659c63555be41d/armeabi-v7a-build

コンパイルされた製品ファイルとモデルファイルを開発ボードにプッシュして実行します。

  • モデルファイルのダウンロード: https://huggingface.co/kewin4933/InferLLM-Model/tree/main
  • InferLLMをコンパイルして生成されたllama実行ファイル、OpenHarmony SDKのlibc++_shared.so、およびダウンロードしたモデルファイルchinese-alpaca-7b-q4.binをフォルダllama_fileにパッケージ化します。
 # 将llama_file文件夹发送到开发板data目录hdc file send llama_file /data
 # hdc shell 进入开发板执行cd data/llama_file # 在2GB的dayu200上加swap交换空间# 新建一个空的ram_ohos文件touch ram_ohos # 创建一个用于交换空间的文件(8GB大小的交换文件) fallocate -l 8G /data/ram_ohos # 设置文件权限,以确保所有用户可以读写该文件: chmod 777 /data/ram_ohos # 将文件设置为交换空间: mkswap /data/ram_ohos # 启用交换空间: swapon /data/ram_ohos # 设置库搜索路径export LD_LIBRARY_PATH=/data/llama_file:$LD_LIBRARY_PATH # 提升rk3568cpu频率# 查看CPU 频率cat /sys/devices/system/cpu/cpu*/cpufreq/cpuinfo_cur_freq # 查看CPU 可用频率(不同平台显示的可用频率会有所不同) cat /sys/devices/system/cpu/cpufreq/policy0/scaling_available_frequencies # 将CPU 调频模式切换为用户空间模式,这意味着用户程序可以手动控制CPU 的工作频率,而不是由系统自动管理。这样可以提供更大的灵活性和定制性,但需要注意合理调整频率以保持系统稳定性和性能。 echo userspace > /sys/devices/system/cpu/cpufreq/policy0/scaling_governor # 设置rk3568 CPU 频率为1.9GHz echo 1992000 > /sys/devices/system/cpu/cpufreq/policy0/scaling_setspeed # 执行大语言模型chmod 777 llama ./llama -m chinese-alpaca-7b-q4.bin -t 4

InferLLM 三部ライブラリを移植して、OpenHarmmony デバイス rk3568 に大規模な言語モデルを展開し、人間とコンピューターの対話を実現します。最終的な実行効果は少し遅く、人間とコンピューターのダイアログボックスが少しゆっくりとポップアップするので、しばらくお待ちください。

<<:  GPT-4/Llama2のパフォーマンスを大幅に向上させるためにRLHFは必要ない、北京大学のチームはAlignerの新しいアライメントパラダイムを提案

>>:  OccNeRF: LIDARデータの監視は不要

ブログ    
ブログ    

推薦する

人工知能、ブロックチェーン技術などが医療分野を改善している

ヘルスケア業界の成長は驚異的ですが、欠点がないわけではありません。医師や研究者は、一般的な病気や珍し...

運輸省:2025年までに自動運転技術の産業化を推進

道路交通自動運転技術の開発と応用の促進に関する運輸省の指導意見:道路交通の自動運転技術の開発と応用を...

機械にプライバシーを学習させることはできるでしょうか?

機械学習では、モデルをトレーニングするために大量のデータが必要であり、通常、このトレーニング データ...

米国商務省が複数の中国企業をブラックリストに載せた後、MITは中国とのAI協力プロジェクトの検討を開始した。

[[278589]]北京時間10月8日、米国商務省はハイクビジョン、メグビーテクノロジー、センスタ...

...

Google ナレッジグラフ プロダクト マネージャーへのインタビュー: 探検するために生まれた

Google は最近、検索ページの新しい機能である Google ナレッジグラフをリリースしました。...

音声によるやりとりをより自然にするにはどうすればよいでしょうか?まずはこれら 6 つの重要な知識ポイントをマスターしましょう。

最近、ロボットに関する非常に良い記事をいくつか読んだので、自分の考えを書き留めながら翻訳してみようと...

...

テンセントは顔認識技術を使って未成年者への薬物依存防止規制を強化

米国のメディアによると、子供や十代の若者はビデオゲームに関するほぼすべての制限に対処する方法を見つけ...

GPT-4.5がリーク、3Dビデオをサポート、価格は6倍に上昇?ウルトラマンが自ら反応

GPT 4.5 に重大なリークの疑い: 1 つは、新しいモデルには新しいマルチモーダル機能が搭載され...

...

世界の自動運転「M&A」を4大勢力が攻勢

偉大な将軍の名声の裏には、数え切れないほどの兵士たちの援助がある。この声明は自動運転の分野にも当ては...

この記事では、インテリジェントな注釈の原理について説明します。人工知能が注釈の問題を解決する方法を学びます。

従来の機械学習の分野でも、今日注目されているディープラーニングの分野でも、明確なラベルや結果を持つト...

...

人工知能の時代では、次の7つの重要な要素を念頭に置く必要があります

政府は、他の経済的、社会的進歩と同様に、AI とデータの競争力を重視すべきです。研究への投資や技術リ...