実行に少量の計算リソースとメモリリソースしか必要としないSmall Llama大規模モデル

実行に少量の計算リソースとメモリリソースしか必要としないSmall Llama大規模モデル

背景

今日のデータ爆発の時代では、言語モデルのトレーニングはますます複雑かつ困難になっています。効率的な言語モデルをトレーニングするには、膨大なコンピューティングリソースと時間が必要です。しかし、これは多くの人にとって現実的ではありません。同時に、特にエッジデバイス上で、限られたメモリとコンピューティングリソースで大規模な言語モデルをどのように使用するかという課題にも直面しています。

今日は、GitHub のオープンソースプロジェクト jzhang38/TinyLlama をお勧めしたいと思います。このプロジェクトは、GitHub で 4.3k を超えるスターを獲得しています。このプロジェクトは、1 文で紹介できます。「TinyLlama プロジェクトは、3 兆個のトークンで 11 億個の Llama モデルを事前トレーニングするオープンな取り組みです。」

プロジェクト紹介

TinyLlama は、3 兆個のトークンで 11 億個の Llama モデルを事前トレーニングすることを目指しています。適切な最適化により、16 個の A100-40G GPU を使用してわずか 90 日でこの目標を達成することができました。このプロジェクトは、Llama 2 とまったく同じアーキテクチャとトークナイザーを使用しているため、TinyLlama をプラグインして、多くのオープンソースの Llama ベースのプロジェクトに使用することができます。さらに、TinyLlama はパラメータが 11 億個しかないため、非常にコンパクトです。このコンパクトさにより、計算とメモリのフットプリントを制限する必要がある多くのアプリケーションに適しています。

使い方

モデルを直接ダウンロードして使用することも、huggingface を通じてデモを使用することもできます。

ご自身でトレーニングをご希望の場合は、以下のトレーニング詳細をご参照ください。

プロジェクト推進

TinyLlama は、いくつかの重大な問題を積極的に解決しており、オープンソースコミュニティで大きな注目を集めている、エキサイティングなオープンソースプロジェクトです。

以下は、プロジェクトのスタートレンドチャートです（プロジェクトのアクティビティを表します）。

プロジェクトの詳細については、以下のリンクをご覧ください。

オープンソースプロジェクトのアドレス: https://github.com/jzhang38/TinyLlama

オープンソースプロジェクト作成者: jzhang38

プロジェクト構築に関わるメンバーは以下の通りです。

<<: 人工知能が診断ツールをどのように変えるのか

>>: 見事な！！！テスラのエンドツーエンドのデモンストレーションビデオ分析

ブログ

AIが旅行業界に浸透し、ロボットが次の休暇を計画するようになる

AIが旅行業界に浸透し、ロボットが次の休暇を計画するようになる

ブログ

異常検出のためのいくつかのグラフ分割アルゴリズム

異常検出のためのいくつかのグラフ分割アルゴリズム

ブログ

ニューラルネットワークの詳細な説明、順方向伝播と逆方向伝播

ニューラルネットワークの詳細な説明、順方向伝播と逆方向伝播

ブログ

AIの使用後、機械は人間の皮膚に匹敵する触覚を持つ丨科学サブジャーナル

AIの使用後、機械は人間の皮膚に匹敵する触覚を持つ丨科学サブジャーナル

ブログ

人工知能と機械学習はエンタープライズアーキテクチャの一部となっている

人工知能と機械学習はエンタープライズアーキテクチャの一部となっている

ブログ

人工知能、ディープラーニング、マシンビジョン、理解すべき概念

人工知能、ディープラーニング、マシンビジョン、理解すべき概念

ブログ

日常の問題を自動的に解決する 5 つの AI API

日常の問題を自動的に解決する 5 つの AI API

ブログ

LSTMに匹敵するTransformerは機械学習界に火をつけました。それは万能です。

LSTMに匹敵するTransformerは機械学習界に火をつけました。それは万能です。

ブログ

OpenAI の共同創設者 Karpathy が記事「自動運転による AGI の解釈」を公開しました。元の投稿は削除されました。保存済み

OpenAI の共同創設者 Karpathy が記事「自動運転による AGI の解釈」を公開しました。元の投稿は削除されました。保存済み

ブログ

推薦する

PyTorch モデルのトレーニングを高速化するための 9 つのヒント!

[[353240]]ニューラルネットワークをこのようにしないでください正直に言えば、あなたのモデル...

百人一首の戦いはかつてないレベルに到達！

執筆者 | 王瑞平校正 | Yun Zhao最近また「100均戦争」が始まってます…一輪の花が春を...

ビッグデータの時代に、「アルゴリズム崇拝」に陥らないためにはどうすればいいのでしょうか?

「データ」は今日、これほど広く注目されたことはありません。以前は、携帯電話番号などの情報を何気なく...

人工知能技術は将来のネットワークセキュリティの起爆点と原動力となるかもしれない

Markets and Marketsの人工知能サイバーセキュリティ予測レポートによると、AIサイバ...

...

なぜAIは東京オリンピックでバレーボールの試合を無料で観戦できるのか？

[[416801]]ビッグデータダイジェスト制作出典: Wired 8月8日の夜、第32回夏季オリ...

ビジネスでAIと自動化を活用する方法

業界の専門家が AI と自動化のベストプラクティスについて議論し、企業がこれらの重要な新興テクノロジ...

「有害な」データを食べると、大きなモデルはより従順になります。 HKUSTとHuaweiのノアの箱舟ラボより

今では、このビッグモデルもその失敗から学んでいます。香港科技大学とファーウェイ・ノアの箱舟研究所によ...

ロボティックプロセスオートメーションの 10 の秘密

[[394728]] [51CTO.com クイック翻訳]すべての優れた SF ストーリーには、ロボ...

Google が 3,300 万ドルを投じて 5 年間の脳プロジェクトを開始!マウスの脳の2～3%をマッピング、エベレスト山とほぼ同じデータ量

人間の脳は、数十億個の細胞のネットワークで構成された、存在する最も複雑なコンピューターです。これまで...

動的プログラミングアルゴリズムのルーチンをマスターするにはどうすればいいですか?

[[358211]] DP と呼ばれる動的プログラミングは、非常に洗練された複雑なアルゴリズムとい...

ディープラーニングと機械学習の違いを理解する

機械学習とディープラーニングの違いは何だろうとよく疑問に思う方は、この記事を読んで、その違いを一般の...

同レベルの7Bモデルを上回る！中国のチームが大規模で高品質な画像とテキストのデータセットShareGPT4Vをオープンソース化し、マルチモーダルのパフォーマンスを大幅に向上させた。

OpenAI は 9 月に ChatGPT に画像入力機能を追加し、ユーザーが会話に添える 1 つ...

技術者がAIを活用してキャリアを守る方法

「自動化」や「人工知能（AI）」などの「技術革新」がビジネスや仕事の本質を変えていることは間違いあり...

データコレクターでリアルタイム機械学習に TensorFlow を使用する方法

【51CTO.com クイック翻訳】ビジネスユーザーとアプリケーションがさまざまなソースからの生デ...