Hugging FaceはLLM向けの新しいGitHubです

Hugging FaceはLLM向けの新しいGitHubです

翻訳者 |李睿

レビュー | Chonglou

大規模言語モデル(LLM)は近年テクノロジー業界に旋風を巻き起こし、新たなイノベーションの領域を開拓し、検索から顧客サービスまであらゆるものに革命をもたらしています。この AI 革命を支えているのは、 GitHubHugging Faceなどのオープン エコシステムであり、開発者や企業はこれらを活用してLLM を迅速に構築、展開、拡張することができます GitHub がソフトウェア開発とコラボレーションのプラットフォームとして定着したのと同様に、 Hugging FaceLLM関連のあらゆるものの事実上のハブになりつつあります

大規模言語モデルの台頭

GPT-3 BERT PaLMなどのLLM は、人間のようなテキストを生成し、質問に答え、文書を要約し、さらには単純なテキストプロンプトに基づいてコードを記述する機能を備えており技術コミュニティが想像力を働かせることを可能にしています。マッキンゼー・アンド・カンパニーが発表した調査レポートによると、 LLMに重点を置く自然言語処理のスタートアップへの投資は、 2020年の1ドルから2021年には15億ドル以上急増した

この関心の高まりは、さまざまな AI の課題に対処するLLM の汎用性に起因しています。たとえば、 OpenAIChatGPT は会話タスクに優れており、 Cohereの生成的自然言語処理APIなどのツールはテキストを要約したりコンテンツをモデレートしたりできます。 LLM は、インテリジェント検索から自動化された顧客サポートまで、あらゆる分野の進歩を推進し、企業の運営方法を変えています

マッキンゼー・アンド・カンパニーは 2025年までにLLMが米国経済に年間2,000億ドルから3,000億ドルの経済価値を生み出すと予測しています。 Google、 Meta 、Microsoftなどのアメリカのテクノロジー大手や新興企業は、 LLMの可能性を活用するために競争している。しかし、 LLMの構築、展開、反復には、特殊なインフラストラクチャとツールが必要です。

ソフトウェアコラボレーションにおけるGitHubの重要な役割

LLMハブとしてのHugging Faceの重要性が高まっている理由を理解するにはGitHub がソフトウェア開発で果たす重要な役割を理解することが役立ちます。 2008 年開始されたGitHub はバージョン管理とソース コード管理のためのオープン ソースGitプロトコルの先駆者です

現在、 GitHub に2億を超えるコード リポジトリと8,300万人を超える開発者がいます。開発者に共同作業、コードのレビュー、問題の追跡、ソフトウェアのリリースを行うツールを提供します。 2018 年に Microsoft がGitHub75ドル買収したことからもわかるようにGitHub はソフトウェア チームの運営に不可欠なものとなっています

2021年のStackOverflowの調査によると開発者の90%以上がGitHubを使用しています。このプラットフォームのソーシャル コーディング機能は、ソフトウェア開発における障壁を打ち破ります。開発者はオープンソース プロジェクトを活用してビルドを高速化できます。また、企業はGitHubのエンタープライズ製品を使用してコーディングワークフローを効率化しています。 GitHub は開発者文化に深く根ざしており、ソフトウェア コミュニティがコードを作成、拡張、展開する方法を形作っています。

Hugging FaceLLMの推奨プラットフォーム

GitHub がオープンソース開発を推進したの同様に、 Hugging FaceLLMのオープン エコシステム アプローチを先導していますHugging Face2016 年に設立され、当初は自然言語処理に重点を置いていました。 2020 年にはLLMに目を向けさまざまなLLMアーキテクチャ( BERTGPT-2など) を標準化されたAPI統合するTransformerライブラリを作成しました。

このライブラリは、LLM の操作の複雑さを抽象化することで、 LLMへのアクセスを民主化します現在、 Hugging Face は20 万人を超えるユーザーを抱える活気あるコミュニティとなっています主な製品は次のとおりです。

  • モデル センター: OpenAICLIPSalesforceBLENDERなどのLLMを含む100,000を超えるAI モデルのリポジトリ LLMを使用するための敷居を下げます
  • タガー: LLMテキストのタグ付けとエンコードを行うための事前トレーニング済みモデル。データの前処理は非常に重要です。
  • データセット: LLM のトレーニングと評価用に慎重にキュレーションされたデータセット
  • Spaces : LLMを利用したアプリケーションをデプロイ、監視、スケーリングするためのMLOpsプラットフォーム
  • Infinite :自然言語クエリに対する回答を生成するためGPTモデルに基づく Wiki スタイルのデータセット

このツール セットは、検出から展開までのLLM開発ライフサイクル全体に対応します。 Hugging Face はStreamlightなどのプラットフォームとの統合も構築しており、ノーコードLLMの実験を可能にしています

ハギング・フェイスはその人気の高まりを反映して、これまでに1億ドルの資金を調達しています。昨年、ハギング・フェイス評価額は5倍の20億ドルに増加した。世界トップクラスの人工知能研究所や企業もHugging Faceに取り組んでいます

LLM の GitHub

Hugging Face のモデル、データセット、開発者ツールの巨大なハブは、「 LLM GitHub 」というニックネームを得ています。そのモデル センターは、 LLM働きたい人にとって出発点となります。開発者はMeta AIOPT-175Bなどのモデルの最適化された実装を同社の Web サイト見つけることができます。

その後、 Hugging FaceTransformersライブラリを通じてこれらのモデルにシームレスにアクセスできるようになります。これにより、高度なLLM を使用するためのハードルが大幅に下がり企業は独自のLLM をゼロから構築する必要がなくなります代わりに、 Hugging Face の事前構築されたLLMを取得し、検索や分析などの分野でのカスタムユースケースに合わせて微調整することができます

Spaces はLLMアプリケーションの共同構築、テスト、および展開をサポートします Hugging Faceのオープンデータセットと活発なコミュニティフォーラムと組み合わせることでLLM向けにカスタマイズされたGitHub のオープンソース精神の中核要素を再現します。

米国の大手テクノロジー企業の機械学習エンジニアであるレオ・ザオ氏は、 Hugging Face の LLMワークフローへの統合について次のようにまとめています。「新しいプロジェクトでLLM が必要なときはいつでもまずHugging Faceに頼ります同社のモデル センターには、選択できるオプションが山ほどあります。数行のコードで、すぐにラベルを付けてモデルにデータを供給できます。Spaces を使用するGPUクラスターでモデル トレーニングを簡単に拡張できます。LLM関連するすべてのものをワンストップで提供できるプラットフォームです。

GitHub の例えは、Hugging Face が LLM を中心に協力的なコミュニティを育成する方法にも当てはまります。その技術フォーラムは、何万人もの LLM 開発者とユーザーにとって重要な知識とサポートの源となっています。 Hugging Face は、人気の LLM カンファレンスを通じてこのコミュニティをさらに育成し、最新の進歩へのアクセスを民主化しています。

LLM導入の課題を克服する

Hugging Face は、企業がLLM導入における主要な障壁を克服する上で役立つことが証明されていますMcKinsey & Companyが実施した調査によると、企業がLLM直面する最大の課題は、価値を評価し、ユースケースを特定することです。 Hugging Face は、幅広いLLM選択と推奨される微調整データセットを一元管理することで、この問題を軽減します。

さらに、 LLM を本番環境に導入すると、複雑なデータとインフラストラクチャの問題が発生します。 Hugging Faceのエンドツーエンドのプラットフォームは、モデルへのアクセスから展開まで、企業のこうした障害を取り除きます。

LLM を大規模に構築および運用するために必要な財務投資も、 LLMの導入を妨げています Hugging Face は、簡単にアクセスできる事前トレーニング済みモデルを提供することでコストを削減します。 Space は、サーバーレス アーキテクチャと、 TPUなどのスケーラブルなクラウドコンピューティングハードウェアサポートを通じて、支出をさらに最適化します。これにより、小規模なチームやスタートアップでも大規模なLLM実験が可能になります。

LLMで未来を変える

今後、ハギングフェイスはLLMの拠点として成長を続けていくと思われます。そのコミュニティは、人気の AI フォーラムを上回っています。ますます多くの開発者や企業が、生産パイプラインでTransformersライブラリやTokenizerなどのツールに依存しています

LLM は、マーケティング、販売、財務などの分野で根本的な変化を推進します。マッキンゼー・アンド・カンパニーはLLMによって現在の業務活動の30% 45%自動化され大きな社会的影響が生まれると見積もっていますLLM にとってのイノベーションの障壁を下げるHugging Faceのようなプラットフォームは、LLM の変革の可能性を実現する上で中心的な役割を果たすでしょう。

GitHub がソフトウェア エンジニアリングを加速させたの同様に、 Hugging Face は開発者や企業がLLMのパワーをより迅速かつ効率的に活用できるようにします成長するLLM主導の経済にとって Hugging Face は未来への入り口となります。その包括的なプラットフォームは、新しい市場を活性化し、人間と AI の大規模なコラボレーションを可能にし、技術進歩次の時代を先導することができます

原題: Hugging Face は LLM 向けの新しい GitHub です、著者: Arvind Bhardwaj

<<:  計算負荷の少ない BEV モデルのパフォーマンスを向上させるにはどうすればよいでしょうか?おそらく DistillBEV が答えでしょう!

>>:  AIから本当に恩恵を受けるのは誰でしょうか?

ブログ    

推薦する

Red Hat は Ansible の自動化に IBM Watsonx コード生成を採用

Red Hat Inc. は本日、情報技術自動化のための生成 AI サービスである IBM Wats...

レポート:データセンターは人工知能を生成するサーバーを冷却するために大量の水を消費している

ChatGPT のような生成 AI モデルが大量のエネルギーを消費することはよく知られていますが、そ...

...

AI 株神: 機械学習を使って株価を予測するには?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

「中国版ダヴィンチ」ロボットが人気!ブドウの皮を縫うだけでなく、このような創造的な作業もあります

ブドウを縫うことができる DIY ロボットアームを作りますか? [[428703]]最近、有名な「ハ...

インテリジェントビル通信システムの構成と要件

ハイテクの継続的な発展に伴い、インテリジェントビル通信システムの構成は絶えず変化し、要件は絶えず増加...

GPT-4 ワイルドスポークスマン Terence Tao: 新しい文学ツールは、それがなければ崩壊してしまいます! 11ページの「超短編」新作がオンラインになりました

テレンス・タオはGPT-4をどれくらい愛しているのでしょうか?今回、論文を書いたり研究をするときだけ...

2020年エンタープライズ機械学習市場レポート:7つの調査結果

[[285635]] [51CTO.com クイック翻訳] Algorithmia が最近発表したレ...

Linux の割り込み処理メカニズムを使用してシステムパフォーマンスを向上させる

Linux 割り込み処理メカニズムを使用すると、システム パフォーマンスが大幅に向上します。割り込み...

ヤン・ニン氏の新しい論文が突然ネイチャーのサブジャーナルに掲載された: 構造はAIの手の届かないところにある

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

...