Hugging FaceはLLM向けの新しいGitHubです

Hugging FaceはLLM向けの新しいGitHubです

翻訳者 |李睿

レビュー | Chonglou

大規模言語モデル(LLM)は近年テクノロジー業界に旋風を巻き起こし、新たなイノベーションの領域を開拓し、検索から顧客サービスまであらゆるものに革命をもたらしています。この AI 革命を支えているのは、 GitHubHugging Faceなどのオープン エコシステムであり、開発者や企業はこれらを活用してLLM を迅速に構築、展開、拡張することができます GitHub がソフトウェア開発とコラボレーションのプラットフォームとして定着したのと同様に、 Hugging FaceLLM関連のあらゆるものの事実上のハブになりつつあります

大規模言語モデルの台頭

GPT-3 BERT PaLMなどのLLM は、人間のようなテキストを生成し、質問に答え、文書を要約し、さらには単純なテキストプロンプトに基づいてコードを記述する機能を備えており技術コミュニティが想像力を働かせることを可能にしています。マッキンゼー・アンド・カンパニーが発表した調査レポートによると、 LLMに重点を置く自然言語処理のスタートアップへの投資は、 2020年の1ドルから2021年には15億ドル以上急増した

この関心の高まりは、さまざまな AI の課題に対処するLLM の汎用性に起因しています。たとえば、 OpenAIChatGPT は会話タスクに優れており、 Cohereの生成的自然言語処理APIなどのツールはテキストを要約したりコンテンツをモデレートしたりできます。 LLM は、インテリジェント検索から自動化された顧客サポートまで、あらゆる分野の進歩を推進し、企業の運営方法を変えています

マッキンゼー・アンド・カンパニーは 2025年までにLLMが米国経済に年間2,000億ドルから3,000億ドルの経済価値を生み出すと予測しています。 Google、 Meta 、Microsoftなどのアメリカのテクノロジー大手や新興企業は、 LLMの可能性を活用するために競争している。しかし、 LLMの構築、展開、反復には、特殊なインフラストラクチャとツールが必要です。

ソフトウェアコラボレーションにおけるGitHubの重要な役割

LLMハブとしてのHugging Faceの重要性が高まっている理由を理解するにはGitHub がソフトウェア開発で果たす重要な役割を理解することが役立ちます。 2008 年開始されたGitHub はバージョン管理とソース コード管理のためのオープン ソースGitプロトコルの先駆者です

現在、 GitHub に2億を超えるコード リポジトリと8,300万人を超える開発者がいます。開発者に共同作業、コードのレビュー、問題の追跡、ソフトウェアのリリースを行うツールを提供します。 2018 年に Microsoft がGitHub75ドル買収したことからもわかるようにGitHub はソフトウェア チームの運営に不可欠なものとなっています

2021年のStackOverflowの調査によると開発者の90%以上がGitHubを使用しています。このプラットフォームのソーシャル コーディング機能は、ソフトウェア開発における障壁を打ち破ります。開発者はオープンソース プロジェクトを活用してビルドを高速化できます。また、企業はGitHubのエンタープライズ製品を使用してコーディングワークフローを効率化しています。 GitHub は開発者文化に深く根ざしており、ソフトウェア コミュニティがコードを作成、拡張、展開する方法を形作っています。

Hugging FaceLLMの推奨プラットフォーム

GitHub がオープンソース開発を推進したの同様に、 Hugging FaceLLMのオープン エコシステム アプローチを先導していますHugging Face2016 年に設立され、当初は自然言語処理に重点を置いていました。 2020 年にはLLMに目を向けさまざまなLLMアーキテクチャ( BERTGPT-2など) を標準化されたAPI統合するTransformerライブラリを作成しました。

このライブラリは、LLM の操作の複雑さを抽象化することで、 LLMへのアクセスを民主化します現在、 Hugging Face は20 万人を超えるユーザーを抱える活気あるコミュニティとなっています主な製品は次のとおりです。

  • モデル センター: OpenAICLIPSalesforceBLENDERなどのLLMを含む100,000を超えるAI モデルのリポジトリ LLMを使用するための敷居を下げます
  • タガー: LLMテキストのタグ付けとエンコードを行うための事前トレーニング済みモデル。データの前処理は非常に重要です。
  • データセット: LLM のトレーニングと評価用に慎重にキュレーションされたデータセット
  • Spaces : LLMを利用したアプリケーションをデプロイ、監視、スケーリングするためのMLOpsプラットフォーム
  • Infinite :自然言語クエリに対する回答を生成するためGPTモデルに基づく Wiki スタイルのデータセット

このツール セットは、検出から展開までのLLM開発ライフサイクル全体に対応します。 Hugging Face はStreamlightなどのプラットフォームとの統合も構築しており、ノーコードLLMの実験を可能にしています

ハギング・フェイスはその人気の高まりを反映して、これまでに1億ドルの資金を調達しています。昨年、ハギング・フェイス評価額は5倍の20億ドルに増加した。世界トップクラスの人工知能研究所や企業もHugging Faceに取り組んでいます

LLM の GitHub

Hugging Face のモデル、データセット、開発者ツールの巨大なハブは、「 LLM GitHub 」というニックネームを得ています。そのモデル センターは、 LLM働きたい人にとって出発点となります。開発者はMeta AIOPT-175Bなどのモデルの最適化された実装を同社の Web サイト見つけることができます。

その後、 Hugging FaceTransformersライブラリを通じてこれらのモデルにシームレスにアクセスできるようになります。これにより、高度なLLM を使用するためのハードルが大幅に下がり企業は独自のLLM をゼロから構築する必要がなくなります代わりに、 Hugging Face の事前構築されたLLMを取得し、検索や分析などの分野でのカスタムユースケースに合わせて微調整することができます

Spaces はLLMアプリケーションの共同構築、テスト、および展開をサポートします Hugging Faceのオープンデータセットと活発なコミュニティフォーラムと組み合わせることでLLM向けにカスタマイズされたGitHub のオープンソース精神の中核要素を再現します。

米国の大手テクノロジー企業の機械学習エンジニアであるレオ・ザオ氏は、 Hugging Face の LLMワークフローへの統合について次のようにまとめています。「新しいプロジェクトでLLM が必要なときはいつでもまずHugging Faceに頼ります同社のモデル センターには、選択できるオプションが山ほどあります。数行のコードで、すぐにラベルを付けてモデルにデータを供給できます。Spaces を使用するGPUクラスターでモデル トレーニングを簡単に拡張できます。LLM関連するすべてのものをワンストップで提供できるプラットフォームです。

GitHub の例えは、Hugging Face が LLM を中心に協力的なコミュニティを育成する方法にも当てはまります。その技術フォーラムは、何万人もの LLM 開発者とユーザーにとって重要な知識とサポートの源となっています。 Hugging Face は、人気の LLM カンファレンスを通じてこのコミュニティをさらに育成し、最新の進歩へのアクセスを民主化しています。

LLM導入の課題を克服する

Hugging Face は、企業がLLM導入における主要な障壁を克服する上で役立つことが証明されていますMcKinsey & Companyが実施した調査によると、企業がLLM直面する最大の課題は、価値を評価し、ユースケースを特定することです。 Hugging Face は、幅広いLLM選択と推奨される微調整データセットを一元管理することで、この問題を軽減します。

さらに、 LLM を本番環境に導入すると、複雑なデータとインフラストラクチャの問題が発生します。 Hugging Faceのエンドツーエンドのプラットフォームは、モデルへのアクセスから展開まで、企業のこうした障害を取り除きます。

LLM を大規模に構築および運用するために必要な財務投資も、 LLMの導入を妨げています Hugging Face は、簡単にアクセスできる事前トレーニング済みモデルを提供することでコストを削減します。 Space は、サーバーレス アーキテクチャと、 TPUなどのスケーラブルなクラウドコンピューティングハードウェアサポートを通じて、支出をさらに最適化します。これにより、小規模なチームやスタートアップでも大規模なLLM実験が可能になります。

LLMで未来を変える

今後、ハギングフェイスはLLMの拠点として成長を続けていくと思われます。そのコミュニティは、人気の AI フォーラムを上回っています。ますます多くの開発者や企業が、生産パイプラインでTransformersライブラリやTokenizerなどのツールに依存しています

LLM は、マーケティング、販売、財務などの分野で根本的な変化を推進します。マッキンゼー・アンド・カンパニーはLLMによって現在の業務活動の30% 45%自動化され大きな社会的影響が生まれると見積もっていますLLM にとってのイノベーションの障壁を下げるHugging Faceのようなプラットフォームは、LLM の変革の可能性を実現する上で中心的な役割を果たすでしょう。

GitHub がソフトウェア エンジニアリングを加速させたの同様に、 Hugging Face は開発者や企業がLLMのパワーをより迅速かつ効率的に活用できるようにします成長するLLM主導の経済にとって Hugging Face は未来への入り口となります。その包括的なプラットフォームは、新しい市場を活性化し、人間と AI の大規模なコラボレーションを可能にし、技術進歩次の時代を先導することができます

原題: Hugging Face は LLM 向けの新しい GitHub です、著者: Arvind Bhardwaj

<<:  計算負荷の少ない BEV モデルのパフォーマンスを向上させるにはどうすればよいでしょうか?おそらく DistillBEV が答えでしょう!

>>:  AIから本当に恩恵を受けるのは誰でしょうか?

ブログ    
ブログ    
ブログ    

推薦する

Qi Lu: 人工知能の時代では、チップと基盤となるソフトウェアは基本的に作り直す必要がある

2019年5月18日、YC Chinaが開催したYC China起業家会議において、YC China...

人工知能の応用範囲は想像を超えています

こんにちは!皆さん、こんにちは。私は大学の科学研究者で、主に人工知能の分野で研究を行っています。今後...

Zhihuのホットトピック:最近AmazonのAIチームから大量の人材が去った?李牧自ら事実を明らかにした!

[[326634]]最近、「アマゾンAI李牧のチームから大量の人材が抜けたことについてどう思います...

Midjourneyに匹敵します!なぜミャオヤカメラは突然人気が出たのでしょうか?

編纂者:ユン・ジャオ、ワン・ルイピン、ノア「家族の写真がついに出てきました…」最近、ミャオヤカメラの...

AIと機械学習を活用して、誰にでも何でも販売する

AI と IBM Watson の Personality Insights を使用して見込み客に確...

中国の人工知能コンピューティングパワーレポート:インターネット産業への投資が最も多く、都市ランキングでは杭州が1位

「中国の人工知能の応用と商業化の探究は世界と同レベルだが、コンピューティングパワー、アルゴリズム技術...

AIを使えばITの運用と保守が簡単になる

[[437499]]この記事はWeChatの公開アカウント「Computer World」から転載し...

国産アルゴリズムの普及はネットワークセキュリティ構築の最優先事項

情報化建設の加速に伴い、ネットワークセキュリティは情報化時代のホットな話題となり、国民の関心と注目を...

...

2023 年の ICML カンファレンスが開催されます! Google DeepMindの最新研究を簡単に見てみよう

2023 年の国際機械学習会議 (ICML) はハワイのホノルルで開催されます。写真ICML は、国...

超速い! ByteDanceが配列推論エンジンLightSeqをオープンソース化

これは、Transformer や GPT などの複数のモデルの高速推論を完全にサポートする業界初の...

現代の分散ストレージシステムをサポートするアルゴリズム

アプリケーションによって処理されるデータの量が増え続けるにつれて、ストレージの拡張はますます困難にな...

ロボットに髪を切らせるという突飛なアイデアを思いついた

一人でいて理髪店に行きたくない場合はどうすればいいでしょうか? YouTube ビデオブロガーの S...

Uberの自動運転車による死亡事故の捜査に新たな進展:横断歩道の外を歩く歩行者を識別できない

最近、国家運輸安全委員会(NTSB)は、Uberの自動運転車による死亡事故に関する調査の新たな進展を...

1,000元の予算で半日のトレーニングを実施し、その効果は主流の大型モデル、オープンソース、市販の中国製LLaMA-2に匹敵する。

LLaMA-1 と比較して、LLaMA-2 はより高品質のコーパスを導入し、大幅なパフォーマンスの...