ディープラーニングは自然言語処理において驚くべき進歩を遂げました。 Explosion、Huggingface、JohnSnowLabs の最新のイノベーションを活用してください。 自然言語処理 (NLP) は、ELIZA の時代、さらにはコンピューティング自体の基礎 (チューリング テストなど) にまで遡る、コンピュータ科学者の長年の夢でした。 NLP はここ数年で劇的な革命を遂げ、統計的手法がディープラーニングやニューラル ネットワークに基づく手法に取って代わられました。
ディープラーニングを NLP に適用することで、GPT-3 などの大規模で洗練された汎用言語モデルが実現し、人間の文章とまったく区別がつかないテキストを生成できるようになりました。たとえば、GPT-3 は、Microsoft の新しい「コード不要」の PowerApps プラットフォームの機能を解放します。このプラットフォームでは、クエリの自然言語による説明を入力すると、バックエンドがコードを生成します (PowerFx 式は Excel 構文に基づいています)。 NLP は、Google や Microsoft のような大企業が製品を提供するためだけではなく、企業全体にわたって大きな可能性を秘めています。この記事では、AI 駆動型ソリューションの提供から、独自のカスタム NLP ソリューションを構築するための構成要素の提供まで、さまざまなサービスを提供する 3 つの異なるスタートアップを紹介します。 爆発NLP コミュニティで働く開発者のほとんどは、Python 用の人気のある NLP ライブラリである spaCy を目にしたことがあるでしょう。しかし、Matthew Hannibal 氏と Ines Montani 氏によって設立され、spaCy と商用注釈ツール Prodigy を開発した会社である Explosion について聞いたことがある人はほとんどいません。 長年にわたり最高の NLP ツールキットの 1 つとして、大量の本番ワークロードを楽々と処理できる spaCy の能力は、他の同様のライブラリとは異なる特徴の 1 つです。しばらく spaCy を使用していない場合は、BERT などの事前トレーニング済みの Transformer モデルに基づくパイプライン、PyTorch や TensorFlow からのカスタム モデルを統合する機能、50 を超える言語のサポートなど、最新の NLP 技術に遅れを取らないことを知ったら驚かれるかもしれません。 spaCy はオープンソースですが、Explosion は有料製品 Prodigy も提供しています。これは、データ サイエンティストのツールキットの貴重な一部となることを目指しており、spaCy との緊密なインタラクティブ ループだけでなく、画像、音声、ビデオへの注釈付けも完全にサポートし、データセットの表現力豊かでスクリプト可能な注釈付けを可能にします。 Prodigy は、分類、転写、境界ボックスなどのパイプラインを構築するためのメソッドを提供します。これにより、データ サイエンティストはデータセットの効率的な注釈付けにおいてより積極的な役割を果たすことができるようになり、豊富な入力データの構築とより優れたモデルの作成にかかるコストが削減されます。 ハグフェイスTransformer ベースの NLP モデル用の PyTorch ライブラリと Write With Transformer Web サイトを提供していた会社から、今日の全能の NLP 巨人である Huggingface に至るまでには、かなりの道のりがありました。今日では、Huggingface の Transformers ライブラリがテキスト処理の事実上の標準となっているだけでなく、新しい論文や技術が見つかってからそれをライブラリに取り込むまでの所要時間は、数週間ではなく数日で測定されることがよくあります。 Huggingface Model Zoo は、さまざまなモデル (ドメイン、言語、サイズなどのトピックをカバー) にわたるモデルのハブを含むように拡張され、多くのモデルの高速実装を備えたマネージド推論 API や、多数のさまざまなデータセットを操作するための使いやすい API が含まれています。 Grammarly などのアプリから、Microsoft、Google、Facebook による調査まで、Huggingface は何千もの企業で使用されています。それに加えて、Huggingface は、分散マシンのクラスター全体で大規模なモデルをトレーニングする際の煩わしさを大幅に軽減する最近の Accelerate ライブラリなど、機械学習エコシステムに他の小規模なライブラリも提供しています。 ハギングフェイスも勢いを緩めていません。ここ数か月で、音声モデルと画像モデルがプラットフォームに追加されてきました。Transformer アーキテクチャがディープラーニングの分野で定着し続け、あらゆる分野を征服するにつれて、Huggingface が最前線に立つ可能性が高くなります。 ジョンスノーラボJohnSnowLabs は、おそらく驚くことではないが、Apache Spark 上で実行されるオープンソースの NLP フレームワークである SparkNLP のキュレーターです。企業で非常に人気があり、名前付きエンティティ認識 (NER)、情報検索、分類、感情分析などのアプリケーション向けに、社内のさまざまな NLP パイプラインを強化しています。 spaCy と同様に、NLP の新しいパラダイムに適応するように進化しており、多数のディープラーニング モデル (700 以上!) と、さまざまなアプリケーションに対応する 400 を超えるパイプラインが標準で付属しています。また、Apache Spark のスケーラビリティも活用しているため、競合他社の多くよりも分散型の展開が容易になります。 興味深いのは、JohnSnowLabs が SparkNLP をベースに 3 つの有料製品を構築しており、そのうち 2 つは主に医療業界を対象としており、もう 1 つは主にその分野を対象としていますが、他の分野でも使用できることです。同社は、ヘルスケア分析と研究のために Kubernetes 上で実行されるマネージド プラットフォームである HealthcareAI と、臨床エンティティの認識とリンク、医療概念の抽出、テキストの匿名化などの方法を可能にする SparkNLP のアドオン パッケージ セットを提供しています。 もう一つの有料製品は SparkOCR で、同種の OCR ソリューションとしては最高であると主張しています。領域をキャプチャして DICOM 形式と PDF で出力する機能があるため、ヘルスケア分野に少し偏っていますが、より一般的な画像処理、ノイズ除去、傾き補正パイプラインを備えており、もちろん SparkNLP と統合して、任意の入力画像からエンドツーエンドの NER 抽出を実行できるスケーラブルなパイプラインを簡単に作成できます。 SparkNLP には多くの知識が組み込まれており、ヘルスケア分野では JohnSnowLabs が他の大規模な NLP ライブラリ プロバイダーよりも優位に立っているようです。 NLPの今後今後数か月で NLP 分野ではどのようなことが期待できるでしょうか? 同じようなことが起きると思いますが、規模は大きくなります。Google、Microsoft、Facebook などの企業では、兆パラメータ モデルがますます重要になっています。 GPT-3 は現在 OpenAI の API でロックされていますが、1,750 億のパラメータ モデルである GPT-NeoX のオープンソース「再作成」が今年中にリリースされ、GPT-3 の生成能力のパワーを地球上のほぼすべての人に提供できるようになると予想されています。 最後に、研究者たちはスケールの反対側での研究を継続し、これらのアーキテクチャをより小型のデバイスやより長いドキュメントでより高速かつ効率的に実行できるように努めると予想されます。そして、この研究の結果はすべて、Explosion、Huggingface、JohnSnowLabs の製品にも反映されるのでご安心ください。 |
<<: 米国版「テンセントがアプリのアップデートを停止」、米国が「AIアルゴリズム」を法制化、未審査の公開を禁止
>>: AIと行動科学がワクチン接種への躊躇にどう対処できるか
「ダブル11」は10年以上前から存在しており、大半の「買い物中毒者」は巨大プラットフォームでの数千億...
ちょうど今、チューリング賞受賞者のヤン・ルカン氏がツイッターにメッセージを投稿した。「3本の論文を提...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
序文インタビュアー: 「仮想 DOM と Diff アルゴリズムをご存知ですか? 説明してください。...
今週の月曜日も、他の月曜日と同様に、Spotify の 1 億人を超えるユーザー全員に新しいプレイリ...
過去 10 年間で、食品業界では 3D プリント食品、食用センサー、ロボット調理、AR ダイニングな...
ディープラーニングは、データから段階的に優れた高度な洞察を抽出するために複数の処理層を活用する人工ニ...
ChatGPT が一般公開されて以来、LLM (大規模言語モデル)、RAG (検索拡張生成)、ベクタ...
Emogi は、チャット アプリでテキストを送信したり、投稿にコメントしたり、友人にビデオを送信した...
JD.comは早くも2017年8月に、陝西省の地域をカバーする中国初のドローン空域の承認を取得しまし...
画像ソース: Unsplash新世代情報技術の急速な発展に伴い、コンピューティング能力、データ処理能...
2019年9月20日、HUAWEI CONNECT 2019カンファレンスにおいて、ファーウェイクラ...