NLP に革命を起こす 3 つの AI スタートアップ

NLP に革命を起こす 3 つの AI スタートアップ

ディープラーニングは自然言語処理において驚くべき進歩を遂げました。 Explosion、Huggingface、JohnSnowLabs の最新のイノベーションを活用してください。

自然言語処理 (NLP) は、ELIZA の時代、さらにはコンピューティング自体の基礎 (チューリング テストなど) にまで遡る、コンピュータ科学者の長年の夢でした。 NLP はここ数年で劇的な革命を遂げ、統計的手法がディープラーニングやニューラル ネットワークに基づく手法に取って代わられました。

[[439050]]

ディープラーニングを NLP に適用することで、GPT-3 などの大規模で洗練された汎用言語モデルが実現し、人間の文章とまったく区別がつかないテキストを生成できるようになりました。たとえば、GPT-3 は、Microsoft の新しい「コード不要」の PowerApps プラットフォームの機能を解放します。このプラットフォームでは、クエリの自然言語による説明を入力すると、バックエンドがコードを生成します (PowerFx 式は Excel 構文に基づいています)。

NLP は、Google や Microsoft のような大企業が製品を提供するためだけではなく、企業全体にわたって大きな可能性を秘めています。この記事では、AI 駆動型ソリューションの提供から、独自のカスタム NLP ソリューションを構築するための構成要素の提供まで、さまざまなサービスを提供する 3 つの異なるスタートアップを紹介します。

爆発

NLP コミュニティで働く開発者のほとんどは、Python 用の人気のある NLP ライブラリである spaCy を目にしたことがあるでしょう。しかし、Matthew Hannibal 氏と Ines Montani 氏によって設立され、spaCy と商用注釈ツール Prodigy を開発した会社である Explosion について聞いたことがある人はほとんどいません。

長年にわたり最高の NLP ツールキットの 1 つとして、大量の本番ワークロードを楽々と処理できる spaCy の能力は、他の同様のライブラリとは異なる特徴の 1 つです。しばらく spaCy を使用していない場合は、BERT などの事前トレーニング済みの Transformer モデルに基づくパイプライン、PyTorch や TensorFlow からのカスタム モデルを統合する機能、50 を超える言語のサポートなど、最新の NLP 技術に遅れを取らないことを知ったら驚かれるかもしれません。

spaCy はオープンソースですが、Explosion は有料製品 Prodigy も提供しています。これは、データ サイエンティストのツールキットの貴重な一部となることを目指しており、spaCy との緊密なインタラクティブ ループだけでなく、画像、音声、ビデオへの注釈付けも完全にサポートし、データセットの表現力豊かでスクリプト可能な注釈付けを可能にします。 Prodigy は、分類、転写、境界ボックスなどのパイプラインを構築するためのメソッドを提供します。これにより、データ サイエンティストはデータセットの効率的な注釈付けにおいてより積極的な役割を果たすことができるようになり、豊富な入力データの構築とより優れたモデルの作成にかかるコストが削減されます。

ハグフェイス

Transformer ベースの NLP モデル用の PyTorch ライブラリと Write With Transformer Web サイトを提供していた会社から、今日の全能の NLP 巨人である Huggingface に至るまでには、かなりの道のりがありました。今日では、Huggingface の Transformers ライブラリがテキスト処理の事実上の標準となっているだけでなく、新しい論文や技術が見つかってからそれをライブラリに取り込むまでの所要時間は、数週間ではなく数日で測定されることがよくあります。

Huggingface Model Zoo は、さまざまなモデル (ドメイン、言語、サイズなどのトピックをカバー) にわたるモデルのハブを含むように拡張され、多くのモデルの高速実装を備えたマネージド推論 API や、多数のさまざまなデータセットを操作するための使いやすい API が含まれています。 Grammarly などのアプリから、Microsoft、Google、Facebook による調査まで、Huggingface は何千もの企業で使用されています。それに加えて、Huggingface は、分散マシンのクラスター全体で大規模なモデルをトレーニングする際の煩わしさを大幅に軽減する最近の Accelerate ライブラリなど、機械学習エコシステムに他の小規模なライブラリも提供しています。

ハギングフェイスも勢いを緩めていません。ここ数か月で、音声モデルと画像モデルがプラットフォームに追加されてきました。Transformer アーキテクチャがディープラーニングの分野で定着し続け、あらゆる分野を征服するにつれて、Huggingface が最前線に立つ可能性が高くなります。

ジョンスノーラボ

JohnSnowLabs は、おそらく驚くことではないが、Apache Spark 上で実行されるオープンソースの NLP フレームワークである SparkNLP のキュレーターです。企業で非常に人気があり、名前付きエンティティ認識 (NER)、情報検索、分類、感情分析などのアプリケーション向けに、社内のさまざまな NLP パイプラインを強化しています。 spaCy と同様に、NLP の新しいパラダイムに適応するように進化しており、多数のディープラーニング モデル (700 以上!) と、さまざまなアプリケーションに対応する 400 を超えるパイプラインが標準で付属しています。また、Apache Spark のスケーラビリティも活用しているため、競合他社の多くよりも分散型の展開が容易になります。

興味深いのは、JohnSnowLabs が SparkNLP をベースに 3 つの有料製品を構築しており、そのうち 2 つは主に医療業界を対象としており、もう 1 つは主にその分野を対象としていますが、他の分野でも使用できることです。同社は、ヘルスケア分析と研究のために Kubernetes 上で実行されるマネージド プラットフォームである HealthcareAI と、臨床エンティティの認識とリンク、医療概念の抽出、テキストの匿名化などの方法を可能にする SparkNLP のアドオン パッケージ セットを提供しています。

もう一つの有料製品は SparkOCR で、同種の OCR ソリューションとしては最高であると主張しています。領域をキャプチャして DICOM 形式と PDF で出力する機能があるため、ヘルスケア分野に少し偏っていますが、より一般的な画像処理、ノイズ除去、傾き補正パイプラインを備えており、もちろん SparkNLP と統合して、任意の入力画像からエンドツーエンドの NER 抽出を実行できるスケーラブルなパイプラインを簡単に作成できます。

SparkNLP には多くの知識が組み込まれており、ヘルスケア分野では JohnSnowLabs が他の大規模な NLP ライブラリ プロバイダーよりも優位に立っているようです。

NLPの今後

今後数か月で NLP 分野ではどのようなことが期待できるでしょうか? 同じようなことが起きると思いますが、規模は大きくなります。Google、Microsoft、Facebook などの企業では、兆パラメータ モデルがますます重要になっています。 GPT-3 は現在 OpenAI の API でロックされていますが、1,750 億のパラメータ モデルである GPT-NeoX のオープンソース「再作成」が今年中にリリースされ、GPT-3 の生成能力のパワーを地球上のほぼすべての人に提供できるようになると予想されています。

最後に、研究者たちはスケールの反対側での研究を継続し、これらのアーキテクチャをより小型のデバイスやより長いドキュメントでより高速かつ効率的に実行できるように努めると予想されます。そして、この研究の結果はすべて、Explosion、Huggingface、JohnSnowLabs の製品にも反映されるのでご安心ください。

<<:  米国版「テンセントがアプリのアップデートを停止」、米国が「AIアルゴリズム」を法制化、未審査の公開を禁止

>>:  AIと行動科学がワクチン接種への躊躇にどう対処できるか

推薦する

...

次世代ロボットは「人間と共存」するかもしれない。中国はこのチャンスをどうつかむのか?

「次世代のロボットは『人間と共存する』ものになるだろう。中国がこのチャンスをつかめば、ロボットイノ...

パフォーマンスが最大480倍向上:Armが2つの新しいAIエッジコンピューティングチップ設計を発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

写真をビデオに変換するには、指 1 本だけが必要です。 Gen-2スポーツブラシが無料で利用可能になりました。ネットユーザー:史上最高のアップデート

「ポイント」すると動きます。Gen-2の新機能「マジックブラシ 馬亮」が正式にリリースされました。無...

データ処理を簡単にしますか? Baidu EasyDataが初の高度なインテリジェントデータクリーニング機能をリリース

AI モデルを開発する場合、データの量と品質がモデルの有効性に直接影響します。現場でデータを収集した...

...

8年が経ちました。Googleが中国に戻るという噂は本当でしょうか?

[51CTO.com オリジナル記事] Google の中国復帰について新たな声が上がっている。最...

人工知能について知っておくべき12の秘密

人類は、自分たちの仕事を担ってくれる全知全能のエルフを持つことを常に夢見てきました。現在、研究室のコ...

...

再ハッシュ: ブルームフィルタアルゴリズムの実装原理を理解する

[[385658]]この記事では、広く使用されているアルゴリズムである「ブルーム フィルター アルゴ...

...

コードを知らなくても機械学習を実現できますか?

ローコード プラットフォームは、アプリケーション、統合、およびデータの視覚化の開発の速度と品質を向上...

シンボリック人工知能、シンボリックAIの利点と限界について学びます

現在、AI は主に人工ニューラル ネットワークとディープラーニングに関するものです。しかし、必ずしも...

張北院士:人工知能の一般理論が形成されつつあり、AI革命の発展は止められない

7月6日に開催されたAscend人工知能産業サミットフォーラム2023において、中国科学院院士、清華...