【画像出典:venturebeat オーナー:venturebeat 】 この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 最も優れたテキスト解析推奨アルゴリズムであっても、特定のサイズのデータセットによって妨げられます。既存のほとんどの方法よりも高速で優れた分類パフォーマンスを提供するために、MIT-IBM Watson AI ラボと MIT の幾何データ処理グループのチームは、埋め込みや最適輸送などの一般的な AI ツールを組み合わせた手法を設計しました。 彼らは、このアプローチは、一人の人物の歴史的な好み、または集団の好みだけを考慮することで、何百万もの可能性をカバーできると主張している。 「インターネット上には膨大な量のテキストがあり、その内容を整理するのに役立つものは何でも非常に有用だ」と、MIT助教授でこの研究の主執筆者であるジャスティン・ソロモン氏は声明で述べた。 これを実現するために、ジャスティン・ソロモン氏とその同僚は、テキストのコレクションをコレクション内の共通語に基づいてテーマごとに整理するアルゴリズムを使用しました。次に、各テキストを 5 ~ 15 の最も重要なトピックに分割し、ランキングを通じて各トピックのテキスト全体に対する重要度を表示します。 さらに、埋め込み(この場合は単語のデータ表現)は単語間の類似性を明らかにするのに役立ち、最適なトランスポートは複数の宛先間でオブジェクト(またはデータ ポイント)を移動する最も効率的な方法を計算するのに役立ちます。同時に、埋め込みにより、「両方の長所を活用する」ことが可能になります。つまり、まずコレクション内のトピックを比較し、次に共通トピックの重複の程度を測定することです。 研究者らは、この方法は大量の書籍や文書をスキャンするときに特に効果的だと述べている。 Gutenberg Project データセットの 1,720 タイトルを評価したところ、アルゴリズムはすべてのタイトルを 1 秒未満で比較することに成功しました。これは、次に優れたパフォーマンスを示したアルゴリズムの約 800 倍の速さです。 さらに、このアルゴリズムは他の方法と比較して、ドキュメントの分類に優れています。たとえば、Gutenberg データセット内の書籍を著者別にグループ化したり、Amazon の製品レビューを部門別にグループ化したりします。同時に、アルゴリズムはトピックのリストも提供し、特定のドキュメントが推奨される理由をユーザーに説明できるため、ユーザーが理解しやすくなります。 しかし、研究者たちは現在の技術レベルに満足していない。また、現在実装されているように個別にではなく、埋め込み、トピック モデル、最適なトランスポートを共同で最適化できるエンドツーエンドのトレーニング手法の開発も継続します。応用面では、彼らは自分たちの手法をより大きなデータセットに適用し、画像や 3D データ モデリングへの応用を調査したいと考えています。 ジャスティン・ソロモン氏は、自身の研究をまとめた論文の中で、(私たちのアルゴリズムが)違いを捉える方法は、まず各文書をわかりやすい概念に分解し、次にその概念を比較するという、人が 2 つの文書を比較する方法と同じであるようだと述べています... さらに詳しい考察として、ジャスティン・ソロモン氏は次のように述べています。
|
<<: マイクロソフトの無料 AI エッセイ採点ソフトウェアがアップグレード: IELTS、CET-4、CET-6 に使用可能
>>: GitHub 6600 スター、中国人向け: Microsoft AI 教育および学習共同構築コミュニティ 2.0 が開始!
最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...
生体認証技術といえば、アメリカの Clearview AI 社を挙げなければなりません。同社は最も包...
ここ2日間で、オープンソースの話題が再び人気を集めています。 「オープンソースがなければ、AI は何...
今日、AI プログラムは、写真やビデオ内の顔や物体を認識し、音声をリアルタイムで書き起こし、X 線ス...
導入究極のアルゴリズムとは何ですか?実際、これは現在の JVM で使用されているアルゴリズムであり、...
AIが私たちの日常生活の一部になっていることは否定できません。ほぼすべての業界のフォーチュン 100...
[[383980]]冒頭に書いた私自身、毎年まとめを書く習慣があります。2020年は、私の職務が垂...
2021年5月20日、北京中良プロトンネットワーク情報技術有限公司傘下の企業向けデジタルサービスプラ...
2016年1月、国家衛生計画出産委員会は専門医向けの「5+3+x」標準化研修システムを発行しました。...
マイクロソフトはAIを理論から現実のものにしてきたリーダーであり、2019年のブログ投稿で多かれ少な...
私たちは幼児期から言語を吸収し始めます。簡単な単語は1年目か2年目に出てきます。 6 歳までに語彙は...
ウィンドウの長さが 4k でも、大きなモデルで大きなテキストを読み取ることができます。プリンストン大...