ドキュメントの分類が複雑すぎますか? MITとIBMは協力してこの問題を解決した

ドキュメントの分類が複雑すぎますか? MITとIBMは協力してこの問題を解決した

[[286340]]

【画像出典:venturebeat オーナー:venturebeat 】

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

最も優れたテキスト解析推奨アルゴリズムであっても、特定のサイズのデータ​​セットによって妨げられます。既存のほとんどの方法よりも高速で優れた分類パフォーマンスを提供するために、MIT-IBM Watson AI ラボと MIT の幾何データ処理グループのチームは、埋め込みや最適輸送などの一般的な AI ツールを組み合わせた手法を設計しました。

彼らは、このアプローチは、一人の人物の歴史的な好み、または集団の好みだけを考慮することで、何百万もの可能性をカバーできると主張している。

「インターネット上には膨大な量のテキストがあり、その内容を整理するのに役立つものは何でも非常に有用だ」と、MIT助教授でこの研究の主執筆者であるジャスティン・ソロモン氏は声明で述べた。

これを実現するために、ジャスティン・ソロモン氏とその同僚は、テキストのコレクションをコレクション内の共通語に基づいてテーマごとに整理するアルゴリズムを使用しました。次に、各テキストを 5 ~ 15 の最も重要なトピックに分割し、ランキングを通じて各トピックのテキスト全体に対する重要度を表示します。

さらに、埋め込み(この場合は単語のデータ表現)は単語間の類似性を明らかにするのに役立ち、最適なトランスポートは複数の宛先間でオブジェクト(またはデータ ポイント)を移動する最も効率的な方法を計算するのに役立ちます。同時に、埋め込みにより、「両方の長所を活用する」ことが可能になります。つまり、まずコレクション内のトピックを比較し、次に共通トピックの重複の程度を測定することです。

研究者らは、この方法は大量の書籍や文書をスキャンするときに特に効果的だと述べている。 Gutenberg Project データセットの 1,720 タイトルを評価したところ、アルゴリズムはすべてのタイトルを 1 秒未満で比較することに成功しました。これは、次に優れたパフォーマンスを示したアルゴリズムの約 800 倍の速さです。

さらに、このアルゴリズムは他の方法と比較して、ドキュメントの分類に優れています。たとえば、Gutenberg データセット内の書籍を著者別にグループ化したり、Amazon の製品レビューを部門別にグループ化したりします。同時に、アルゴリズムはトピックのリストも提供し、特定のドキュメントが推奨される理由をユーザーに説明できるため、ユーザーが理解しやすくなります。

しかし、研究者たちは現在の技術レベルに満足していない。また、現在実装されているように個別にではなく、埋め込み、トピック モデル、最適なトランスポートを共同で最適化できるエンドツーエンドのトレーニング手法の開発も継続します。応用面では、彼らは自分たちの手法をより大きなデータセットに適用し、画像や 3D データ モデリングへの応用を調査したいと考えています。

ジャスティン・ソロモン氏は、自身の研究をまとめた論文の中で、(私たちのアルゴリズムが)違いを捉える方法は、まず各文書をわかりやすい概念に分解し、次にその概念を比較するという、人が 2 つの文書を比較する方法と同じであるようだと述べています...

さらに詳しい考察として、ジャスティン・ソロモン氏は次のように述べています。

単語埋め込みによってグローバルな意味言語情報が提供され、トピック モデルによってコーパス固有のトピックとトピック分布が提供されます。経験的に、これらの要素が組み合わさることで、さまざまなメトリックベースのタスクで優れたパフォーマンスが得られます。

<<:  マイクロソフトの無料 AI エッセイ採点ソフトウェアがアップグレード: IELTS、CET-4、CET-6 に使用可能

>>:  GitHub 6600 スター、中国人向け: Microsoft AI 教育および学習共同構築コミュニティ 2.0 が開始!

ブログ    

推薦する

AIと自動化革命に備える10の方法

人工知能と自動化はもはやSFの世界の話ではなく、ビジネスの世界と消費者の世界の両方で非常に現実的かつ...

2020年版ネイチャーインデックス年次リストが発表:中国の研究機関がリストを独占、中国科学院は8年連続で1位

科学研究機関の世界総合ランキングでは、中国科学院、中国科学技術大学、北京大学がトップ10にランクイン...

脳コンピューターインターフェースツール:脳波からテキストまで、必要なのは機械翻訳モデルだけ

[[320655]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

...

肖像情報セキュリティには「内部と外部の共同管理」が必要

防疫期間中、マスクの着用は人々の日常の外出に必須の装備となった。マスク着用者の顔認識技術が実際に活用...

信じられない! XiaoIceのデジタルツイン仮想人物は70日間ライブ放送されましたが、誰もそれが本物の人間ではないことに気づきませんでした

[[441368]]中国ビジネスニュースは70日間生放送されましたが、アンカーがデジタルツインの仮想...

人工知能を活用する準備はできていますか?

[[349302]]今日、職場での学習は課題に直面しています。高度な分析、人工知能、ロボットが職場...

大規模言語モデルの脆弱性緩和ガイド

大規模言語モデル (LLM) アプリケーションは世界中で急速に普及していますが、企業は依然として大規...

フロントエンドインテリジェンスは、AIがセキュリティに着地するための第2の足掛かりになりつつある

近年、セキュリティ業界のデータ量は飛躍的に増加しており、バックエンド サーバーはますます多くのデータ...

データに最適な埋め込みモデルの選択: OpenAI とオープンソースの多言語埋め込みの比較テスト

OpenAI は最近、次世代の埋め込みモデルである埋め込み v3 をリリースしました。同社では、この...

...

再びH800を去勢しますか?米国商務省の新しい政策はGPU輸出に対する規制を強化し、今週発表される予定である。

ロイター通信は今週、米国が中国へのGPU輸出をさらに制限する新たな規制を導入すると独占的に報じた。制...

アマゾン ウェブ サービスが中国で新たな機械学習サービスを開始

[51CTO.com からのオリジナル記事]現在、ますます多くの企業が機械学習や人工知能に多額の資金...

人工知能がビジネスの生産性を変革する方法

[[244003]]既存の AI ツールやサービスは、従業員に代わるものではなく、ワークフローの改善...