セマンティクスと機械学習が融合するとき

セマンティクスと機械学習が融合するとき

人工知能は歴史的に、やや相反する2つの陣営の間を揺れ動いてきました。一方では、ノーム・チョムスキー、マービン・ミンスキー、シーモア・パパート、その他多くの人々によって代表される、認知知能は本質的にアルゴリズム的であり、言語、ひいては知能の根底には一連の基本ルールがあるという考えがあります。一方では、ドナルド・ヘブ、フランク・ローゼンブラット、ウェズリー・クラーク、ヘンリー・ケリー、アーサー・ブライソン・ジュニアなど、ほとんど無名の人々もいて、彼らは勾配降下法、遺伝的アルゴリズム、バックプロパゲーション、およびニューラルネットワークの他の部分を開発した。

2 つの陣営の競争は熾烈でした。ある時点で、ミンスキーとパパートがローゼンブラットのパーセプトロン (初期のニューラル モデルの 1 つ) をかなり厳しく分析した後、議論はアルゴリズム アプローチの方向にほぼ落ち着いたように見えました。振り返ってみると、両者が直面した大きな障害(そして AI 研究を 10 年にわたる冬の時代へと陥れた障害)は、どちらのモデルも実際に成果を上げるのに必要な計算能力(計算能力の 21 桁の増加)を過小評価していたことだった。コンピューターとネットワークがどちらの技術も実用的になるまでには、さらに 50 年かかることになる。

結局、どちらの側も、ある面では正しく、他の面では間違っていたことが判明しました。ニューラル ネットワーク (および機械学習) は、画像認識、自動分類、自然言語処理、システム モデリングなど、1964 年に重要と考えられていた多くの問題に対して非常に効果的になりました。特に分類機能は、Twitter の投稿から映画まで膨大な量のコンテンツがその恩恵を受けていることを考えると、大きな前進です。

同時に、ミンスキーとパパートのパーセプトロンに関する議論は、機械学習に関する現在の議論にも反映されています。発見可能性と検証可能性は、どちらも解決が非常に難しい 2 つの問題であることが証明されています。特定のソリューションが正しい理由を判断できない場合は、適切にモデル化されていない重要な隠れた変数があり、それらの変数の限界が不明であることを意味します。不連続性や特異性がある場合、モデルを独自のトレーニング データ以外のものに適用すると問題が発生します。

さらに、論理的 (そして時には社会的) な構造を開発する際に人間が介入するという問題を、大量のデータを検索してふるいにかけるという、多くの場合時間と労力を要する作業に置き換えます。おそらく、後者の作業は実際には前者の作業の単なる変種であり、おそらく効率は低いでしょう。

一方、アルゴリズムの面では状況が必ずしも良くなっているわけではありません。実際、アルゴリズム的アプローチには分析的側面とセマンティック的側面という 2 つの側面があります。現在ではデータ サイエンスと見なされている分析手法では、統計分析 (または確率論的手法) を使用して分布と確率を決定します。おそらく、ランダム法の利点は、十分に大きなデータ セットがあれば、特定のイベントが発生する確率を一定の誤差範囲内で判断できることです。しかし、確率的手法は従来の統計分析から離れ、グラフ分析を利用して個々の変数 (特徴) を分析できるベイジアン ネットワークの使用へと移行しています。

一方、セマンティクスは、アサーションを接続するネットワーク グラフと、アサーション自体に関する追加のアサーションを作成する機能 (モデリングを通じて) を活用します。このプロセスは具体化と呼ばれます。セマンティクスは、従来のモデリング手法とよく適合します。これは、従来の (リレーショナル) モデリングがセマンティック モデルの閉じたサブセットである一方で、XML や JSON に代表されるドキュメント オブジェクト モデリング言語 (DOM) に固有の機能を提供しているためです。

重要なのは、ベイジアン ネットワークは、決定木と同様に、具体的な意味を持つグラフとして表現できることです。実際、SPARQL クエリは、あらゆる重要な点で決定木と同型です。これは、決定木の各ノードが、特定のパターンまたは制約が存在する 2 つのデータ セットの交差に基づいているためです (ヒント: コンプライアンス テスト システムを構築したいですか? SPARQL を使用してください!)。

ソフトウェア開発の歴史には純粋主義者と実用主義者が溢れています。純粋主義者は、C++ 対 Java、命令型対宣言型、SQL 対 NoSQL、Perl 対 ... など、独自の特定のツールと言語に対する立場を主張します。実用主義者は典型的には、最良のものだけを選び、議論の雑音を無視して、妥協点を見つけようとします。純粋主義者の多くは最終的には実用主義者になりますが、ほとんどのプログラマーは何年も経ってからプロジェクト マネージャーになる傾向があるため、この学習の実際の影響は最小限です。

現時点では、ニューラル ネットワーク、ベイジアン、セマンティクスの 3 つの最新世代は非常に新しいため、選択したツールがあらゆる潜在的な状況に最適なツールであると考える傾向が強くあります。しかし、これらは究極的にはグラフ、またはグラフを処理するためのツールであり、この根本的な共通性はより広範な統一につながると信じています。例えば:

  • 機械学習パイプラインは分類器です。中間分類子のラベルが特定のオントロジーに対応している場合、特定のエンティティが分類されると、そのエンティティのセマンティック表現を関連するパターン、形状、クラス、またはルールに割り当てることができます。
  • 機械学習システムはインデックス作成に関するものではありませんが、私の子供たちが言うように、隣接性(非常にグラフのようなフレーズ)のインデックス作成に関するものです。基本的に、不明なタイプのインスタンスと関連するクラス間のマッピングを作成します。ここで複数のクラスが重要なのは、クラスは単なるラベル付けされたパターンであり、継承はそのような 2 つのパターン間の共通の特性を示しているためです。このマッピングは、クエリを満たすすべての項目を取得するのではなく、クエリが項目の 1 つに適用する (命名) パターンを基本的に取得するため、逆クエリと呼ばれることもあります。
  • SPARQL で分類子を作成することは可能です (そして正直に言うとかなり簡単です)。これは、SPARQL が本質的にトリプル パターンの存在を探すためです。つまり、プロパティの存在だけでなく、多くの場合、2 次および 3 次関係も探すのです。 SHACL は RDF スキーマ言語であり、特定の SHACL 構造 (およびその他の部分) に基づいて SPARQL を生成するツールと考えることができますが、それらのスキーマは非常に微妙な場合があります。
  • 同様に、グラフ分析は最終的にはリレーショナルデータ分析と同じくらい、あるいはそれ以上に重要になると思います。主な理由は、グラフを使用すると、あらゆる種類の確率過程に複数の抽象化レイヤーと発見可能性を追加することが非常に簡単になり、それによって機械学習ツールが現在直面している多くの同じ問題を解決できるためです。
  • このプロセスは逆も可能です。 SPARQL をインバウンド ストリームと共に使用して、機械言語サービスのトレーニング データを構築するためのグラフを作成できます。このトレーニング データは既存のオントロジーのコンテキストで既にラベル付けおよび識別されているため、このプロセスの利点は、結果として得られる分類子に、データの由来と注釈、確立された識別子、イベントのタイムスタンプなど、解釈に必要なすべての部分がすでに備わっていることです。
  • もう 1 つの重要な点は、SPARQL が処理するグラフを変更できることです。 SPARQL 呼び出し自体に外部コンテンツを直接処理できるサービス呼び出しを組み込むと、推論 (既存のアサーションで検出されたパターンに基づいて新しいアサーションを作成する) が特に重要になります。 SPARQL の次の主要なフェーズの 1 つは、中間コア オブジェクト (ソフトウェア ベンダーは注意してください) または RDF のソースとして、JSON を取得、処理、および生成する機能です。
  • つまり、SPARQL の将来のバージョンでは、表形式のデータを RDF として保存する必要がなくなり、代わりに JSON として保存し、その JSON (および関連する分析関数) を活用して、はるかに少ない処理リソースで、はるかに複雑な推論を作成できるようになります。同様の操作について XProc XML パイプライン処理言語を見ると、XSLT/XQuery パイプラインと RDF/SPARQL/SHACL パイプラインの違いはほとんど表面的なものであることがわかります。

この最後のポイントは非常に重要です。最新世代の Agile/DevOPS/ML 運用モデルが示すように、パイプラインと変換が未来だからです。連鎖的な変換を処理できる場合 (特に、特定のパイプラインが事前に設定されるのではなく、コンテキストによって決定される場合)、そのようなパイプラインはますます有機的な認知プロセスのように見え始めます。

原題: セマンティクスと機械学習の融合点、著者: Kurt A Cagle

<<:  デジタルツインがグローバルサプライチェーンの悪夢からの脱出にどのように役立つか

>>:  インテリジェントロボットはCOVID-19パンデミックとの戦いでどのように大きな役割を果たすことができるのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能が物流の自動化を変える

[[423132]]自動化では、テクノロジーを利用して、さまざまなタスクにおける人間の労力を強化しま...

効果的な機械学習研究者の6つの習慣

優れた機械学習研究者になるために必要な資質は何でしょうか? 強力なコーディングスキルでしょうか? そ...

マイクロソフト、Windows 10を開発者向けAIプラットフォームに

人工知能の人気が高まるにつれ、あらゆるテクノロジーメーカーが自社の製品やサービスに人工知能というラベ...

機械学習は「原子幾何学」の秘密を明らかにし、数学の発展を促進した

代数多様体とその方程式。代数幾何学は、一方では方程式の研究である代数学、他方では図形の研究である幾何...

ロボットによるモノのインターネットは製造業の未来となるのでしょうか?

ロボットによるモノのインターネットは、産業用ロボットと IoT センサーという 2 つの貴重なテクノ...

LLM-Blender: 大規模な言語モデルも学習に統合可能

最近、arxiv を見ていたときに、Ensemble メソッドを使用して大規模な言語モデルを統合でき...

...

人工知能はサイバー犯罪をより容易かつ頻繁にしている、と研究が指摘

8月10日、サイバーセキュリティ企業SlashNextが発見した一連の証拠から、違法目的で開発された...

製造業におけるAI: インテリジェントロボットには次の4つの機能が必要です

インテリジェントロボットはインテリジェント製品の代表的なものです。知能ロボットには、少なくとも以下の...

...

強化学習はアプリケーションにおける戦略の「最適解」を見つける

現在、AI システムは、さまざまなパターン認識や予測分析タスクを実行するために業界で一般的に使用され...

Facebookの広告システムの背後にあるペーシングアルゴリズム

[[163141]]先月、Facebook は 2015 年第 4 四半期の驚異的な財務結果を発表し...

AIは依然として人気、テクノロジー企業の人材育成の道筋を見てみよう

人工知能ブームが始まって以来、人材不足が業界の「主要テーマ」となっている。これを踏まえ、大手テクノロ...

...

MITジェネシス核融合が世界記録を更新!高温超伝導磁石が恒星のエネルギーを解放、人工太陽が誕生するのか?

クリーンエネルギーの聖杯は征服されたのか? 「MITチームは、一夜にして核融合炉のワット当たりコスト...