セマンティクスと機械学習が融合するとき

セマンティクスと機械学習が融合するとき

人工知能は歴史的に、やや相反する2つの陣営の間を揺れ動いてきました。一方では、ノーム・チョムスキー、マービン・ミンスキー、シーモア・パパート、その他多くの人々によって代表される、認知知能は本質的にアルゴリズム的であり、言語、ひいては知能の根底には一連の基本ルールがあるという考えがあります。一方では、ドナルド・ヘブ、フランク・ローゼンブラット、ウェズリー・クラーク、ヘンリー・ケリー、アーサー・ブライソン・ジュニアなど、ほとんど無名の人々もいて、彼らは勾配降下法、遺伝的アルゴリズム、バックプロパゲーション、およびニューラルネットワークの他の部分を開発した。

2 つの陣営の競争は熾烈でした。ある時点で、ミンスキーとパパートがローゼンブラットのパーセプトロン (初期のニューラル モデルの 1 つ) をかなり厳しく分析した後、議論はアルゴリズム アプローチの方向にほぼ落ち着いたように見えました。振り返ってみると、両者が直面した大きな障害(そして AI 研究を 10 年にわたる冬の時代へと陥れた障害)は、どちらのモデルも実際に成果を上げるのに必要な計算能力(計算能力の 21 桁の増加)を過小評価していたことだった。コンピューターとネットワークがどちらの技術も実用的になるまでには、さらに 50 年かかることになる。

結局、どちらの側も、ある面では正しく、他の面では間違っていたことが判明しました。ニューラル ネットワーク (および機械学習) は、画像認識、自動分類、自然言語処理、システム モデリングなど、1964 年に重要と考えられていた多くの問題に対して非常に効果的になりました。特に分類機能は、Twitter の投稿から映画まで膨大な量のコンテンツがその恩恵を受けていることを考えると、大きな前進です。

同時に、ミンスキーとパパートのパーセプトロンに関する議論は、機械学習に関する現在の議論にも反映されています。発見可能性と検証可能性は、どちらも解決が非常に難しい 2 つの問題であることが証明されています。特定のソリューションが正しい理由を判断できない場合は、適切にモデル化されていない重要な隠れた変数があり、それらの変数の限界が不明であることを意味します。不連続性や特異性がある場合、モデルを独自のトレーニング データ以外のものに適用すると問題が発生します。

さらに、論理的 (そして時には社会的) な構造を開発する際に人間が介入するという問題を、大量のデータを検索してふるいにかけるという、多くの場合時間と労力を要する作業に置き換えます。おそらく、後者の作業は実際には前者の作業の単なる変種であり、おそらく効率は低いでしょう。

一方、アルゴリズムの面では状況が必ずしも良くなっているわけではありません。実際、アルゴリズム的アプローチには分析的側面とセマンティック的側面という 2 つの側面があります。現在ではデータ サイエンスと見なされている分析手法では、統計分析 (または確率論的手法) を使用して分布と確率を決定します。おそらく、ランダム法の利点は、十分に大きなデータ セットがあれば、特定のイベントが発生する確率を一定の誤差範囲内で判断できることです。しかし、確率的手法は従来の統計分析から離れ、グラフ分析を利用して個々の変数 (特徴) を分析できるベイジアン ネットワークの使用へと移行しています。

一方、セマンティクスは、アサーションを接続するネットワーク グラフと、アサーション自体に関する追加のアサーションを作成する機能 (モデリングを通じて) を活用します。このプロセスは具体化と呼ばれます。セマンティクスは、従来のモデリング手法とよく適合します。これは、従来の (リレーショナル) モデリングがセマンティック モデルの閉じたサブセットである一方で、XML や JSON に代表されるドキュメント オブジェクト モデリング言語 (DOM) に固有の機能を提供しているためです。

重要なのは、ベイジアン ネットワークは、決定木と同様に、具体的な意味を持つグラフとして表現できることです。実際、SPARQL クエリは、あらゆる重要な点で決定木と同型です。これは、決定木の各ノードが、特定のパターンまたは制約が存在する 2 つのデータ セットの交差に基づいているためです (ヒント: コンプライアンス テスト システムを構築したいですか? SPARQL を使用してください!)。

ソフトウェア開発の歴史には純粋主義者と実用主義者が溢れています。純粋主義者は、C++ 対 Java、命令型対宣言型、SQL 対 NoSQL、Perl 対 ... など、独自の特定のツールと言語に対する立場を主張します。実用主義者は典型的には、最良のものだけを選び、議論の雑音を無視して、妥協点を見つけようとします。純粋主義者の多くは最終的には実用主義者になりますが、ほとんどのプログラマーは何年も経ってからプロジェクト マネージャーになる傾向があるため、この学習の実際の影響は最小限です。

現時点では、ニューラル ネットワーク、ベイジアン、セマンティクスの 3 つの最新世代は非常に新しいため、選択したツールがあらゆる潜在的な状況に最適なツールであると考える傾向が強くあります。しかし、これらは究極的にはグラフ、またはグラフを処理するためのツールであり、この根本的な共通性はより広範な統一につながると信じています。例えば:

  • 機械学習パイプラインは分類器です。中間分類子のラベルが特定のオントロジーに対応している場合、特定のエンティティが分類されると、そのエンティティのセマンティック表現を関連するパターン、形状、クラス、またはルールに割り当てることができます。
  • 機械学習システムはインデックス作成に関するものではありませんが、私の子供たちが言うように、隣接性(非常にグラフのようなフレーズ)のインデックス作成に関するものです。基本的に、不明なタイプのインスタンスと関連するクラス間のマッピングを作成します。ここで複数のクラスが重要なのは、クラスは単なるラベル付けされたパターンであり、継承はそのような 2 つのパターン間の共通の特性を示しているためです。このマッピングは、クエリを満たすすべての項目を取得するのではなく、クエリが項目の 1 つに適用する (命名) パターンを基本的に取得するため、逆クエリと呼ばれることもあります。
  • SPARQL で分類子を作成することは可能です (そして正直に言うとかなり簡単です)。これは、SPARQL が本質的にトリプル パターンの存在を探すためです。つまり、プロパティの存在だけでなく、多くの場合、2 次および 3 次関係も探すのです。 SHACL は RDF スキーマ言語であり、特定の SHACL 構造 (およびその他の部分) に基づいて SPARQL を生成するツールと考えることができますが、それらのスキーマは非常に微妙な場合があります。
  • 同様に、グラフ分析は最終的にはリレーショナルデータ分析と同じくらい、あるいはそれ以上に重要になると思います。主な理由は、グラフを使用すると、あらゆる種類の確率過程に複数の抽象化レイヤーと発見可能性を追加することが非常に簡単になり、それによって機械学習ツールが現在直面している多くの同じ問題を解決できるためです。
  • このプロセスは逆も可能です。 SPARQL をインバウンド ストリームと共に使用して、機械言語サービスのトレーニング データを構築するためのグラフを作成できます。このトレーニング データは既存のオントロジーのコンテキストで既にラベル付けおよび識別されているため、このプロセスの利点は、結果として得られる分類子に、データの由来と注釈、確立された識別子、イベントのタイムスタンプなど、解釈に必要なすべての部分がすでに備わっていることです。
  • もう 1 つの重要な点は、SPARQL が処理するグラフを変更できることです。 SPARQL 呼び出し自体に外部コンテンツを直接処理できるサービス呼び出しを組み込むと、推論 (既存のアサーションで検出されたパターンに基づいて新しいアサーションを作成する) が特に重要になります。 SPARQL の次の主要なフェーズの 1 つは、中間コア オブジェクト (ソフトウェア ベンダーは注意してください) または RDF のソースとして、JSON を取得、処理、および生成する機能です。
  • つまり、SPARQL の将来のバージョンでは、表形式のデータを RDF として保存する必要がなくなり、代わりに JSON として保存し、その JSON (および関連する分析関数) を活用して、はるかに少ない処理リソースで、はるかに複雑な推論を作成できるようになります。同様の操作について XProc XML パイプライン処理言語を見ると、XSLT/XQuery パイプラインと RDF/SPARQL/SHACL パイプラインの違いはほとんど表面的なものであることがわかります。

この最後のポイントは非常に重要です。最新世代の Agile/DevOPS/ML 運用モデルが示すように、パイプラインと変換が未来だからです。連鎖的な変換を処理できる場合 (特に、特定のパイプラインが事前に設定されるのではなく、コンテキストによって決定される場合)、そのようなパイプラインはますます有機的な認知プロセスのように見え始めます。

原題: セマンティクスと機械学習の融合点、著者: Kurt A Cagle

<<:  デジタルツインがグローバルサプライチェーンの悪夢からの脱出にどのように役立つか

>>:  インテリジェントロボットはCOVID-19パンデミックとの戦いでどのように大きな役割を果たすことができるのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

中国の独立知的財産TianyuanディープラーニングエンジンとTensorFlowおよびPyTorchの比較を体験

[51CTO.com からのオリジナル記事] ディープラーニングを軸に早くから事業を開始した中国の ...

TensorFlow で RNN 実装を開く正しい方法

[[198810]]この記事の主な内容は、TensorFlow で RNN のいくつかの構造を実装す...

北京市海淀区に世界初のAIパークがオープン、自宅のすぐそばで自動運転車を体験できる

自動運転車に乗って公園を訪れ、休憩中にパビリオンとおしゃべりし、ランニング後に顔をスキャンして運動デ...

AIが材料科学を覆す!ディープマインドの主要な研究がネイチャー誌に掲載され、220万の結晶構造を予測し、人類より800年も先を行く

テレンス・タオ氏は、ChatGPT が数学的証明を覆すだろうと常に楽観的でしたが、現在、化学分野にお...

2024年にワイヤレス技術が接続性、効率性、消費者体験をどのように向上させるか

2024 年には、ワイヤレス テクノロジーに多くの改善がもたらされ、接続性、効率性、消費者体験が向上...

2020 年にチャットボットはどこに向かうのでしょうか?

チャットボットはかつて大々的に宣伝された期待に応えようとしており、Intercom が委託した新しい...

GPTストアはまだオープンしていないが、模倣者がすでにこの脂身の多い肉に狙いを定めている。

著者: トーマス・クラバーン編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat...

技術革命は初期の成果を達成した:AIはサプライチェーン管理の分野で2つの地位を獲得した

データ共有は依然として課題ですが、多くの組織はすでに AI の力をサプライ チェーン管理の 2 つの...

...

2022年に注目すべき5つのAI活用法

AI インフラストラクチャの継続的な革新と開発により、今日の仕事のやり方は変化しました。人工知能は...

...

AIがいかにして将来の採用担当者のスキルを生み出すか

AI が採用業務を自動化し続けるにつれて、採用担当者のスキルが変化するという共通認識が広まりつつあり...

これはGPT-4が愚かである理由についての新たな説明である

かつては世界で最も強力だと考えられていたGPT-4も、リリース以来、いくつかの「信頼の危機」を経験し...

こんなの今まで見たことないよ! AIの巨人たちが「人類絶滅説」に立ち向かい、ヒントン、アンドリュー・ン、ルカンが排除され、マスクは強く見守った

こんなことは今まで見たことがありません。AIの巨人たちが袖をまくり上げて、オンラインで「戦い」始めま...