ビッグデータと人工知能 - 機械的思考から統計的思考へ

ビッグデータと人工知能 - 機械的思考から統計的思考へ

今日は、ビッグデータ、人工知能、認知問題の解決の関係ロジックについて話す記事を書こうと思います。したがって、この記事では、基礎となる実装技術については説明しませんが、情報技術革命全体における思考ロジックの発展と進化について詳しく説明し、それらの関係性についてさらに考えていきます。

[[384048]]

ビッグデータの概念とその発展

ビッグデータの概念は5、6年前はかなり人気がありましたが、近年では全体的な人気は大幅に低下しています。データレイクやデータミドルプラットフォームなどの類似の概念が登場しています。しかし、データ ミドル プラットフォームとデータ レイクでは、ビッグ データのいくつかの重要な特性を反映することが困難です。

たとえば、ビッグデータの中核について話すとき、通常はその 4V 特性について話します。

  • データ量はPBレベル以上で十分である
  • 多様なデータタイプ、構造化データと非構造化データ
  • 高い適時性要件
  • 価値創造、ビッグデータは最終的に価値を実現する

ここ数年、ビッグデータ アプリケーションはデータの収集、統合、および保存に重点が置かれてきましたが、データ自体のアプリケーションと分析はほとんど行われてきませんでした。ビッグデータの応用と分析は、電子商取引業界や、通信や金融など顧客と直接対面する大規模グループ業界でよく行われていることがわかります。また、ターゲットマーケティング、レコメンデーションエンジン、顧客ポートレートなどにも応用のポイントがあります。つまり、理想的なアプリケーション シナリオは多数ありますが、実用的なシナリオはそれほど多くありません。

多くの企業が多くのリソース、時間、コストを投入してビッグデータプラットフォームを構築してきましたが、データの一元的な収集と保存は完了しているものの、データ自体が生み出す価値は反映されていません。

現在のデータ ミドル プラットフォームと同様に、ビッグ データ プラットフォームは OLAP 分析を実行して分析上の決定を下すだけでなく、データ機能のリアルタイムのオープン性を考慮し、ビジネスにフィードバックしてビジネスに役立てる必要があるという事実について実際に議論しています。

ビッグデータプラットフォームを構築した後は、その後のデータ運用・保守、データ管理・ガバナンス、データ分析など、継続的かつ大規模な人材投資が必要になります。データ自体が価値を生み出せないのであれば、最終的にはプラットフォームを放棄するのも当然です。

ビッグデータと従来のBI

ほとんどの企業にとって、企業情報化の展開自体もプロセスです。

初期のデータ分析は構造化データを中心に行われており、これらのデータをPBレベルに収集して一元化するのは簡単ではありません。同時に、それらはすべて構造化データです。現時点では、従来のBIシステム構築の考え方が依然として適用可能です。唯一のことは、データ量が多い場合、パフォーマンスの問題を解決するためにMPPなどの分散データ分析ライブラリに切り替える必要があるかもしれないことです。

上記の問題を解決するために Hadoop やその他のビッグデータ テクノロジ プラットフォームを完全に採用すると、実際にはまったく不要であり、技術的な複雑さとビジネス モデリングの複雑さが増すことがわかります。

なぜそんなことを言うのですか?

従来の BI 分析におけるディメンション モデリングに基づくディメンション分析、ドリルアップとドリルダウン、スライスなどの分析機能は、Hadoop のストレージと処理には適していません。 Hadoop によりデータ ストレージの拡張と SQL 分析の効率が大幅に向上しましたが、多くの BI アプリケーションではリアルタイムまたはアドホック クエリ機能は必要ありません。

つまり、企業がリアルタイムのデータ分析結果をビジネスにフィードバックする必要がなければ、問題を解決するためにすぐにそのようなビッグデータプラットフォームを構築する必要はありません。

相関関係と因果関係

初期の『ビッグデータの時代』という本は、かなり活気があったと言えます。著者はこの本の中で、「ビッグデータの3原則」を提唱しました。それは、サンプリングよりも全体を選択すること、絶対的な精度よりも効率性、因果関係よりも相関関係です。ビッグデータは因果関係の論理よりもデータ間の相関関係に重点を置いていることが改めて指摘されました。

これはビールとおむつに関するよく知られた話です。

この話は、1990年代にアメリカのウォルマートスーパーマーケットで起こった。ウォルマートのスーパーマーケットのマネージャーは、売上データを分析していたところ、不可解な現象を発見した。特定の状況下では、「ビール」と「おむつ」という一見無関係な2つの商品が、同じ買い物かごに頻繁に入っていたのだ。この特異な売上現象はマネージャーの注目を集め、その後の調査で、この現象は若い父親に起きていることが明らかになった。

若い父親が店内の 2 つの商品のうち 1 つしか買えない場合、おそらく買い物をあきらめて、ビールとおむつの両方を一度に買えるまで別の店に行くでしょう。ウォルマートはこの特異な現象を発見し、ビールとおむつを店内の同じエリアに置こうとし始めました。こうすることで、若い父親たちは両方の商品を同時に見つけ、素早く買い物を済ませることができるのです。ウォルマートのスーパーマーケットでは、こうした顧客が一度に1つだけではなく2つの商品を購入できるようにし、それによって商品の販売収入を増やすことができました。これが「ビールとおむつ」物語の起源です。

認知論理:機械的思考から情報理論へ

今日この事例を振り返ると、私たちの世界に対する認識が実際に大きな変化を遂げていることがわかります。

私たちの伝統的な思考方法は機械的な思考であり、ニュートンの偉大な貢献の 1 つは、簡単に言えば、自然界で発生するすべての現象や出来事には必ず独自の内部法則と原因があり、この原因を抽象的な数式やモデルを使用して表現できるということです。

そうすれば、同じ現象に遭遇したときに、その公式を使って問題を解決できます。

しかし、機械的思考の発達には 2 つの問題が生じます。正確なモデリングができない場合があります。これには 2 つの理由があります。まず、ターゲット Y に影響を与える X 要因が多すぎるため、網羅的に列挙して完全に理解することができません。次に、測定システムに問題があります。簡単に言えば、収集が不完全で、測定が不正確です。これらすべては、私たちの決定論的な思考に疑問を投げかけます。

この問題を解決するには 2 つの方法があります。

  • 一つは確率と統計です
  • 2つ目は、情報の不確実性の定量的表現 - 情報理論と情報エントロピー(シャノン)

情報理論はそれとは全く逆で、不確実性(仮定)に基づいています。不確実性を解決するには、情報を導入する必要があります。その結果、私たちの思考ロジックはさらなる変化を遂げ、機械的な思考からビッグデータ思考へと移行しました。

複雑な時間の中で確実性と因果関係を見つけるのは困難です --> したがって、不確実な視点から世界を見る --> 知能の問題を不確実性を排除する問題に変換する --> 対応する不確実性を排除するための情報を見つける (または、大量の関連データがこの不確実性を排除するのに役立ちます)。

たとえば、上記のビッグデータの例。

関連データ分析を通じて、ビールとおむつを一緒に販売する方法を見つけましたが、若い父親がおむつを買うときにビールを数本買う理由がわかりません。

ビッグデータの時代では、因果関係はもはや重要ではなく、重要なのはビッグデータの相関分析であるという幻想を抱くかもしれません。上記の例に戻って、考えられる因果関係を想定してみましょう。

たとえば、最も一般的な調査結果は、若い父親がおむつを購入した後、新しいおむつに交換すると子供がすぐに眠れるようになるというものかもしれません。若い父親は娯楽のための自由な時間を持てるようになりました。娯楽のための自由な時間を持てるようになったことが、ビールの購入を促す主な理由です。

原因と結果をはっきり理解すると、若い父親の娯楽方法はビールを飲むことだけではないことがわかります。家で映画や球技を観たり、ゲームをしたり、喫煙したりすることも、潜在的な娯楽方法かもしれません。実は、おむつと一緒にタバコやチューインガム、ゲームカードなどを置いても同じような販売効果が得られます。

簡単にまとめると、重要な一文は次のようになります。

相関関係だけを理解していれば、それに応じたり、従ったりすることしかできません。しかし、相関関係の背後にある因果関係を理解し​​て初めて、変化を打開したり、変化をリードしたりすることができます。

人工知能とビッグデータ

人工知能とは、簡単に言えば、コンピューターが人間の脳をシミュレートして考え、問題を解決することを意味します。

Baidu百科事典で人工知能に関する説明を見ることができます。

人工知能は、コンピューターを使用して人間の特定の思考プロセスと知的行動(学習、推論、思考、計画など)をシミュレートする方法を研究する分野です。主に、コンピューターが知能を実現する原理と、人間の脳の知能に似たコンピューターを作成して、コンピューターがより高度なアプリケーションを実現できるようにする方法が含まれます。

人工知能には、コンピューターサイエンス、心理学、哲学、言語学などの分野が関係します。自然科学と社会科学のほぼすべての分野を網羅しており、その範囲はコンピュータサイエンスの範囲をはるかに超えていると言えます。人工知能と思考科学の関係は、実践と理論の関係です。人工知能は思考科学の技術応用レベルにあり、その応用分野の1つです。

思考の観点から見ると、人工知能は論理的思考に限定されません。人工知能の画期的な発展を促進するには、比喩的思考とインスピレーション思考を考慮する必要があります。数学は多くの分野の基礎科学であると考えられています。数学は言語と思考の分野にも入り込んでいます。人工知能の分野も数学的なツールを借りなければなりません。数学は標準論理、ファジー数学などの役割を果たすだけでなく、人工知能の分野にも入り込んでいます。それらは互いに促進し合い、より速く発展します。

コンピュータは人間と同じ知能を持っています。そして、人間の知能には、識別、定義、帰納、抽象化、推論、意思決定などの能力が含まれます。

問題を解決するための考え方の 1 つについてはすでに説明しました。

つまり、問題入力 -> 既存のアルゴリズムモデル -> 問題解決

人工知能研究の初期には、人間の脳の思考と推論のプロセスを模倣することに重点が置かれていました。さまざまな入力方法を提供することで、コンピューターはアルゴリズム モデルを学習して生成できます。その後、そのモデルを使用して新しい問題を解決できます。人工ニューラル ネットワーク、遺伝的アルゴリズムなどはすべてこの考え方に従います。ただし、十分な入力を提供しないと、モデルがすぐに収束することが難しくなり、正確で決定論的なモデルを取得することが難しくなります。

ビッグデータの出現により、コンピューターで問題を解決するための新しいアイデアが形成されました。

ディープラーニング + ビッグデータ = 人工知能

つまり、従来の学習とモデリングによる推論の考え方から、統計に基づく考え方への移行です。李開復は確かにこれに大きく貢献しました。第二に、ディープラーニングの概念は統計に基づいて導入され、ディープラーニングはサンプル入力として膨大なビッグデータに依存しています。

李開復の著書『人工知能』では、ディープラーニング+ビッグデータがAIの第三波を牽引したと述べられています。簡単に言えば、人工ニューラル ネットワークの正確なモデルがどのように形成されるかを理解する必要はありません。大量のサンプル入力を通じてモデルをトレーニングし、最終的に必要な出力を取得するだけで済みます。

簡単に言えば、コンピューターが動物の写真が猫であると認識できるのは、コンピューターが猫が持つべき身体的特徴を正確に説明できるからではなく、写真の動物の特徴マトリックスがデータベース内の動物の猫と最も一致しているからです。

2017年には、GoogleのAlphaGoがイ・セドルに勝利したこともセンセーションを巻き起こし、ディープラーニングアルゴリズムと人工知能の威力を改めて証明した。人工知能に関して言えば、コンピュータの CPU の並列計算能力は人間の脳の能力をはるかに超えています。適切なディープラーニング手法を使用すれば、コンピュータ プログラムによって発揮される人工知能の能力は莫大なものになります。

つまり、ビッグデータ時代は人工知能の急速な発展を促進したのです。

本当の知性とは何でしょうか?

IT システムやアプリケーションを開発する際には、真の知性や知恵とは何かを理解しなければなりません。

コンピュータが問題を解決するとき、実は最も簡単なのは計算したり数式を解いたりすることです。これにより、コンピュータの強力な計算能力が発揮され、人間を超えることができます。

2 つ目は、固有のシナリオで策定されたルールに基づくパターン マッチングです。

スマートホームの例を参考にしてみましょう。

ドアモニターが男性オーナーの帰宅を検知すると、エアコンの温度を自動で24度に設定し、カーテンを開ける。監視によりホステスが戻ってきたことが検知されると、エアコンが26度に設定され、カーテンが閉まります。

これは典型的なシナリオベースのルール設定および実行操作です。

この場合、コンピュータの能力は最終的な決定の実行ではなく、顔認識や音声認識などの領域にあります。なぜなら、決定は完全に事前に設定されたルールに基づいて行われるからです。

本当の人工知能は、大量のデータの収集と分析に基づいて独自のルールを形成し、そのルールに基づいて関連する操作を実行する必要があります。また、新しいデータの入力に基づいてルールを継続的に調整し、最適化します。

完全自動運転と同様に、事前にルールを与えられず、非固有のモードで問題を迅速に解決し、判断を下すことは、人工知能が克服する必要がある典型的なシナリオです。

そのためには、大量のデータを収集し、迅速に分析する必要があります。ビッグデータの基礎となる技術がなければ、膨大なビッグデータの入力をインテリジェントにすることはできません。前述のAlphGoを含め、大量の歴史的なチェスゲームのインプットとトレーニングがなければ、コンピューターは人間に勝つことはできません。

コンピューターは計算能力と統計的思考に基づいて、機械をインテリジェントにする新しい方法を見つけました。

しかし、先ほど述べたように、コンピューターが原因と結果を理解していない場合、先導するのではなく従うことしかできません。囲碁でも同じことが言えます。囲碁のルールの一部を変更し、AlphGo に新しい入力トレーニングを提供しなければ、コンピューターもバカになってしまいます。

なぜ人間はコンピューターに勝てるのでしょうか? 重要なポイントの 1 つは、原因と結果、起源の探究をあきらめないことです。

情報化 -> デジタル化 -> インテリジェント化

デジタル変革について話すとき、私たちは実際には次の 3 つの重要なポイントについて話しています。

  • つながり:すべてのものがつながり、人、人と物、物と物の間のつながりの問題を解決します
  • データ: 統合とコラボレーションは接続後に生成され、コラボレーションプロセスによって自然にデータが生成される
  • インテリジェンス: データは処理され、洗練されてインテリジェントな分析アプリケーションを形成します

接続に関しては、最も基本的なビジネスコラボレーションの問題が最初に解決されていることがわかります。しかし、接続のより重要な役割は、データを生成して蓄積することです。

従来の接続は、主に人間が電子フォームにデータを手動で入力することで完了します。デジタルステージでは、接続の多様性とデータ生成の多様性という問題を解決する必要があります。同様に、さまざまなIoTセンサーデバイスを採用することで、必要な大量の入力を継続的に自動的に生成できることがわかります。また、会議の音声やビデオを録画することで、当初注目していなかったデータをさらに生成することもできます。

データ自体は、IoTの段階においてのみ、量や種類において大きな変化を遂げ、ビッグデータを生み出しています。

デジタル時代においては、ビッグデータについて改めて言及する必要があります。

ビッグデータの蓄積には、2つの効果が必要です。1つはビジネスコラボレーションに直接適用すること、もう1つは知性と知恵の能力を真に高めることです。現在、ほとんどの企業はまだ第一段階にあり、完全な意味での人工知能はまだ探求中です。

先ほど述べたことは、企業の情報化の分野にも当てはまります。つまり、コンピューターはルールを自動的に生成して適用することができ、それが完全な意味での人工知能なのです。そうでなければ、コンピューターは確立されたルールを実行するだけのものになります。よくビッグデータ推奨エンジンと呼ばれるものも含め、ビッグデータ自体が推奨アルゴリズムを形成するのではなく、既存の推奨アルゴリズムに基づいて推奨を行うのはコンピュータです。これが重要な違いです。

これは、スマート交通に関する前のセクションで示した例と似ています。

今日のスマート交通アプリケーションでは、大都市全体の交通状況を簡単に監視し、対応する道路状況情報を公開できる場合が多くあります。 GPS ナビゲーションでは、渋滞状況などの関連情報をリアルタイムで確認できることが多く、ドライバーが新しいルートを選択しやすくなります。しかし、これは依然として事後分析と処理のメカニズムです。優れたインテリジェントナビゲーションおよび交通流誘導システムは、事後処理ではなく、大量のリアルタイムデータ分析に基づいて各車両に最適なナビゲーションルートを提供する必要があります。インテリジェント交通における交通流の分配と誘導のモデルは非常に複雑であり、大量のリアルタイムデータ収集に直面して、モデルに基づいてリアルタイム分析と計算を行い、貴重な結果を提供することは、既存の情報技術で解決するのは確かに困難です。

したがって、完全な知性や知恵を獲得することは容易ではありません。

真の知恵とは、新しいものに直面した際に自ら学び、自ら適応し、自ら最適化する能力であるに違いありません。事前に設定されたルールに基づくのではなく。ルールが人間によってあらかじめ設定され、物事の因果関係や起源を探求し続ける限り、短期的にはコンピューターが人間に完全に取って代わることは不可能でしょう。

モデルを構築するのは依然として人間ですが、機械はモデルやルールを適用し、収集・統合されたビッグデータに基づいて迅速に分析や意思決定を行うことが得意です。これは、デジタル変革の第一段階で解決すべき重要なインテリジェントな問題です。

<<:  頑固なマージソートアルゴリズム

>>:  2025年までにロボットが8000万人の労働者に取って代わるのでしょうか?職を失った人はどうすればいいのでしょうか?

ブログ    
ブログ    

推薦する

コンテンツ管理と AI – ContentOps の未来

人工知能 (AI) は、退屈な日常的な作業を一つずつこなして世界を席巻しています。 AI を使用して...

...

世の中には、ほとんどコードを必要としない強力で古典的なアルゴリズムやプロジェクト事例にはどのようなものがありますか?

今日は、コードが非常に少ないけれども、非常にクールでクラシックな 4 つのアルゴリズムまたはプロジェ...

ニューロモルフィックコンピューティングを理解する: 基本原理から実験的検証まで

人間の脳は、効率的な生体エネルギーによって計算能力を部分的にサポートし、ニューロンを基本的な発火単位...

スタンフォード大学の教授が、専門家以外の人向けにAIの核となる概念を1ページで定義

スタンフォード大学のクリストファー・マニング教授は、AI 分野の中核となる概念を 1 ページを使って...

マスク氏も騙された。AIの虚偽の内容が「リアル」すぎる

イスラエルとパレスチナの紛争が深刻化するにつれ、ソーシャルメディアのプラットフォーム上には現地の情景...

Google の大きな暴露: 謎の AI ツールが明らかに、Gemini が PaLM 2 に取って代わる

「大リーク:コードネームStubbsというGoogleの謎のAIツールが暴露された」と、Xという名の...

...

ChatGPTの関数呼び出しはC3POとR2-D2がチームを組んだようなものだ

6月13日にリリースされたChatGPTの関数呼び出し機能は、自然言語の世界と既存のプログラミング言...

トークンとメモリを理解することによってのみ、ChatGPT をよりよくマスターできます。

著者: ラセル・コーン編纂者:ヤン・ジェンChatGPT のような大規模言語モデル (LLM) は ...

IEEE | わずか1秒でドローンは地上で宙返りできる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

TensorFlow、危険です! Google自身が放棄している

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

英国の消費者団体が警告:AIチャットボットがオンライン詐欺をよりプロフェッショナル化

10月28日、英国の消費者団体Which?が現地時間金曜日に発表した最新の調査結果によると、犯罪者は...

...