ついに、データ、情報、アルゴリズム、統計、確率、データマイニングをわかりやすく説明してくれる人がいました!

ついに、データ、情報、アルゴリズム、統計、確率、データマイニングをわかりやすく説明してくれる人がいました!

[[282346]]

データとは何か

データとは何でしょうか? これは私たちがほとんど無視する質問になっています。

私の友人の多くは、心の中で直接「数字」という言葉を思い浮かべるかもしれません。「数字はデータです」と、絶対的な確信を持って私に言う友人もいると思います。

少し考えた後、「数字も文字もアルファベットもすべてデータだよ」と答える友達もいるでしょう。

どちらの答えがより正しいのか、それとも 2 番目の答えの方が合理的なのか、今疑問に思っているかどうかはわかりません。それは今は置いておきましょう。次の例を見てみましょう。

ここにはゼロが 6 つあります。これはデータですか?

次の例を見てみましょう。

ここには 1 が 4 つと 2 つあるので、これはデータでしょうか?

おそらくあなたは首を振って「これはいったい何を意味するのか」と言うかもしれません。そうです、これはデータを理解するプロセスにおける致命的な問題であり、私たちが始めるときに私たちの行く手を阻むほどです。

先ほどの問いをもう一度考えてみると、自分自身にも他人にももっと納得のいく答えが得られるかもしれません。「情報を伝えるものはすべてデータです」。つまり、石に刻まれた絵であれ、浜辺に子供が書いた曲がった字であれ、ヒッピーが壁に描いた落書きであれ、それが何らかの明確な意味を表している限り、その記号はデータとみなすことができます。そして、情報を持たないシンボルはデータではありません。この見解は、以前の回答よりもはるかに合理的かつ科学的であるように思われますが、本当に補足する必要があるのでしょうか?

両方の例に特別なシナリオがあると仮定しましょう。最初のグループの 6 つのゼロは、実際には時間、分、秒の略語であるとします。000000 は 00:00:00 を意味し、112349 と書かれると、11:23:49 を意味します。では、これもデータでしょうか? 2 番目のグループの 5 つの 1 と 2 つの a は、実際にはコードのセットであるとします。5 つの 1 は合意された場所を表し、aa は合意されたイベントを表します。では、この数字と文字のグループの意味には、対応する解釈があります。では、これもデータでしょうか?

いくつかのシンボルがデータとして認識されるためには、特定の情報を伝達する必要があることは容易に理解できます。情報はシナリオと通訳者の認知に依存する可能性が高いため、一部のシンボルがデータとして見なされるかどうかは、通訳者の主観的な視点に大きく依存します。この見解に同意するかどうかは分かりませんが、それは非常に重要です。

情報とは何か

この時点で、同僚の Juanjuan は私に非常に真剣に、そして厳粛に言いました。「数字、文字、画像はすべてデータだと思います。それが情報であるかどうかは関係ありません。」彼女が私と真剣に議論しているのを見て、私はそれが良いことだと思いました。少なくとも、データを理解するプロセスで積極的に考えることには利点しかありません。

「情報」という言葉には、実は学術的背景がなくてもさまざまな解釈があります。例えば、ラジオの音、インターネット上のメッセージ、通信システムで伝送・処理される音声オブジェクト、さらにはコミュニティやキャンパス内の掲示板など、つまり人間社会が伝えるあらゆるコンテンツです。 1948 年、数学者クロード・エルウッド・シャノンは「コミュニケーションの数学的理論」と題する論文の中で、「情報とはランダムな不確実性を排除するために使われるものである」と指摘しました。この文を説明する例を挙げると、おそらく次のようなシナリオを想像できるでしょう。

私は2つの文を言いました。「私は今年33歳です。」 「来年34歳になります。」

したがって、最初の文は私を知らない人に私の年齢を紹介することを意図しているため情報とみなすことができますが、2 番目の文は情報ではありません。少なくとも、最初の文を言った後には、次の文は最初の文から完全に推測できるため、単なるナンセンスであると感じるでしょう。

たとえば、ある日、ブラジルのサッカーチームと中国のサッカーチームが試合をしました。

  • その結果、張三は翌日私に「昨日はブラジルチームが勝った」と言った。
  • すると李思は私に「中国チームは昨日負けました」と言った。
  • すると王武は私に「昨日の試合は引き分けではなかった」と言った。

前提として、彼ら全員が真実を語る人々である限り、私にとっては張三が語ったことだけが情報とみなされ、李斯と王武が語ったことは情報とはみなされません。張三の「ブラジルは昨日勝った」という言葉が情報としてカウントされるかどうかさえ疑わしい。なぜなら、それは少し「ナンセンス」にも聞こえるからだ。サッカーに少しでも詳しい人なら、たとえブラジルが昨日勝ったと言わなくても、私がほぼ正確に推測できることをほぼ確認できるだろう。なぜなら、その可能性は非常に大きく、ほぼ確実で、ほとんど疑いの余地がないからだ。中国代表サッカーチームのファンの皆さん、手にした腐った卵とトマトを置いて、私が例を説明するのを最後まで聞いてください。

これで、情報とは何かがずっと明確になりましたね。情報とは、私たちが明確に理解していない事柄を明確にする記述であると大まかに考えることができます。そして、すでに明確または既知の事柄が再び私たちに知られるようになると、既知の内容はもはや情報ではなくなります。この概念は非常に便利です。定量的な説明は、後で情報理論について話すときに行います。今は定性的な理解だけをしておきましょう。

データと情報は、データマイニングや機械学習の分野で私たちが日々扱うものの基礎であり、私たちの研究の主な対象でもあります。したがって、データと情報をより一貫して理解することは、後で問題を議論する際に非常に役立ちます。

アルゴリズムとは何か

「アルゴリズム」という名前は、誰もが知っているはずです。情報関連を専攻する学部生であれば、少なくとも学部1年目または2年目には、多くのアルゴリズムに触れたことがあるでしょう。人材紹介のウェブサイトを開いて、「アルゴリズム エンジニア」を検索してみてください。優秀なアルゴリズム エンジニアの年収は、簡単に 30 万ドル、50 万ドル、あるいは数百万ドルに達することもあります。

アルゴリズムとは何ですか? アルゴリズムは、「計算の方法または技術」として理解できます。コンピューターでは、アルゴリズムは主に、データと計算を処理して処理結果を取得するために使用するロジックと手順をコンピューターに指示する 1 つまたは複数のプログラムを指します。

情報系の専攻を卒業した友人は、これを見るとより身近に感じるでしょう。「バブルソート」アルゴリズムなど、高級言語に基づくすべての入門「データ構造」コースでほぼ必須のアルゴリズムなど、多くの古典的なアルゴリズムがあります。別の例としては、「8つのクイーン問題」アルゴリズムがあります。これは、網羅的計算(つまり、水平、垂直、斜めに無制限に移動できる8つのクイーンをチェスボードに配置し、互いに攻撃できないようにし、解決策がいくつあるかを確認する)について話すときのほぼ古典的な予約アルゴリズムケースです。MD5アルゴリズム、ZIP2圧縮アルゴリズムなど、私たちが聞いたことのあるアルゴリズムも多数あり、数え切れないほど多くのアルゴリズムがあります。下の図は、8 つのクイーンの問題に対する一連の解です。網羅的な列挙により、92 個の解をすべて見つけることができます。

[[282351]]

アルゴリズムはデータ処理の魂であると言ってもいいでしょう。データと情報が原材料であり、データ分析の結論が料理であるとすれば、アルゴリズムは調理プロセスです。データが翡翠であり、データに含まれる知識が値段のつけられない美しさであるとすれば、アルゴリズムは翡翠を研磨して加工するための工作機械とプロセスフローです。

高級言語の長年にわたる開発により、アルゴリズムは、人々が呼び出すためのオープンインターフェースを持つ独立した関数またはクラスにますますカプセル化されています。ただし、アルゴリズムがどれだけうまくカプセル化されていても、考えずに使用してメリットを得られるものではありません。これらのカプセル化は、車輪の再発明をある程度まで防ぐだけであることを知っておく必要があります。

アルゴリズムはアルゴリズム エンジニアの仕事であり、一般のプログラマーやアナリストとは何の関係もないと考えないでください。アルゴリズムは、最終的には処理ロジックを理解する問題です。

孫子の兵法書には、「軍隊を使うことのデメリットを十分に理解していなければ、軍隊を使うことのメリットを十分に理解することはできない」とあります。これは、軍隊を使って戦争を戦うことのデメリットと欠点を十分に理解していなければ、軍隊を使って戦争を戦うことのメリットを十分に理解することは不可能であることを意味します。アルゴリズムの適用は弁証法的なプロセスです。異なるアルゴリズムの比較と組み合わせの間には弁証法的な関係があるだけでなく、同じアルゴリズムでも、異なるパラメータとしきい値の設定によって結果が大きく異なり、データ解釈の科学的性質にも影響を及ぼします。この点にご注意ください。

統計、確率、データマイニング

統計、確率、データマイニング、これらの言葉はしばしば一緒に登場します。特に統計と確率という 2 つの概念は、自然界の関連する鉱物のようにほとんど切り離せないものです。多くの出版社が「確率と統計」というタイトルの本を出版しています。

弊社の本自体は、学術的な観点から統計と確率を厳密に区別することを意図したものではありません。日常業務で使用している統計は、主にカウント関数です。例えば、EXCEL を使用する際にも、COUNT、SUM、AVERAGE などの統計関数を使用します。ソフトウェア開発に従事している友人であれば、SQL 言語を使用して、データベースの特定のフィールドに対してカウント (count)、合計 (sum)、平均 (avg) などの関数を実行できます。確率の応用では、主にサンプルの数や割合に基づいて「確率」や「分布率」などの記述値を取得します。もちろん、確率の用途はこれら以外にもたくさんあります。データマイニングでは、確率に関連したアルゴリズムも数多く使用されています。

データマイニングという用語は機械学習と一緒に使われることが多く、現在、これら 2 つの用語の関係についてはコンセンサスが得られていません。データマイニングには機械学習が含まれると主張する人もいれば、機械学習はデータマイニングの発展のより高い段階であると主張する人もいます。私の意見では、データマイニングや機械学習などの用語は情報科学の自然な進化と派生であり、ある程度の慣習があります。人によって意見が異なるのは当然です。

これが私の見解です。

まず第一に、この2つの言葉の間に境界線を引いたり、厳密に概念的に区別したりする必要はないと思います。なぜなら、今のところ区別の基準となる科学的かつ議論の余地のない定義がないからです。さらに、アルゴリズムがデータマイニングと機械学習のどちらのカテゴリに属する​​か区別できるかどうかは、アルゴリズム自体の使用には影響しません。この二つの単語の説明を聞きたいのであれば、文字通りの意味から理解するだけで十分です。

データマイニング - まず、研究対象となる一定量のデータがあります。マイニング - その名の通り、表面を一目見ただけでは理解できないことがあることを意味します。最終的にそこからパターンや知識を見つけるには、徹底的な調査、比較、識別などが必要です。「マイニング」という言葉は非常に鮮明です。

機械学習 - まず、人間の学習の目的は何なのかを考えてみましょう。それは、知識、能力、スキルを習得し、最終的にはより複雑で要求の厳しい作業を行えるようにすることです。では、機械との類似点を考えてみましょう。機械に学習させる場合、学習内容に関係なく、最終的な目標は、比較的複雑または要求の厳しいタスクを機械が独立して、または少なくとも半独立して実行できるようにすることです。ここで言及した機械学習は、大規模なデータの識別、分類、パターンの要約など、人間が行うには時間のかかるタスクを機械が手助けできるようにすることを目的としています。しかし、データマイニングで生まれた機械学習の概念は、いわゆる「人工知能」からは程遠いものであることに注意してください。ここでの「知能」のレベルは実に低すぎるからです。

ビジネスインテリジェンスとは

ビッグデータと一緒によく登場するもう 1 つの用語はビジネス インテリジェンスで、通常は BI (Business Intelligence) と呼ばれます。

[[282352]]

ビジネス インテリジェンス - 業界で一般的に受け入れられている用語は、1996 年に Gartner Group によって初めて提案されたビジネス コンセプトであり、事実に基づくサポート システムを適用してビジネス上の意思決定を支援します。ビジネス インテリジェンス テクノロジーは、データの収集、管理、分析、およびこれらのデータの有用な情報への変換など、企業がデータを迅速に分析できるようにするテクノロジーと方法を提供します。この本のような概念がまだ理解しにくい場合は、鮮明な比喩を聞いてください。

企業は日々の業務の中で多くの決定を下す必要があり、それは企業のあらゆる側面で常に発生しています。最終決定は、株主総会で議論されるか、企業の経営部門の責任者が直接下すかに関係なく、最終的には主観的または客観的な多くの要因の影響が組み合わさった結果となる可能性があります。

こうした決定はどのようにして下されるのでしょうか。リーダーは経験に基づいて決定を下すことができます。全員が会議を通じて決定を下すこともできます。多くの業界の専門家に相談することもできます。占い師に相談することもできます...概念的には、これらはすべて補助的な意思決定です。当然のことながら、私たちは皆、これらの決定や命令が最終的にどのようになされるかに関わらず、より合理的、科学的、かつ正しいものであるべきだと期待しています。しかし、より合理的で科学的かつ正しい意思決定を行うために、どのように支援すればよいのでしょうか? ビジネス インテリジェンス全体は、このようなトピックを研究することです。 これまでのところ、業界で一般的に認められている方法は、大量のデータに基づく規則性分析です。したがって、市場にある成熟したビジネス インテリジェンス ソフトウェアのほとんどは、データ モデリングと分析、およびデータ マイニングとレポート作成のためのデータ ウェアハウスに基づいています。

ビジネス インテリジェンスは、特殊かつ大規模なアプリケーション分野であると同時に、データ マイニングや機械学習アプリケーションにとって自然で親密なシナリオでもあると言えます。さらに、ビジネス インテリジェンスの問題解決の概念は、ビジネスだけでなく、国防や軍事、交通最適化、環境ガバナンス、世論分析、天気予報などにも応用できます。

<<:  AIで意思決定を自動化するのは超簡単ですか?

>>:  例を見ればそれが分かります! MAXHUBはCOFCOとGuoqiaoyuanの小売業変革を支援します

ブログ    
ブログ    
ブログ    

推薦する

科学者たちはショウジョウバエの脳をハッキングしてNLPタスクを実行し、BERTよりも効率的であることを発見した。

人工ニューラルネットワークを長い間研究した後、動物の答えをコピーして貼り付ける方が良いのでしょうか?...

LSTMに匹敵するTransformerは機械学習界に火をつけました。それは万能です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2021年中国人工知能産業の現在の市場状況と有利な軌道の分析コンピュータビジョン軌道

——原題:2021年中国人工知能産業の市場現状と有利な軌道の分析。コンピュータビジョンは1000億...

...

AIが伝染病と闘う: 時折の恥ずかしさの裏に究極の防壁が現れる

人類と新型コロナウイルスとの戦いは今も続いていますが、この間、さまざまな「人工知能+」アプリケーショ...

ロボットが密かに出産してみんなを驚かせている?

[[439390]]中国国営ラジオの12月7日の北京での「ニュースハイパーリンク」によると、米国の...

インテルがモービルアイを買収、自動運転市場は3社間の競争の幕開けか

[51CTO.comより引用] 先日、インテルは、自動運転プラットフォームプロバイダーのMobile...

...

生成 AI は現在の DevOps および SRE 作業システムをどのようにサポートしますか?

こんにちは、ルガです。今日は、人工知能エコシステムの中核技術である「生成型人工知能」を意味する GA...

ドローンの耐久性の低さの問題を軽減するために、一般の人がこれを行うことができます

[[396949]]近年、新世代の通信およびナビゲーション技術の継続的な進歩を背景に、我が国のドロー...

データ、アルゴリズム、処理は人工知能にとって不可欠である

[[276859]]人工知能プロジェクトにおいて、最も重要なのはデータ、アルゴリズム、プロセスのうち...

...

実行に少量の計算リソースとメモリリソースしか必要としないSmall Llama大規模モデル

背景今日のデータ爆発の時代では、言語モデルのトレーニングはますます複雑かつ困難になっています。効率的...

AI一般技術の探求 WOT2019 グローバル人工知能技術サミットが継続

[51CTO.comより引用] 6月21日、WOT2019グローバルテクノロジーサミットとグローバル...