データサイエンスにおける強力な思考

データサイエンスにおける強力な思考

統計学の入門コースを受講したことがあるなら、データ ポイントは理論を刺激したりテストしたりするために使用できますが、両方に使用することはできないことをご存知でしょう。それはなぜでしょうか。

[[274975]]

図1

人間はあらゆるものの中にパターンを見つけるのが得意です。 真モード、偽モード、名前付きモード。 私たちはポテトチップスにエルヴィスの顔を見つけることができるような生き物です。 パターンと洞察を同一視する傾向がある場合は、データ パターンには次の 3 種類があることを覚えておいてください。

  1. データセット内外に存在するパターン/事実
  2. データセットにのみ存在するパターン/事実
  3. 想像の中にのみ存在するパターン/事実

図2: データパターンは(1)サンプル全体に存在するか、(3)xkcdのみに存在する可能性がある

データ内のパターンは、(1) 関心対象の集団全体に存在する場合もあれば、(2) サンプルのみに存在する場合もあれば、(3) 自分の頭の中だけに存在する場合もあります。

どちらがより便利であるかは、あなたの目標によって異なります。

1. インスピレーションを求める

純粋なインスピレーションを求めているなら、これらはすべて非常に適しています。アポフェニア(無関係なものの間に誤ってつながりや意味を知覚する人間の傾向)という用語のアポフェニーの風変わりな定義でさえ、あなたの創造性を刺激することができます。 創造性には決まった答えはありません。必要なのは、データを見て楽しむことだけです。 創造性はボーナスです。プロセスであまり時間を無駄にしないようにしてください。

2. 事実に忠実であること

政府があなたに課税したいとき、あなたの財務データ以外の年間のパターンについては気にしません。 事実に基づいた決定とは、借金の状況を確認し、昨年のデータを分析して、取るべきアプローチを決定することです。負債額については事実に基づいて判断されますが、その判断を行う方法は昨年のデータを分析することです。つまり、データを見て、数式を使用して評価します。手元にあるデータに対して記述統計を実行するだけで済みます。最初の 2 つのモードでは、これが非常にうまく実行されます。

3. 不確実な状況での意思決定

テンセントビデオ:統計的思考-1-統計データとは何か

ユーチューブ: https://youtu.be/OJt-k9h9pmk

時には、理想と現実の間にギャップが生じます。決定を下すために必要なすべての情報が揃っていない場合は、不確実な状況の中で方向性を見つけ、合理的な行動方針を選択する必要があります。

それが統計学であり、不確実性についての考え方を変える科学です。その目的は、欠点に遭遇したときに突然終了するのではなく、知識の限界を打ち破るイカロスのような飛躍を生み出すことです。

これがデータサイエンスの中心的な課題です。不十分なデータにどう対処するかということです。

崖のような障害物を離れる前に、現実で使用できるモデルがそれを突破できることを当然期待するでしょう。言い換えれば、パターンが本当に役立つためには、汎用的でなければなりません。

図3: 出典: xkcd

3 つのタイプのうち、不確実な状況で意思決定を行う場合、最初の (一般化可能な) モデルのみが安全です。 残念ながら、データには他の種類のパターンも見つかります。これがデータ サイエンスの中心的な問題、つまりデータが十分でない状況にどのように対処するかという問題です。

4. 一般化

データから無駄なパターンを抽出するのは純粋に人間の仕事だと考えているなら、それは間違いです。注意しないと、機械があなたに代わって同じ愚かなことを自動的に行うようになります。

ML/AI の重要な点は、発生する新しい状況について正しい一般化を行うことです。

機械学習は、アルゴリズムでデータ内のパターンを見つけ、そのパターンを使用してまったく新しいデータに対して適切な決定を下すことによって、多くの類似した決定を下す方法です。 ML/AI の用語では、一般化とは、モデルがこれまでに見たことのないデータに対してどれだけうまく機能するかを指します。 パターンベースのアプローチが古いデータでしか機能しないのであれば、何の役に立つでしょうか? ML/AI の重要な点は、発生する新しい状況に一般化できることです。

図4

そのため、リストの最初のパターンだけが機械学習に適しています。これは信号の一部であり、残りは単なるノイズです(古いデータにのみ存在し、モデルの一般化を妨げるもの)。

  • シグナル: データセット内およびデータセット外に存在するパターン。
  • ノイズ: データセット内にのみ存在するパターン。

実際、機械学習では、「オーバーフィッティング」とは、新しいデータよりも元のノイズに対してより適切に機能するソリューションを取得することを指します。機械学習で私たちが行うことのほとんどすべては、過剰適合を避けることです。

5. 適切なモデルを見つける

あなた (またはあなたのマシン) がデータから想像を絶するパターンを抽出したと仮定すると、それはどのようなパターンでしょうか? それは、関心のあるオブジェクトに存在する実際の現象 (「信号」) でしょうか、それとも現在のデータセットの特異性 (「ノイズ」) でしょうか。データセットにアクセスしたときにどのようなパターンが見つかったかをどのように判断できますか?

利用可能なすべてのデータを調べても行き詰まり、パターンが他の場所に存在するかどうかがわかりません。統計的仮説検定に対する分析アプローチは、発生する予期しない状況に依存し、データ内の既存のパターンから発生する可能性のある予期しない状況をシミュレートした結果は大きく異なる可能性があります。

[[274978]]

図5

これは、雲の中にウサギの形を見つけて、同じ雲を使ってすべての雲がウサギのように見えるかどうかをテストするようなものです。あなたの理論をテストするために、いくつかの新しい雲が必要になることを願っています。

  • 理論や疑問を裏付けるために使われたデータポイントは、同じ理論を検証するために使うことはできない。
  • データを見る前に質問する
  • 数学は常識に対する対抗手段になったことは一度もない。

ここで結論に達しました。 インスピレーションを求めてデータセットを使い果たした場合、そのデータセットを使ってインスピレーションの元となった理論を厳密にテストすることはできなくなります (数学をどれだけうまく使っても、それが基本的な常識に反することは決してありません)。

6. 難しい選択をする

つまり、選択する必要があるということです。データセットが 1 つしかない場合は、自分自身に「十分に考え、すべての統計的仮説検定を設定し、慎重かつ厳密なアプローチを取ったか、それともインスピレーションを得るためにデータをマイニングしただけか」と問いかける必要があります。

ここでの問題は、データセットが 1 つしかなく、複数必要になることです。データが大量にある場合は、ハッカー攻撃をシミュレートして、あなたの思考を混乱させます。

[[274979]]

図6

7. ユニークなテクニック

データ サイエンスで優れた成果を上げるには、データを分割して 1 つのデータセットを (少なくとも) 2 つのデータセットに変換するだけで済みます。次に、1 つをインスピレーションに使用し、もう 1 つを厳密なテストに使用します。最初にインスピレーションを与えたパターンが、あなたの意見に影響を与える可能性がなかったデータにも存在する場合、それはより有望な選択肢となるでしょう。そのパターンは、あなたがデータを掘り出そうとしている猫砂の中の物質のようなものです。

両方のデータセットに同じ現象が存在する場合、それはおそらくこれらのデータセットのどこにでも存在する普遍的な現象です。

8. 素晴らしい

吟味されない人生に生きる価値がないなら、次の 4 つの言葉が生きるためのルールになります。「データを細かく分析する」

誰もがデータを共有すれば、世界はより良い場所になるでしょう。より良い質問(分析から)に対して、より良い答え(統計から)が得られるようになります。人々がデータ分割を必須の習慣にしない唯一の理由は、前世紀にはそれがほとんどの人にとって手の届かない贅沢だったからです。データセットは非常に小さかったため、分割しようとするとおそらく何も残らないでしょう。 (データサイエンスの歴史について詳しくは、こちらをご覧ください。)

図7

データを、誰もがインスピレーションを得るために掘り下げることができる探索データセットと、探索フェーズで発見された「洞察」を専門家が厳密に確認するために後で使用できるテスト データセットに分割します。

データを分割する習慣を身につけなければ、20 世紀に留まってしまうかもしれません。

大量のデータがあるのにセグメント化されていないデータセットを見ている場合、ボトルネックは古い観点によるものである可能性があります。誰もが古い考え方に慣れすぎていて、時代の変化についていくことを忘れています。

9. 機械学習はデータの断片化の産物である

結局のところ、ここでの考え方は単純です。 1 つのデータセットを使用して理論を形成し、順序を定め、それを実行し始めることで、まったく新しいデータセットで自分が何について話しているかを理解していることを証明します。

データ セグメンテーションは、より健全なデータ文化を実現するための最もシンプルで迅速なソリューションです。

これは、統計で安全を保つ方法であり、過剰適合した ML/AI によって食い尽くされるのを避ける方法です。 実際、機械学習の歴史はデータの断片化の歴史です。

10. データサイエンスにおける最良のアイデアの適用方法

データ サイエンスの最高のアイデアを活用するには、一部のテスト データを詮索好きな人の手の届かない場所に保管し、残りのデータを完全に分析するだけです。

データ サイエンスで勝つには、データを分割して 1 つのデータセットを (少なくとも) 2 つに変換するだけです。

調査した情報を超えて実用的な洞察を提供していると思われる場合は、秘密のテスト データを使用して結論を​​確認します。 とても簡単です!

概要:データ サイエンスには、強力な論理的思考、時代の流れに遅れない洞察力、そして一連の干渉情報を破棄する勇気と注意が必要です。機械でさえ、人間の脳から独立して動作することはできません。機械も、理論と正確なモデルのサポートによる継続的な探索を必要とします。これは本当に簡単な作業ではありません。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<:  人工知能の第三の冬が来るのか?

>>:  最初にサンプルが多すぎますか? 5つのサンプリングアルゴリズムを数分で実行できます

ブログ    
ブログ    
ブログ    

推薦する

AIがソフトウェアエンジニアリングをどのように強化できるかについて知っておくべきことすべて

翻訳者 |李睿レビュー | Chonglou AI 拡張ソフトウェア エンジニアリングは、人工知能と...

機械学習の背後にある数学的な柱を理解するには、この 5 冊の本が役立ちます。

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

初心者と専門家のための機械学習に関するベスト 10 書籍

機械学習を学びたいですか? まずはこの 10 冊の本から始めましょう。 [[374789]] >...

...

「ブラックボックス」アルゴリズムの下ではAIへの信頼は疑わしいが、説明可能なAIは開発の「最初の年」を迎える

天才は左にいて、狂人は右にいます。天才と狂気の間にはわずかな境界線しかありません。 AIに関しては、...

DAMOアカデミー物流ロボットQA

1. 物流ロボットとは?物流ロボット「Xiaomanlu」は、ターミナル物流シナリオ向けに設計され...

...

Baiduの新しいAIインフラがCIFTISでデビューし、CTOの王海峰が業界インテリジェンスの推進におけるBaiduの成果を紹介

AIはあらゆる分野に新たな活力を吹き込み、AIの新しいインフラはサービス貿易部門を含む社会経済の発展...

知識が求められるポストディープラーニング時代に、知識グラフをいかに効率的かつ自動的に構築するか

ナレッジグラフは何ができるのでしょうか?ナレッジグラフを自動的かつ効率的に構築するにはどうすればよい...

企業セキュリティのための AI 生体認証

生体認証技術は、市場に登場した最新の AI イノベーションのおかげで、特に 2021 年には長年にわ...

スタンフォード大学の学生が出会い系アプリをハッキング! GAN モデルを使用して男性に変装し、顔認識システムを欺く

誰かが本当にあなたの顔を真似して、顔認識システムを回避できるのです! 最近、スタンフォード大学の研究...

スマート物流が一般的なトレンドであり、ロボット、ドローン、5Gの価値が強調されている

近年、電子商取引経済の急速な発展と人々の生活水準の継続的な向上により、物流の需要が急増していますが、...

ドローンはサメに対する私たちの考え方を変えている、と研究で判明

Google で「サメ」と検索すると、サメ​​の目撃情報に関する最近のニュースの見出しがいくつか表示...

未来の戦場は「瞬殺」の時代へ、人工知能が威力を発揮

近年、人工知能技術は飛躍的な進歩を遂げ、戦闘指揮の分野で広く応用され、観察・判断・決定・行動(OOD...