過去 50 年間で最も重要な 8 つの統計的進歩!コロンビア大学教授がAI革命を推進する統計的アイデアを列挙

過去 50 年間で最も重要な 8 つの統計的進歩!コロンビア大学教授がAI革命を推進する統計的アイデアを列挙

ディープラーニングと人工知能は誰もが知る名前になりましたが、この革命を推進する統計学の進歩はあまり知られていません。

最近の論文で、コロンビア大学の統計学教授アンドリュー・ゲルマン氏とフィンランドのアアルト大学のコンピューターサイエンス教授アキ・ベタリ氏は、過去 50 年間で最も重要な統計的アイデアを詳しく説明しています。

https://www.tandfonline.com/doi/full/10.1080/01621459.2021.1938081

著者はこれらの統計的考え方を 8 つのカテゴリに分類しています。

  1. 反事実的因果推論
  2. ブートストラップとシミュレーションベースの推論
  3. 過剰パラメータ化モデルと正規化
  4. ベイズ多段階モデル
  5. 汎用計算アルゴリズム
  6. 適応型意思決定分析
  7. 堅牢な推論
  8. 探索的データ分析

1. 反事実的因果推論

因果関係の特定は仮定に基づいて可能であり、これらの仮定は設計と分析を通じてさまざまな方法で厳密に述べられ、対処されます。

さまざまな分野でさまざまな因果推論方法が開発されてきました。計量経済学では、構造モデルとそれが平均治療効果に与える影響であり、疫学では、観察データの推論です。

因果関係の特定は認知の中核となるタスクであるため、数学的に形式化できる計算可能な問題であるはずです。パス分析と因果関係の発見は、潜在的な結果の観点から組み立てることができ、その逆も同様です。

2. ブートストラップとシミュレーションベースの推論

統計学において数学的分析を計算に置き換える傾向は、「ビッグデータ」分析が登場する前から始まっていました。

ブートストラップ法では、推定値をデータの近似十分統計量として扱い、ブートストラップ分布をデータの標本分布の近似値として扱います。

同時に、ブートストラップ法は汎用性があり計算実装が簡単なため、従来の解析近似が使用できないシナリオにも適用でき、大きな影響力を持っています。

順列テストでは、予測子とターゲット間の(可能性のある)依存関係を解消するために、ターゲット値をランダムにシャッフルして、再サンプリングされたデータセットが生成されます。

パラメータ ブートストラップ、事前および事後の予測チェック、シミュレーション ベースのキャリブレーションはすべて、データから直接再サンプリングするのではなく、モデルから複製されたデータ セットを作成することを伴います。

複雑なモデルやアルゴリズムを分析する場合、既知のデータ生成メカニズムからのサンプリングは、数学理論を補完または置き換えるシミュレーション実験を作成するためによく使用されます。

3. 過剰パラメータ化モデルと正規化

統計学における大きな変化は、安定した推定値と良好な予測値を得るために、多数のパラメータを持つモデルを適合させる正規化手順が使用されるようになったことです。

これは、ノンパラメトリックまたは高度にパラメトリックな方法の柔軟性を獲得しながら、過剰適合の問題を回避するためです。その中で、正則化は予測曲線上のパラメータまたはペナルティ関数として実装できます。

初期のモデルの例には、マルコフランダムフィールド、スプラインとガウス過程、分類と回帰ツリー、ニューラル ネットワーク、ウェーブレット縮小、最小二乗法の代替、サポート ベクター マシンなどがあります。

また、無限次元確率モデルのファミリーでは、ベイジアン ノンパラメトリック事前分布の大幅な発展がありました。これらのモデルは、サンプル サイズに応じてスケールし、パラメーターが必ずしも直接解釈できるわけではなく、より大きな予測システムの一部であるという特徴を共有しています。

4. ベイズ多段階モデル

マルチレベルまたは階層モデルにはグループごとに異なるパラメータがあり、モデルはクラスターサンプリング、縦断的研究、時系列横断データ、メタ分析、およびその他の構造化された設定に対応できます。

マルチレベル モデルは、未知の潜在的な特徴や変化するパラメータに対する確率分布を含むため、ベイズ モデルと見なすことができます。対照的に、ベイズモデルは、パラメータが与えられたデータとハイパーパラメータが与えられたパラメータの分布を持つマルチレベル構造を持ちます。

同様に、ベイズ推論は、事前情報とデータを組み合わせる方法としてだけでなく、推論や決定における不確実性を考慮する方法としても機能します。

5. 汎用計算アルゴリズム

革新的な統計アルゴリズムは、統計的な問題構造のコンテキストで開発されます。 EM アルゴリズム、ギブス サンプリング、粒子フィルター、変分推論、期待値伝播は、統計モデルの条件付き独立構造をさまざまな方法で利用します。

メトロポリス・ヘイスティングス アルゴリズムとハミルトン モンテ カルロは、統計的な問題による直接的な影響が少なく、最小二乗法と最大尤度推定値を計算する以前の最適化アルゴリズムに似ていました。

近似ベイズ計算と呼ばれる方法は、尤度関数を評価するのではなく、生成モデルをシミュレートすることによって事後推論を取得し、尤度の分析形式が扱いにくいか計算コストが高い場合に使用できます。

6. 適応型意思決定分析

適応型意思決定分析の発展は、効用最大化、誤り率制御、経験的ベイズ分析、ベイズ意思決定理論、誤発見率分析を通じて見ることができます。

統計的意思決定分析における重要な進歩には、ベイズ最適化と強化学習があり、これらは A/B テストの実験設計の復活に関連しています。

計算能力の発達により、ガウス過程やニューラルネットワークなどのパラメータが豊富なモデルを関数事前分布として使用し、大規模な強化学習を実行できるようになりました。たとえば、AI はロボットを制御したり、テキストを生成したり、囲碁などのゲームをプレイしたりするために作成されます。

この研究の多くは、統計学の枠外で、非負行列分解、非線形次元削減、生成的敵対ネットワーク、オートエンコーダなどの手法を使用して行われてきました。これらはすべて、構造と分解を見つけるための教師なし学習手法です。

7. 堅牢な推論

堅牢性の概念は、現代の統計学の中核をなしています。その重要性は、モデルの仮定が間違っていても、モデルを使用できるという点にあります。

統計理論の重要な部分は、これらの仮定が破られた場合でもうまく機能するモデルを開発することです。

一般に、統計研究における堅牢性の主な影響は、特定の方法の開発ではなく、データ生成プロセスが確率モデルの適合の範疇に該当しない統計手順の評価にあります。

研究者の堅牢性に関する懸念は、現代の統計学の特徴である高密度にパラメータ化されたモデルに関連しており、より一般的にはモデル評価に影響を及ぼすことになる。

8. 探索的データ分析

探索的データ分析では、漸近理論の限界と、それに伴うオープンエンドの探索とコミュニケーションの利点を強調します。これは、固定された仮説のテストよりも発見に重点を置く統計モデリングの考え方と一致しています。

コンピューティングの進歩により、専門家は大規模で複雑なモデルを迅速に構築できるようになり、統計グラフがデータ、適合モデル、予測の関係を理解するのに役立つという考えが生まれました。

要約する

コンピューティング能力の向上に伴い、モデリングの必要性が必然的に高まるため、分析の要約と近似値の価値も高まります。

同時に、統計理論は統計手法の仕組みを理解するのに役立ち、数学的論理はデータ分析のための新しいモデルや手法を生み出すきっかけとなります。

著者らは、これらの方法により、統計に関する新しい考え方やデータ分析への新しいアプローチが生まれると主張している。

反事実的フレームワークは、因果推論を統計的または予測的フレームワーク内に配置します。これにより、因果推定値は統計モデル内の観測されていないデータに関して正確に定義および表現され、調査のサンプリングや欠損データの補完におけるアイデアに結び付けられます。

ブートストラップ法は、暗黙的なノンパラメトリック モデリングの形式への扉を開きます。複雑な調査、実験設計、および分析計算に適さないその他のデータ構造におけるバイアス補正と分散推定に使用できます。

過剰パラメータ化モデルと正規化は、データからパラメータを推定する能力に基づいてモデル サイズを制限する既存の手法を形式化し、一般化します。これは、相互検証と情報基準に関連しています。その中で、正規化により、ユーザーは過剰適合を心配することなく、モデルにさらに多くの予測子を含めることができます。

マルチレベル モデルは、より広範な問題クラスにわたって計算および推論の安定性が高い方法を使用して、データから事前分布を推定する「経験的ベイズ」手法を形式化します。

汎用計算アルゴリズムにより、応用専門家は因果推論、マルチレベル分析、強化学習、その他多くの分野に高度なモデルを迅速に適合させることができ、統計学や機械学習の核となる考え方に幅広い影響を与えます。

適応型意思決定分析は、従来の実験設計をはるかに超えて、最適制御のエンジニアリング問題と統計学習の分野を橋渡しします。

ロバストな推論により、さまざまな手順の正式な評価とモデリングが可能になり、モデルの誤った指定における外れ値やその他の曖昧さに対処するための問題を組み立てることができます。また、ロバストな推論から得られたアイデアは、ノンパラメトリック推定に情報を提供します。

探索的データ分析により、グラフィカルな手法と発見が統計実践の主流となり、これらのツールを使用して、新しい複雑なクラスの確率モデルをデータに適合させる問題をより深く理解し、診断できるようになりました。

著者について

[[410179]]

アンドリュー・ゲルマンはコロンビア大学の統計学教授です。彼はアメリカ統計学会の優秀統計応用賞と、40 歳以下の優れた貢献に対して統計学会会長評議会賞を受賞しました。

<<:  肖亜青工業情報化大臣:我が国はAI発明特許の取得数で世界一である

>>:  革新的なトランスフォーマー!清華大学はSOTAを実現する長期時系列予測のための新しいバックボーンネットワークを提案

ブログ    

推薦する

アンドリュー・ングのパレートの法則: データの 80% + モデルの 20% = より優れた機械学習

機械学習の進歩がモデルによってもたらされるのか、それともデータによってもたらされるのかは、今世紀の論...

研究によると、人工知能が書いたツイートに騙される可能性が高くなる

6月29日のニュースによると、新たな研究によると、人間が書いたツイートよりも、人工知能の言語モデルに...

頻繁にミスを犯す自動運転車は「ドメイン適応」が欠如している可能性がある

6月に開催されるCVPR 2019は、マシンビジョン分野で最も重要な学術会議です。選考結果が発表され...

...

...

人工知能が人間の能力を高める4つの方法

調査会社ガートナーの調査によると、2021年までに世界中の組織が人工知能を通じて約3兆ドルのビジネス...

...

配達員は失業してしまうのでしょうか?美団、無人配達システム構築のため650億元を調達

最近、国内のインターネット大手はコミュニティグループ購入の分野で激しい競争を繰り広げており、アリババ...

2022年の自動運転のトップ10トレンドが発表されました。データインテリジェンスシステムは、自動運転の商用化のクローズドループの鍵となるでしょうか?

「2022年は自動運転産業の発展にとって最も重要な年となるだろう。乗用車の運転支援分野での競争は正...

...

人工知能が持続可能な開発を推進する5つの方法

フォーチュン 500 にランクされる世界的なテクノロジー サービス企業 DXC Technology...

...

文脈学習 = 対照学習?人民大学が ICL 推論の背後にある暗黙の更新メカニズムを明らかに: 勾配は更新されるのか? 「さらに」

近年、Transformer に基づく大規模言語モデルは、驚くべきコンテキスト内学習 (ICL) 機...

設計原則、テスト指標...顔アルゴリズムテストのハードコアスキルを体系的に整理

ビジュアル AI 分野の開発者にとって、適切なアルゴリズムを選択することはプロジェクトの戦いの半分を...

解雇はランダムに行われますか? Googleの上級エンジニアが従業員が抗議活動を準備していることを明らかに

「グーグルには現在、先見の明のあるリーダーはいない。経営陣から上級副社長、副社長に至るまで、彼らは皆...