過去 50 年間で最も重要な 8 つの統計的進歩!コロンビア大学教授がAI革命を推進する統計的アイデアを列挙

ディープラーニングと人工知能は誰もが知る名前になりましたが、この革命を推進する統計学の進歩はあまり知られていません。

最近の論文で、コロンビア大学の統計学教授アンドリュー・ゲルマン氏とフィンランドのアアルト大学のコンピューターサイエンス教授アキ・ベタリ氏は、過去 50 年間で最も重要な統計的アイデアを詳しく説明しています。

https://www.tandfonline.com/doi/full/10.1080/01621459.2021.1938081

著者はこれらの統計的考え方を 8 つのカテゴリに分類しています。

反事実的因果推論
ブートストラップとシミュレーションベースの推論
過剰パラメータ化モデルと正規化
ベイズ多段階モデル
汎用計算アルゴリズム
適応型意思決定分析
堅牢な推論
探索的データ分析

1. 反事実的因果推論

因果関係の特定は仮定に基づいて可能であり、これらの仮定は設計と分析を通じてさまざまな方法で厳密に述べられ、対処されます。

さまざまな分野でさまざまな因果推論方法が開発されてきました。計量経済学では、構造モデルとそれが平均治療効果に与える影響であり、疫学では、観察データの推論です。

因果関係の特定は認知の中核となるタスクであるため、数学的に形式化できる計算可能な問題であるはずです。パス分析と因果関係の発見は、潜在的な結果の観点から組み立てることができ、その逆も同様です。

2. ブートストラップとシミュレーションベースの推論

統計学において数学的分析を計算に置き換える傾向は、「ビッグデータ」分析が登場する前から始まっていました。

ブートストラップ法では、推定値をデータの近似十分統計量として扱い、ブートストラップ分布をデータの標本分布の近似値として扱います。

同時に、ブートストラップ法は汎用性があり計算実装が簡単なため、従来の解析近似が使用できないシナリオにも適用でき、大きな影響力を持っています。

順列テストでは、予測子とターゲット間の（可能性のある）依存関係を解消するために、ターゲット値をランダムにシャッフルして、再サンプリングされたデータセットが生成されます。

パラメータブートストラップ、事前および事後の予測チェック、シミュレーションベースのキャリブレーションはすべて、データから直接再サンプリングするのではなく、モデルから複製されたデータセットを作成することを伴います。

複雑なモデルやアルゴリズムを分析する場合、既知のデータ生成メカニズムからのサンプリングは、数学理論を補完または置き換えるシミュレーション実験を作成するためによく使用されます。

3. 過剰パラメータ化モデルと正規化

統計学における大きな変化は、安定した推定値と良好な予測値を得るために、多数のパラメータを持つモデルを適合させる正規化手順が使用されるようになったことです。

これは、ノンパラメトリックまたは高度にパラメトリックな方法の柔軟性を獲得しながら、過剰適合の問題を回避するためです。その中で、正則化は予測曲線上のパラメータまたはペナルティ関数として実装できます。

初期のモデルの例には、マルコフランダムフィールド、スプラインとガウス過程、分類と回帰ツリー、ニューラルネットワーク、ウェーブレット縮小、最小二乗法の代替、サポートベクターマシンなどがあります。

また、無限次元確率モデルのファミリーでは、ベイジアンノンパラメトリック事前分布の大幅な発展がありました。これらのモデルは、サンプルサイズに応じてスケールし、パラメーターが必ずしも直接解釈できるわけではなく、より大きな予測システムの一部であるという特徴を共有しています。

4. ベイズ多段階モデル

マルチレベルまたは階層モデルにはグループごとに異なるパラメータがあり、モデルはクラスターサンプリング、縦断的研究、時系列横断データ、メタ分析、およびその他の構造化された設定に対応できます。

マルチレベルモデルは、未知の潜在的な特徴や変化するパラメータに対する確率分布を含むため、ベイズモデルと見なすことができます。対照的に、ベイズモデルは、パラメータが与えられたデータとハイパーパラメータが与えられたパラメータの分布を持つマルチレベル構造を持ちます。

同様に、ベイズ推論は、事前情報とデータを組み合わせる方法としてだけでなく、推論や決定における不確実性を考慮する方法としても機能します。

5. 汎用計算アルゴリズム

革新的な統計アルゴリズムは、統計的な問題構造のコンテキストで開発されます。 EM アルゴリズム、ギブスサンプリング、粒子フィルター、変分推論、期待値伝播は、統計モデルの条件付き独立構造をさまざまな方法で利用します。

メトロポリス・ヘイスティングスアルゴリズムとハミルトンモンテカルロは、統計的な問題による直接的な影響が少なく、最小二乗法と最大尤度推定値を計算する以前の最適化アルゴリズムに似ていました。

近似ベイズ計算と呼ばれる方法は、尤度関数を評価するのではなく、生成モデルをシミュレートすることによって事後推論を取得し、尤度の分析形式が扱いにくいか計算コストが高い場合に使用できます。

6. 適応型意思決定分析

適応型意思決定分析の発展は、効用最大化、誤り率制御、経験的ベイズ分析、ベイズ意思決定理論、誤発見率分析を通じて見ることができます。

統計的意思決定分析における重要な進歩には、ベイズ最適化と強化学習があり、これらは A/B テストの実験設計の復活に関連しています。

計算能力の発達により、ガウス過程やニューラルネットワークなどのパラメータが豊富なモデルを関数事前分布として使用し、大規模な強化学習を実行できるようになりました。たとえば、AI はロボットを制御したり、テキストを生成したり、囲碁などのゲームをプレイしたりするために作成されます。

この研究の多くは、統計学の枠外で、非負行列分解、非線形次元削減、生成的敵対ネットワーク、オートエンコーダなどの手法を使用して行われてきました。これらはすべて、構造と分解を見つけるための教師なし学習手法です。

7. 堅牢な推論

堅牢性の概念は、現代の統計学の中核をなしています。その重要性は、モデルの仮定が間違っていても、モデルを使用できるという点にあります。

統計理論の重要な部分は、これらの仮定が破られた場合でもうまく機能するモデルを開発することです。

一般に、統計研究における堅牢性の主な影響は、特定の方法の開発ではなく、データ生成プロセスが確率モデルの適合の範疇に該当しない統計手順の評価にあります。

研究者の堅牢性に関する懸念は、現代の統計学の特徴である高密度にパラメータ化されたモデルに関連しており、より一般的にはモデル評価に影響を及ぼすことになる。

8. 探索的データ分析

探索的データ分析では、漸近理論の限界と、それに伴うオープンエンドの探索とコミュニケーションの利点を強調します。これは、固定された仮説のテストよりも発見に重点を置く統計モデリングの考え方と一致しています。

コンピューティングの進歩により、専門家は大規模で複雑なモデルを迅速に構築できるようになり、統計グラフがデータ、適合モデル、予測の関係を理解するのに役立つという考えが生まれました。

要約する

コンピューティング能力の向上に伴い、モデリングの必要性が必然的に高まるため、分析の要約と近似値の価値も高まります。

同時に、統計理論は統計手法の仕組みを理解するのに役立ち、数学的論理はデータ分析のための新しいモデルや手法を生み出すきっかけとなります。

著者らは、これらの方法により、統計に関する新しい考え方やデータ分析への新しいアプローチが生まれると主張している。

反事実的フレームワークは、因果推論を統計的または予測的フレームワーク内に配置します。これにより、因果推定値は統計モデル内の観測されていないデータに関して正確に定義および表現され、調査のサンプリングや欠損データの補完におけるアイデアに結び付けられます。

ブートストラップ法は、暗黙的なノンパラメトリックモデリングの形式への扉を開きます。複雑な調査、実験設計、および分析計算に適さないその他のデータ構造におけるバイアス補正と分散推定に使用できます。

過剰パラメータ化モデルと正規化は、データからパラメータを推定する能力に基づいてモデルサイズを制限する既存の手法を形式化し、一般化します。これは、相互検証と情報基準に関連しています。その中で、正規化により、ユーザーは過剰適合を心配することなく、モデルにさらに多くの予測子を含めることができます。

マルチレベルモデルは、より広範な問題クラスにわたって計算および推論の安定性が高い方法を使用して、データから事前分布を推定する「経験的ベイズ」手法を形式化します。

汎用計算アルゴリズムにより、応用専門家は因果推論、マルチレベル分析、強化学習、その他多くの分野に高度なモデルを迅速に適合させることができ、統計学や機械学習の核となる考え方に幅広い影響を与えます。

適応型意思決定分析は、従来の実験設計をはるかに超えて、最適制御のエンジニアリング問題と統計学習の分野を橋渡しします。

ロバストな推論により、さまざまな手順の正式な評価とモデリングが可能になり、モデルの誤った指定における外れ値やその他の曖昧さに対処するための問題を組み立てることができます。また、ロバストな推論から得られたアイデアは、ノンパラメトリック推定に情報を提供します。

探索的データ分析により、グラフィカルな手法と発見が統計実践の主流となり、これらのツールを使用して、新しい複雑なクラスの確率モデルをデータに適合させる問題をより深く理解し、診断できるようになりました。

著者について

アンドリュー・ゲルマンはコロンビア大学の統計学教授です。彼はアメリカ統計学会の優秀統計応用賞と、40 歳以下の優れた貢献に対して統計学会会長評議会賞を受賞しました。

<<: 肖亜青工業情報化大臣：我が国はAI発明特許の取得数で世界一である

>>: 革新的なトランスフォーマー！清華大学はSOTAを実現する長期時系列予測のための新しいバックボーンネットワークを提案

過去 50 年間で最も重要な 8 つの統計的進歩!コロンビア大学教授がAI革命を推進する統計的アイデアを列挙

要約する

機械学習における3つの重要なデータ課題

ChatGPT パラメータが 200 億しかないとは思いませんでした。

馬毅教授の新作：ホワイトボックスViTが「セグメンテーション創発」に成功、経験的ディープラーニングの時代は終焉か？

マスク氏のロボットショーは何百万人ものネットユーザーを魅了した！

サーバーが過負荷状態です! GANで生成された肖像油絵は人気があり、一瞬でルネッサンス時代に戻ることができます

LIDAR ポイントクラウドの自己教師あり事前トレーニング用 SOTA!

AI は無限であり、あなたの声によって動かされます。マイクロソフトは慈善団体や業界のパートナーと協力し、テクノロジーで愛を育むお手伝いをします。

あなたが私に言うと思いますよ！「私は数え切れないほどの映画を見てきました」ChatGPT、数分で私の記憶の奥深くにある映画を推測してください！

2021年1月から2月までの中国人工知能の月次情報まとめ

推薦する

GPU + 生成AIが時空間データ分析の改善に貢献

モデルは、人々の言葉をいくつか聞くことで、よりよく学習できるでしょうか?スタンフォード大学は学習を支援するために言語説明を使うことを提案している

食品市場における産業用ロボット、2026年までに7億4500万米ドルに達すると予想

自動運転車の分野での課題は何ですか?

2017 年の機械学習開発に関するトップ 10 の予測: 悲観的か現実的か?

Google のロボットアームはハンカチなど、柔らかいものも硬いものもつかむことができます。 ICRA 2021が承認されました

Google: 2020年5月のコアアルゴリズムアップデート、多数のウェブサイトに影響

スマートシティGPT?ジェネレーティブAIがスマートシティにどのように役立つか

AI投資を最大限に活用するための6つのステップ

遠隔管理+早期警告人工知能が危険物輸送の安全性を向上

人工知能の導入は、より費用対効果の高い臨床試験の新しい時代を告げるだろう