Ma Yi と Shen Xiangyang が協力して、最初の CPAL 賞を発表します。 16人がライジングスター賞を受賞、その半数は中国の学者

Ma Yi と Shen Xiangyang が協力して、最初の CPAL 賞を発表します。 16人がライジングスター賞を受賞、その半数は中国の学者

ちょうど昨日、第 1 回 CPAL ミニマリスト アカデミック カンファレンスで、ライジング スター賞の受賞者のリストが正式に発表されました。

CPAL は、機械学習、信号処理、最適化などの分野で一般的な単純な低次元構造問題の解決に焦点を当て、インテリジェント ハードウェアとシステム、学際科学とエンジニアリングなどの新興分野における低次元構造の応用を研究します。

この会議は、科学と工学の分野の研究者が集まり、洞察を共有し、最終的にはミニマル学習の観点から知能と科学を理解するための現代の計算理論的枠組みに関する合意に向けて取り組むことができる総合的な科学フォーラムとして設計されました。

ライジングスター賞は、キャリアの重要な転換点や出発点にある優秀な若手研究者を表彰するだけでなく、博士課程の学生、ポスドク研究員、若手教員、産業界の研究者にプラットフォームと支援的なメンターネットワークを提供し、学術的および専門的発展を導くことで、この分野における代表性と多様性を高めます。

受賞者

CPAL Rising Star Award の応募者は、博士課程最終学年、ポスドク、助教 1 年目、または博士課程修了後 2 年以内の産業界の研究者のいずれかの要件を満たしている必要があります。

今年のカンファレンスには、世界中から 57 件の応募がありました。すべての応募者は、機械学習、応用数学、信号処理、最適化、システム、その他の学際的な分野における優れた経歴と専門知識を示しました。応募の競争は非常に熾烈でした。

この目的のために、委員長の Yubei Chen (現在はカリフォルニア大学デービス校の助教授であり、以前はニューヨーク大学の Yan LeCun 教授の下で博士研究員を務めていた) によって審査委員会が組織されました。レビューに参加した上級研究者全員が、非常に慎重なレビューと投票を実施しました (各メンバーは最大 20 票を投じることができました)。

具体的には、投票は次の側面に基づいて行われました: 1) 研究の潜在的な影響、2) CPAL テーマとの関連性、3) 多様性と包括性。同点の場合は、チームは勝者を決定するために追加の話し合いを行います。

総合的な評価を経て、最終的に 16 名が選出されました。受賞者の皆さん、おめでとうございます!

リジュン・ディン、ウィスコンシン大学/ワシントン大学、IFDSポストドクター研究員

タイトル: 低次元構造を持つ統計学習の最適化: 規則性と条件付け

多くの統計的機械学習の問題(基礎となる低次元信号の回復を目的とするもの)は、最適化に基づいています。既存の研究では、最適化問題を解決するための計算の複雑さが無視されることが多く、特に非凸問題の場合、ケース固有のアルゴリズムと分析が必要になります。

この研究では、調停の統一的な観点から上記の 2 つの問題を取り上げます。特に、サンプルサイズが固有の次元を超えると、(1) 凸問題と非滑らかな非凸問題の大規模なクラスが適切に条件付けされ、(2) 適切な条件付けによって、すぐに使用できる最適化手法の効率が確保され、新しいアルゴリズムが生まれることを示します。

最後に、ハイパーパラメータモデルでの正確な回復を可能にする「平坦性」と呼ばれる条件付き概念を提案します。

ニンユアン・ファン、ジョンズ・ホプキンス大学博士課程学生

タイトル: 近似的に同変なグラフネットワーク

グラフ ニューラル ネットワーク (GNN) の順列等価性は、畳み込みニューラル ネットワーク (CNN) の変換不変性とよく比較されます。ただし、これら 2 つの対称性には本質的な違いがあります。CNN はアクティブな対称性ですが、GNN はパッシブな対称性です。

この研究は、GNN の能動的対称性に焦点を当てています。固定グラフ上の信号の学習環境を考慮すると、GNN の自然な対称性はグラフの自己同型性です。

現実世界のグラフは非対称であることが多いため、本研究ではグラフの粗大化を通じて近似対称性を形式化し、対称性の概念を緩和します。これらの対称性を実装するための近似等変グラフ ネットワークを提案し、対称性モデルの選択問題を調査します。

選択された対称グループに応じて、学習された推定値は表現力の損失と規則性の向上の間のバイアスと分散のトレードオフに悩まされることを理論的かつ経験的に示します。

ダニエル・ポール・クニン、スタンフォード大学博士課程学生

タイトル: 確率的崩壊: 勾配ノイズが SGD ダイナミクスをより単純なサブネットワークに引き寄せる仕組み

この研究は、過剰に表現力豊かなネットワークをはるかに単純なサブネットワークに変換し、独立したパラメータの数を大幅に削減し、一般化能力を向上させることができる確率的勾配降下法 (SGD) の暗黙的なバイアスを明らかにしました。

この偏りを明らかにするために、SGD で不変のままであるパラメーター空間のサブセットである不変セットを特定します。私たちは、現代のアーキテクチャで一般的に見られる単純な(スパースまたは低ランク)サブネットワークに対応する不変セットの 2 つのクラスに焦点を当てます。分析の結果、SGD はこれらの単純な不変集合に対して確率的な魅力を持っていることがわかりました。

損失関数の曲率と確率的勾配によって導入されるノイズとの競合に基づいて、ランダムな魅力を説明するための十分な条件を確立します。特に、ノイズ レベルを上げると魅力度が高まり、鞍点またはトレーニング損失の局所的最大値に関連付けられた魅力的な不変セットが出現することがわかります。

経験的に、事前トレーニング済みのディープ ニューラル ネットワークには魅力的な不変量のセットが存在することが観察されています。これは、SGD が、消失したニューロンまたは冗長なニューロンを含む単純なサブネットワークに崩壊することが多いことを意味します。この研究ではさらに、ランダムな崩壊のこの単純化されたプロセスが一般化にどのように役立つかが実証されました。

最後に、この分析を通じて、初期のトレーニングで大きな学習率を使用するとその後の一般化に役立つ理由について、メカニズム的な説明を提供します。

ダニエル・ルジューン、スタンフォード大学ポストドクター研究員

タイトル: 機械学習におけるヒューリスティックスの創発的特性

現代の機械学習の実践では、成功する手法は設計者の確かな直感と理論的洞察に基づいて構築されますが、最終的にはヒューリスティックなものとなり、予期しない新たな動作を示すことがよくあります。こうした突発的な行動は有害な場合もありますが、驚くべきことに、突発的な行動の多くは予期せぬ利益をもたらします。

これらの出現する行動を理論的に記述することで、より多くの望ましい行動を設計に組み込み、強力な方法で活用できる、より強力な方法開発プロセスを開発できます。

ヒューリスティックと創発的動作のいくつかの例について説明します。線形回帰におけるサブサンプリングとスケッチの手法とリッジ回帰との等価性、分布シフト下での相対的パフォーマンスの経験的リスク最小化と一般化可能性、および簡素化を促進するスパースまたは低ランクの正則化と等価なドロップアウトおよび特徴学習モデルへの適応です。

アイオワ州立大学助教授、李双氏

タイトル: 信号処理と機械学習における最適化問題の将来の幾何学的分析

高次元データの分析と推定は、信号処理や機械学習のアプリケーションでよく発生します。これらの高次元データの低次元構造は、信号処理と機械学習の基本的な問題に対する最適化手法と最適化ベースの技術の開発にインスピレーションを与えてくれます。

近年、非凸最適化はエンジニアリング分野で広く登場し、多くのヒューリスティックなローカルアルゴリズムによって解決されてきましたが、グローバルな保証が欠けています。最近の幾何学的/形態学的解析は、反復アルゴリズムが全体最適に到達できるかどうかを判断する方法を提供します。

経験的リスク形態学は、低ランク行列分解、行列センシング、行列補完、位相回復など、さまざまな機械学習の問題で広く研究されてきました。好ましい形状により、多くのアルゴリズムが鞍点を回避し、局所的最小値に収束できるようになります。

この研究では、信号処理と機械学習における最適化問題の幾何学的分析の潜在的な将来の方向性について議論します。

Shiwei Liu、テキサス大学オースティン校、IFML ポストドクター研究員

タイトル: ニューラルネットワークにおけるスパース性: 科学と実践

スパース性は、モデルパラメータの大部分を選択的に排除することで、モデル圧縮の分野で優れたパフォーマンスを示しています。

強力なスパース ニューラル ネットワークを発見するには、多くの場合、最初に過剰にパラメータ化された密なモデルをトレーニングし、次にプルーニングして再トレーニングする必要があります。しかし、現代のニューラル ネットワークのサイズが飛躍的に大きくなるにつれて、集中的な事前トレーニングと更新にかかるコストはますます高くなります。

この研究では、事前トレーニングや集中的な更新を行わずに、スパース ニューラル ネットワークをゼロからトレーニングする方法を紹介します。

この方法は、時間内に過剰パラメータ化の特性を実装することにより、重みのごく一部だけを使用しながら、完全に密なネットワークに匹敵するパフォーマンス レベルを達成する能力を実証します。

この研究では、モデル圧縮の利点に加えて、スケーラビリティ、堅牢性、公平性、大規模な責任ある AI を構築するための大きな可能性など、ニューラル ネットワークにおけるスパースのより広範な利点にも光を当てます。

イピン・ルー、ニューヨーク大学クーラント講師

タイトル: シミュレーション調整された科学的機械学習

機械学習 (ML) はさまざまなアプリケーションで大きな成功を収めており、複雑な高次元データに対して柔軟で汎用的かつ効率的な近似値を構築する新しい方法を提供しています。

これらの成功は、多くの研究者に、同様の課題に直面することが多い産業工学、科学計算、オペレーションズリサーチなどの他の科学応用分野に ML を適用するよう促しました。

しかし、大規模機械学習(特にディープラーニング)の数学的理論はまだ不足しており、訓練されたML予測子は常に偏りを持っています。これらの長年の問題は、MLの輝かしい成果に影を落としています。

本研究では、物理モデルの構造を活用して以下の目標を達成できる新しい SCaSML フレームワークを紹介します。

1) 偏りのある機械学習予測子に基づいても偏りのない予測を行う。

2) 推定量を使用して次元の呪いを克服する。

SCASML パラダイムは、潜在的に偏った機械学習アルゴリズムと、厳密な数値解析と確率的シミュレーションを使用した偏りの除去手順の設計を組み合わせます。

理論的には、著者らは SCaSML アルゴリズムが最適であるかどうか、またどの要因 (滑らかさ、次元、制約など) が収束速度の改善を決定するかを理解しようとします。

経験的観点から、著者らは、バイアス付き機械学習推定量を使用して、物理量のバイアスのない信頼性の高い推定値を提供できるさまざまな推定量を紹介します。

その応用には、関数モーメントの推定、高次元ランダムプロセスのシミュレーション、ブートストラップ法を使用した不確実性の定量化、確率的線形代数などが含まれますが、これらに限定されません。

オマール・モンタッサー、FODSI-Simons ポストドクター研究員、カリフォルニア大学バークレー校

タイトル: 敵対的に堅牢な学習の理論的基礎

驚異的な進歩にもかかわらず、現在の機械学習システムは、敵対的サンプルに対して依然として脆弱です。敵対的サンプルとは、一見無害ですが、テスト例に巧妙に仕組まれた摂動で、機械学習の予測子がテスト例を誤分類する原因となります。

敵対的攻撃に対して堅牢なモデルを学習できますか?機械学習におけるこの大きな課題に関して、実証研究コミュニティでは大きな関心が寄せられています。

この研究では、著者らは、経験的(堅牢な)リスク最小化などの従来の方法や原則を超える必要性に関する理論的視点を提示し、より強力な堅牢な学習保証を備えた新しいアルゴリズムのアイデアを提案します。

ラムチャンドラン・ムトゥクマール、ジョンズ・ホプキンス大学博士課程候補者

タイトル: 深層ニューラルネットワークのためのスパース性を考慮した一般化理論

ディープ人工ニューラル ネットワークは驚くべき一般化能力を備えていますが、まだ十分に理解されていません。

本論文では、隠れ層の活性化のスパース性を活用する深層フィードフォワード ReLU ネットワークの一般化を分析するための新しい方法を提案します。

入力サンプルあたりの有効モデルサイズの縮小を考慮したフレームワークを開発することで、研究者はスパース性と一般化の間の基本的なトレードオフを実証することができました。

重要なのは、この結果がモデルによって達成されるスパース性の程度について強い仮定を立てておらず、最近の規範ベースのアプローチを改善していることです。

我々は説得力のある結果を数値的に示し、特定の状況下では、データ依存の事前分布と組み合わせると、過剰パラメータ化されたモデルであっても非空境界は現れないことを示しています。

アンバー・パル、ジョンズ・ホプキンス大学博士課程学生

タイトル: 信頼できる機械学習のためのデータ内の簡潔な構造の役割

この研究では、敵対的に堅牢な機械学習の幾何学的基礎に関する最近の理論的結果を概説します。

最新の ML 分類器は、特別に作成された入力摂動 (敵対的サンプル) を受けると、重大な失敗を起こす可能性があります。一方、視覚を必要とするいくつかのタスクでは、人間の方が優れています。

この現象に触発されて、本研究の最初の部分では、著者らは敵対的事例をいつ回避できるかという問題を詳しく調べます。

データ分布の重要な幾何学的特性、つまり入力空間の小さな体積サブセットへの集中によって、堅牢な分類器が存在するかどうかが決まることがわかります。特に、自然画像の分布が集中していることがわかります。

この研究の第 2 部では、著者らは、いくつかの集中したデータ分布についてこれらの結果を経験的に実証し、データ内のこの構造を利用することで、場合によってはより証明可能な堅牢性が保証された分類器をトレーニングできることを発見します。

この研究は、NeurIPS 2023、2020、TMLR 2023 の研究に基づいています。

ラフル・パルヒ、EPFL ポストドクター研究員

タイトル: 深層学習における重み減衰のスパース性促進効果について

ディープラーニングは実践において大きな成功を収めており、最も先進的な人工知能システムのほとんどはニューラルネットワークに基づいています。しかし、ディープニューラルネットワークの驚異的なパフォーマンスを完全に説明できる厳密な数学理論は現在のところ存在しません。

この講演では、ディープラーニングをより深く理解するための出発点となる新しい数学的枠組みを紹介します。

このフレームワークは、スパース性の観点から、トレーニングされたニューラル ネットワークの機能特性を正確に記述します。このフレームワークをサポートする主要な数学ツールには、変換領域スパース正則化、コンピュータ断層撮影からのラドン変換、近似理論などがあります。

このフレームワークでは、ニューラル ネットワークのトレーニングにおける重み減衰正規化の効果、ネットワーク アーキテクチャにおけるスキップ接続と低ランク重み行列の重要性、ニューラル ネットワークにおけるスパース性の役割、およびニューラル ネットワークが高次元の問題で優れたパフォーマンスを発揮する理由について説明します。

バハレ・トルーシャムス、カリフォルニア工科大学ポストドクター研究員

タイトル: 科学と工学のための深く解釈可能な生成学習

識別的 AI と生成的 AI は、テキストの手がかりから高品質の画像を予測して生成する方法に革命をもたらした 2 つのディープラーニング パラダイムです。

しかし、識別学習ではデータを生成できず、生成モデルではデコード能力が弱いです。さらに、どちらの方法も大量のデータが必要であり、解釈可能性が低いです。

これらの欠点は、a) 教師ありデータの取得が高価または実行不可能な場合、および b) 目標がデータフィッティングの範囲を超えており、科学的な洞察を得られない場合など、ディープラーニングの適用を著しく妨げます。

さらに、逆問題などの数学的および最適化フレームワークが豊富な分野や、解釈可能性が重要となる分野でのディープラーニングの応用は、まだ非常に稀です。

この研究では、限られたデータや教師なしデータによる逆問題へのディープラーニングの理論と応用について説明します。これらのアプリケーションには、レーダーセンシング、画像の「ポアソンノイズ除去」、計算神経科学などが含まれます。

Hongyi Wang、カーネギーメロン大学、上級プロジェクト科学者

タイトル: 低ランクモデルと勾配を用いた大規模機械学習モデル開発の高速化

GPT-4 や Llama2 などの大規模機械学習 (ML) モデルは、人工知能の分野における進歩の最前線にあります。

ただし、このような大規模な ML モデルを開発するには、膨大なコンピューティング リソースと、分散 ML およびシステムに関する深い理解が必要です。

この研究では、モデル勾配とモデル重みの低ランク近似を使用して ML モデルのトレーニングを大幅に高速化する 3 つのフレームワーク、ATOMO、Pufferfish、Cuttlefish を紹介します。

- ATOMO は、低ランク勾配を使用するとスパース勾配に比べて分散トレーニングを大幅に高速化できることを実験的に実証する汎用圧縮フレームワークです。

- Pufferfish は、低ランクモデルを直接トレーニングすることで、圧縮コストをさらに回避します。ただし、低ランクモデルを直接トレーニングすると、通常は精度が低下します。 Pufferfish は、フルランク モデルをトレーニングしてから低ランク モデルに変換することでこの問題を軽減します。ただし、Pufferfish では、フルランク モデルから低ランク モデルへの最適な遷移時間を決定するなど、追加のハイパーパラメータ調整が必要です。

- Cuttlefish は、トレーニング中にこれらのハイパーパラメータを自動的に推定および調整することでこの問題を解決します。

この研究では、これらのフレームワークの有効性を実証するために、大規模 ML モデル (LLM を含む) の分散トレーニングに関する広範な実験結果が詳しく説明されています。

ペン・ワン、ミシガン大学ポストドクター研究員

タイトル: 中間特徴による深層ネットワークの階層的表現の理解

過去 10 年間にわたり、ディープラーニングは生データから意味のある特徴を学習する効率的な方法であることが実証されてきました。この研究では、深層ネットワークにおける階層的特徴学習の解明を目指します。

具体的には、多クラス分類問題において、著者はディープネットワークの各層の特徴出力を研究し、ネットワークが入力データをどのように変換するかを調査しました。

この目的のために、研究者らはまず中間特徴の「クラス内圧縮」と「クラス間識別指標」をそれぞれ定義した。

これら 2 つの指標を分析することで、浅い層から深い層にかけて、特徴の進化は単純かつ定量的なルールに従っていることが分かりました。線形ネットワークの各層は、「クラス内特徴」を線形速度で徐々に圧縮し、「クラス間識別特徴」を線形以下の速度で改善します。

研究者の知る限り、これは深層ネットワークの階層化表現における特徴の進化を定量的に記述した初めての事例である。さらに、多数の実験によってこの理論的発見が数値的に検証されています。

ヤオドン・ユー、カリフォルニア大学バークレー校博士課程学生

タイトル: スパース レート削減によるホワイト ボックス トランスフォーマー

この研究では、著者らは CRATE (Encoded RAte reduction Transformer) と呼ばれるホワイトボックス Transformer を紹介します。

研究者たちは、表現学習の目標は、データ分布(ラベル付きセットなど)を圧縮し、非一貫性なサブスペースでサポートされる低次元のガウス分布の混合物に変換することであると考えています。

最終的な表現の品質は、統一された目的関数であるスパース削減を使用して測定できます。この観点から見ると、Transformer などの一般的なディープ ネットワークは、この目標を段階的に最適化する反復的なソリューションとして自然に考えることができます。

特に、この目的の補完的な部分を交互に最適化することで、標準の Transformer モジュールを導出できることを示します。マルチヘッド自己注意演算子は、非可逆エンコード レートを最小化することでラベル セットを圧縮する勾配降下ステップと見なすことができます。

その結果、数学的に解釈可能なホワイトボックス Transformer アーキテクチャ ファミリが生まれます。

最後に、実験により、これらのネットワークが実際に設計目標を最適化することを学習できることが示されています。つまり、大規模な現実世界の視覚データセット (ImageNet など) の表現を圧縮およびスパース化することができ、そのパフォーマンスは慎重に設計されたトランスフォーマー (ViT) のパフォーマンスに非常に近いものです。

さらに、著者らは、創発行動、言語モデリング、自動エンコーディングにおける CRATE の最新の理論的および実証的結果もいくつか紹介しています。

ラビッド・シュワルツ・ジヴ、ニューヨーク大学、CDS 特別研究員

タイトル: 自己教師あり学習における情報ボトルネックの解読: 最適表現への道

ディープ ニューラル ネットワーク (DNN) は、主に教師あり学習タスクにおける能力により、多くの分野で優れたパフォーマンスを示しています。

ただし、ラベル付きデータが不足している場合は、大量のラベル付きデータへの依存が制限要因になります。

自己教師学習 (SSL) は、ラベルのないデータを活用して意味のある表現を学習する有望なアプローチです。しかし、明示的な注釈なしで自己教師学習がどのようにして無関係な情報を除外できるかは不明のままです。

本研究では、情報ボトルネック原理に注目し、情報理論の観点からSSLの謎を解明した。

情報ボトルネック原理は、教師あり学習において関連する特徴を圧縮することと情報を保持することのバランスを説明できますが、SSL に適用すると、トレーニング中にラベルが不足するため困難が生じます。

研究者は、SSL における「最適な表現」の概念、データ拡張、最適化手法、下流タスクとの関係、SSL トレーニングが最適な表現を学習して達成する方法を詳細に調査します。

この研究の議論では、SSL トレーニングによって、意味ラベルに関連付けられた最適でコンパクトな表現が自然に作成される仕組みを示す画期的な発見が明らかになりました。

特に、SSL は学習した表現を複数のレベルで意味カテゴリと整合させるように見えますが、この整合はトレーニング中に強化され、ネットワークのより深いところではより明確になります。

最後に、研究者たちはこれらの洞察を活用して、特にデータが不足している環境において転移学習の効果を改善し、より効率的な学習システムを構築できる、より強力な自己教師あり学習情報アルゴリズムを設計しました。

<<: 

>>:  2024 年の産業用ロボットのトップ 10 のトレンドとイノベーション

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

2022年、AIネットワーク管理が信頼を高める

米国で売上高最大のソーセージブランドであるジョンソンビルソーセージのグローバルネットワークオペレーシ...

AIoT分野におけるセキュリティリスクを知っておく必要があります!

現在、AI医療、スマートホーム、自動運転、スマート取引などの人工知能の発展は、企業のビジネスモデルを...

...

AIの未来はエッジにある

モノのインターネット (IoT) は、絶えず複製されるエンティティのネットワークのようなもので、これ...

ロボティックプロセスオートメーション技術の新たな展開

急成長するデジタル経済は、新たな世界的な科学技術の進歩の産物であり、新興のデジタル技術とインテリジェ...

...

AIと機械学習モデルをトレーニング、テスト、維持する方法

AI および機械学習モデルの作成に必要なスキルセットをより深く理解するには、機械学習ソフトウェアによ...

GPT-4 抽象推論 PK 人間のギャップは大きいです!マルチモーダル性はプレーンテキストに比べてはるかに劣っており、AGIの火花を単独で燃やすことは困難である

GPT-4 はおそらく現在利用可能な最も強力な一般言語モデルです。リリースされると、さまざまなタスク...

IBMは、人間の音声認識の実際の単語エラー率は5.1%であると主張している。

昨年 10 月、マイクロソフトの AI および研究部門の研究者およびエンジニアのチームは、自社の音声...

BEV におけるデータセット間レーダーカメラ融合に関する実験的研究

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

アリババの顔認識セキュリティ技術が3Dマスク攻撃を防ぐ特許を取得

[[334032]]顔認識と 3D テクノロジーが融合したとき、最終的な勝者は誰になるでしょうか? ...

...

Alibaba Cloud 第2回インタビュー: Zookeeper 一貫性アルゴリズム

[[424686]]前回、私は後輩たちとSpringに関するいくつかの知識ポイントについて話しました...

AI は製造業と産業用 IoT をどのように変えるのでしょうか?

Business Insider によると、製造業ではモノのインターネット (IoT) と AI ...