NeurIPS は世界で最も権威のある AI 学術会議の 1 つです。正式名称は Neural Information Processing Systems で、通常は毎年 12 月に NeurIPS Foundation が主催します。会議で議論されたトピックには、ディープラーニング、コンピュータービジョン、大規模機械学習、学習理論、最適化、スパース理論、その他多くのサブフィールドが含まれます。 12月10日、米国ルイジアナ州ニューオーリンズでNeurIPS 2023が開幕しました。公式サイトのブログに掲載されたデータによると、今年の会議に提出された論文数は新記録の13,321件に達し、1,100人の分野長、100人の上級分野長、396人の倫理審査員によって審査され、そのうち3,584件の論文が採択された。 先ほど、NeurIPS は 2023 年の受賞論文を正式に発表しました。これには、Test of Time 賞、2 つの優秀論文、2 つの優秀論文次点、優秀データセット、優秀ベンチマークが含まれています。これらの論文のほとんどは、大規模言語モデル (LLM) を中心とした研究です。 10 年前に発表された word2vec 関連の論文が Test of Time Award を受賞したことは注目に値します。 受賞論文の詳細情報は以下の通りです。 時の試練賞今年の Test of Time 賞は、10 年前の NeurIPS 論文「単語と句の分散表現とその構成性」に授与されました。 この論文は、当時 Google にいた Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean らによって執筆され、40,000 回以上引用されています。 論文アドレス: https://arxiv.org/pdf/1310.4546.pdf NeurIPS が公式に授与した受賞理由は、次の通りです。「この研究は、画期的な単語埋め込み技術 word2vec を導入し、大量の非構造化テキストから学習する能力を実証し、自然言語処理の新時代の到来を促進しました。」 オリジナルのテクニカル分析記事「word2vecから始めて、GPTの巨大な家系図を語ろう」では、word2vecの重要性を紹介しました。 Word2VecやGloveなどの単語埋め込み手法は、GPTファミリーの中で最も人気のある研究であると言えます。これらは、その後の巨大なNLP「ファミリーグループ」を導き、NLPテクノロジー全体の活発な発展のための強固な基盤を築きました。 Word2Vecなどの単語埋め込み技術からその後の重要なモデルまで Syncedがまとめた重要なNLPモデルの開発 したがって、大規模なモデルが大きな注目を集める2023年には、Word2vecはNeurIPS Time Test Awardに値すると言えます。 Word2vec に関する最初の論文は、Tomas Mikolov 氏らによる「Efficient Estimation of Word Representations in Vector Space」になるはずだと付け加えておきたいと思います。その年に NeurIPS に提出された論文「単語と句の分散表現とその構成性」は、Word2vec が実際に広く使用されるようになった改良論文でした。 Word2vec についてさらに詳しく知りたい読者は、 Machine Heart によるオリジナルの技術分析記事「 Classic Methods of Word Embedding, Six Papers Traversing Alternative Applications of Word2vec 」も参照してください。 メイントラック優秀論文賞受賞論文 1: 1 回のトレーニング実行によるプライバシー監査
概要: 単一のトレーニング パスを介して差分プライバシーの機械学習システムをチェックするスキームを提案します。この方式は、差分プライバシー機械学習システムの並列処理を活用し、複数のトレーニング例を個別に追加または削除できるようにします。この点から出発して、研究者たちは差分プライバシーと統計的一般化の関係を分析し、それによってグループプライバシーのコストを回避しました。このアプローチでは、アルゴリズムに関する仮定はほとんどなく、ブラックボックス環境でもホワイトボックス環境でも適用できます。研究者たちはこの方式を DP-SGD に適用し、その有効性をテストしました。 DP-SGD では、この論文で提案されたフレームワークでは、意味のある経験的プライバシー下限を達成するために単一のモデルをトレーニングするだけで済みます。対照的に、標準的なアプローチでは何百ものモデルをトレーニングする必要があります。 受賞論文 2: 大規模言語モデルの創発能力は幻想か?
概要:最近の研究では、大規模な言語モデルが、小規模なモデルには存在しない機能を備えて「出現」することが示唆されています。大規模モデルの「創発的」機能が魅力的な理由は 2 つあります。1 つ目は、その創発的性質により、これらの機能がほぼ瞬時に出現するということです。2 つ目は、創発的機能がどのような規模で出現するかが予測できないことです。そのため、研究者らは、出現する能力について新たな説明を提案した。特定のタスクとモデル ファミリについて、固定モデルの出力を分析する場合、「出現する」能力の出現は、モデルのパフォーマンスが規模に応じて根本的に変化するからではなく、研究者が特定のメトリックを選択した結果であるという。 具体的には、非線形または不連続な測定では明らかな「新たな」機能が生成されますが、線形または連続的な測定では、モデルのパフォーマンスにスムーズで連続的かつ予測可能な変化が生成されます。研究者たちは、この新しい説明を単純な数学モデルで提案し、3つの相補的な方法でテストしました。まず、研究者らは、InstructGPT/GPT-3 シリーズで「創発的」機能を持つと主張されているタスクで、この新しい仮説の 3 つの側面をテストしました。次に、BIG-Bench での創発的機能のメタ分析で、メトリック選択に関する 2 つの予測を策定、テスト、確認しました。最後に、この論文では、異なるディープ ネットワークの複数の視覚タスクで前例のない「創発的」機能を「作成」するためのメトリックの選択方法を示しました。 以上の分析を通じて、この論文は、人工知能の基本的な特性が拡張されるのではなく、測定や統計手法が異なると、いわゆる「創発」能力が消えてしまうことを証明しています。 メイントラック優秀論文賞受賞論文 1: データ制約付き言語モデルのスケーリング
概要:パラメータ数の増加とトレーニングデータセットのサイズの拡大は、今日の言語モデルの開発傾向です。この傾向を推測すると、トレーニング データセットのサイズは、インターネット上で利用可能なテキスト データの量によってすぐに制限される可能性があります。この目に見える傾向に触発されて、一部の研究者はデータ制約下での言語モデルの拡張を研究してきました。 具体的には、データの複製の度合いと計算予算を変えて、多数の実験を実施しました。実験のデータ量は最大 9,000 億のトレーニング トークンに達し、モデル サイズは 90 億のパラメーターに達する可能性があります。研究者らは、計算予算が固定されデータが限られている場合、4 エポックのトレーニングで繰り返しデータを使用すると、繰り返しのないデータを使用する場合と比較して損失の変化がほとんどないことを発見しました。ただし、繰り返し回数が増えると、追加された計算の値は最終的にゼロになります。研究者らはさらに、重複トークンと冗長パラメータの減少する価値を考慮した、計算上最適化されたスケーリング法則を提案し、実験的に検証した。最後に、彼らは、トレーニング データセットにコード データを追加したり、よく使用されるフィルターを削除したりするなど、データ不足を軽減するためのいくつかのアプローチを試しました。この研究のモデルとデータセットは、次のリンクから無料で入手できます: https://github.com/huggingface/datablations 受賞論文 2: 直接的な選好最適化: 言語モデルは実は報酬モデルである
概要:大規模な教師なし言語モデル (LM) は、世界についての広範な知識を学習し、ある程度の推論スキルを獲得できますが、トレーニングが完全に教師なしであるため、その動作を正確に制御することは困難です。現在、この制御性は通常、人間によるフィードバックによる強化学習 (RLHF) と呼ばれる手法によって実現されています。RLHF では、さまざまなモデルの生成品質に関する人間のラベルを収集し、これらの好みに基づいて教師なし言語モデルを微調整します。しかし、RLHF は複雑で不安定なプロセスであることが多いです。まず、人間の好みを反映した報酬モデルを適合させる必要があり、次に強化学習を使用して大規模な教師なし言語モデルを微調整し、元のモデルから大きく逸脱することなく予測報酬を最大化します。 この研究では、研究者らは、報酬関数と最適戦略のマッピング関係を通じて、制約付き報酬を最大化する問題を正確に最適化するには、戦略トレーニングの 1 段階のみが必要であることを実証しました。人間の嗜好データの分類問題を根本的に解決します。研究者が直接選好最適化(DPO)と呼ぶこの新しい方法は、安定しており、効率的で、計算コストも低く、報酬モデルの適合、微調整中の言語モデルからのサンプリング、または大幅なハイパーパラメータ調整の実行を必要としません。実験により、DPO は既存の方法と同等かそれ以上のパフォーマンスで LM を微調整して人間の好みに合わせることができることが示されています。注目すべきは、RLHF と比較して、DPO による微調整では、生成されたコンテンツの感情を制御し、要約と単一ターンの応答の品質を向上させる点でパフォーマンスが優れている一方で、実装とトレーニングのプロセスが大幅に簡素化されていることです。 優れたデータセットとベンチマーク論文データセット 受賞論文: ClimSim: ハイブリッド物理学-ML気候エミュレーションのための大規模マルチスケールデータセット
論文要約: 計算上の制限により、現代の気候予報は空間的および時間的な解像度が不十分であり、その結果、嵐などの極端な気候現象の予測が不正確で不正確になります。物理学と機械学習を融合したハイブリッドアプローチにより、計算負荷が高く、短時間で高解像度のシミュレーションタスクを機械学習シミュレーターに「アウトソーシング」することで、ムーアの法則の束縛を回避できる、より忠実度の高い新世代の気候シミュレーターが導入されました。ただし、このハイブリッド機械学習と物理シミュレーションのアプローチでは、ドメイン固有の処理が必要であり、トレーニング データと関連する使いやすいワークフローが不足しているため、機械学習の専門家にはアクセスできません。 ここでは、気候科学者と機械学習研究者が共同で開発したマルチスケール気候シミュレーションを含む、ハイブリッド機械学習物理学研究用に特別に設計されたこれまでで最大のデータセットである ClimSim を紹介します。具体的には、ClimSim は 57 億の多変量入力および出力ベクトル ペアで構成され、ホスト気候シミュレータのマクロ的な物理的状態に対するローカルなネストされた高解像度、高忠実度の物理学の影響を分離します。データセットは世界規模でカバーされ、長年にわたって高頻度でサンプリングされており、結果として得られるシミュレーターは下流の運用気候シミュレーターと互換性があるように設計されています。 ClimSlimのローカルスペースバージョン。 研究者らは、機械学習の課題とベースライン スコアを明らかにするために、一連の決定論的およびランダムな回帰ベースラインを実装しました。彼らは、科学と社会の利益のために、ハイブリッド機械学習物理学と高精度気候シミュレーションの開発をサポートするために、データとコードを公開しています。 プロジェクトアドレス: https://leap-stc.github.io/ClimSim/README.html ベンチマーク 受賞論文: DECODINGTRUST: GPT モデルの信頼性の包括的評価
概要: GPT モデルは機能面で比類のない進歩を示していますが、GPT モデルの信頼性に関する文献はまだほとんどありません。専門家は、医療や金融の分野で機密性の高いアプリケーションに強力な GPT モデルを使用することを提案していますが、これには高いコストがかかる可能性があります。 この目的のために、本論文の研究者らは、GPT-4およびGPT-3.5モデルに焦点を当てて、大規模言語モデルの包括的な信頼性評価を実施し、毒性、ステレオタイプバイアス、敵対的堅牢性、分布外堅牢性、敵対的デモンストレーション堅牢性、プライバシー、機械倫理、公平性など、さまざまな観点を十分に考慮しました。評価結果では、GPT モデルが簡単に誤解されて有害で偏ったコンテンツを出力したり、トレーニング データや会話のトランスクリプトで個人情報が漏洩したりするなど、これまで明らかにされていなかった信頼性の脅威となる脆弱性が明らかになりました。 大規模モデルの信頼性評価指標。 研究者らはまた、GPT-4は標準ベンチマークではGPT-3.5よりも信頼性が高いものの、誤解を招くような指示に正確に従うため、攻撃に対してより脆弱であることも発見した。 ベンチマーク: https://decodingtrust.github.io/ |
<<: ChatGPTはどんどん怠惰になり、代わりにPUA人間を学習しました
>>: GPT-4Vがロボットの頭脳として機能すると、AIで計画を立てることができなくなる可能性があります
ガートナーは11月11日、2025年までにデータセンターの半数が人工知能と機械学習機能を備えた高度な...
[[229439]]ビッグデータ概要編纂者:張南星、静哲、荊浩南1. 機械学習製品を効率的に開発す...
将来の妻や夫がどんな人か分からないですか?さあ、まずはAIを使って予測してみましょう。 [[3123...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
AR、VR、3Dプリント、シーン構築、映画制作など多くの分野において、衣服を着た人体の高品質な3Dモ...
データセンターでの機械学習プロジェクトの開発に精通している読者は、データドリフトとコンセプトドリフト...
先ほど、DNS 負荷分散の概念をいくつか紹介しました。次に、この負荷分散テクノロジに関連するアルゴリ...
[[436890]]最近、清華大学のチームが事前トレーニングを必要としない効率的な NLP 学習フ...
【51CTO.comオリジナル記事】 1. 前に書く5Gは2019年上半期の輝く「星」と言えるが、...
AI は、軍事への応用、脅威の監視、国家防衛の確保など、私たちの行動様式を変えています。 AIは軍事...
イーロン・マスク、ビル・ゲイツらは、人工知能(以下、AI)が「世界の終末」をもたらすだろうと国民に繰...
今後8年間の8つの重要なトレンドを予測[[322666]] UnsplashのHarpal Sing...
シェルソート(縮小増分法)は挿入型ソートに属し、順序付けられていないシーケンス全体をいくつかの小さな...
大規模言語モデル (LLM) はさまざまな分野でますます使用されるようになっています。ただし、テキス...