NeurIPS 2023 レビュー: ビッグモデルが最も注目されており、清華大学 ToT 思考ツリーがリストに載る

NeurIPS 2023 レビュー: ビッグモデルが最も注目されており、清華大学 ToT 思考ツリーがリストに載る

最近、米国のトップ 10 テクノロジー ブログの 1 つである Latent Space が、終了したばかりの NeurIPS 2023 カンファレンスの厳選されたレビューと概要を作成しました。

NeurIPS カンファレンスで採択された 3,586 件の論文のうち、受賞した 6 件の論文以外にも、他の論文も優秀かつ潜在性があり、AI 分野における新たなブレークスルーの先駆けとなる可能性もあります。

一緒に見てみましょう!

論文タイトル: QLoRA: 量子化 LLM の効率的な微調整

論文アドレス: https://openreview.net/pdf?id=OUIFPHEgJU

この論文では、メモリを節約するためにいくつかの最適化トリックを使用する、メモリ効率は高いが速度が遅い LoRA のバージョンである QLoRA を提案しています。

全体として、QLoRA を使用すると、大規模な言語モデルを微調整するときに使用する GPU メモリが少なくなります。

彼らは、単一の GPU でわずか 24 時間の微調整で新しいモデル Guanaco をトレーニングし、Vicuna ベンチマークで以前のモデルを上回るパフォーマンスを達成しました。

一方、研究者たちは、同様の効果を持つ 4 ビット LoRA 量子化などの他の方法を開発しました。

論文タイトル: DataComp: 次世代のマルチモーダルデータセットの探求

論文アドレス: https://openreview.net/pdf?id=dVaWCDMBof

マルチモーダル データセットは、CLIP、Stable Diffusion、GPT-4 などの最近のブレークスルーで重要な役割を果たしていますが、その設計はモデル アーキテクチャやトレーニング アルゴリズムほど研究の注目を集めていません。

機械学習エコシステムにおけるこのギャップを埋めるために、研究者らは、Common Crawl の新しい候補プールから抽出した 128 億の画像とテキストのペアのデータセットで実験を行うためのテストベッドである DataComp を導入しました。

ユーザーは、DataComp を試して、新しいフィルタリング手法を設計したり、新しいデータ ソースをキュレートしたり、標準化された CLIP トレーニング コードを実行して結果のモデルを 38 のダウンストリーム テスト セットでテストすることで、新しいデータセットを評価したりできます。

結果によると、CLIP ViT-L/14 モデルを最初からトレーニングできる最高のベンチマーク DataComp-1B は、ImageNet でゼロショット精度 79.2% を達成し、OpenAI の CLIP ViT-L/14 モデルよりも 3.7 パーセントポイント高くなっており、DataComp ワークフローの方が優れたトレーニング セットを生成できることが実証されています。

論文タイトル: 視覚的指導の調整

論文アドレス: https://arxiv.org/pdf/2304.08485v1.pdf

この論文では、研究者らは、言語のみに依存する GPT-4 を使用して、データに従ってマルチモーダル言語画像指示を生成する最初の試みを提示しています。

この生成されたデータに対する指示を微調整することで、一般的な視覚と言語理解のためにビジュアルエンコーダーと LLM を接続してエンドツーエンドでトレーニングされた大規模なマルチモーダルモデルである LLaVA: Large Language and Vision Assistant を導入します。

初期の実験では、LLaVA が優れたマルチモーダル チャット機能を発揮し、時には目に見えない画像やコマンドに対してマルチモーダル GPT-4 の動作を示し、合成マルチモーダル コマンド フォロー データセットで GPT-4 と比較して 85.1% の相対スコアを達成することが実証されています。

科学的な質問への回答を微調整すると、LLaVA と GPT-4 の相乗効果により、92.53% という新たな最先端の精度が達成されました。

論文タイトル: 思考の樹: 大規模言語モデルによる意図的な問題解決

論文アドレス: https://arxiv.org/pdf/2305.10601.pdf

言語モデルは、幅広いタスクにおける一般的な問題解決にますます使用されるようになっていますが、推論中のトークンレベルの左から右への意思決定にはまだ制限されています。つまり、探索や戦略的先見性を必要とするタスクや、最初の意思決定が重要な役割を果たすタスクでは、パフォーマンスが低下する可能性があります。

これらの課題を克服するために、研究者らは新しい言語モデル推論フレームワークである Tree of Thoughts (ToT) を導入しました。これは、言語モデルの推論における一般的な Chain of Thought アプローチを一般化し、問題解決に向けた中間ステップとして機能する一貫したテキスト単位 (思考) の探索を可能にします。

ToT により、言語モデルは複数の異なる推論パスと自己評価オプションを考慮して次のアクションを決定し、必要に応じて先を予測したり後戻りしたりしてグローバルな選択を行うことで、慎重な決定を下すことができます。

実験により、ToT は、24 ドット ゲーム、クリエイティブ ライティング、ミニ クロスワード パズルという、重要な計画や検索を必要とする 3 つの新しいタスクにおいて、言語モデルの問題解決能力を大幅に向上させることが実証されました。たとえば、24 ポイントのゲームでは、Chain of Thought プロンプトを使用する GPT-4 はタスクの 4% しか解決しませんでしたが、ToT は 74% の成功率を達成しました。

論文タイトル: ツールフォーマー: 言語モデルはツールの使い方を自ら学ぶことができる

論文アドレス: https://arxiv.org/pdf/2302.04761.pdf

言語モデルは、特に大規模な設定において、少数の例やテキスト指示から新しいタスクを解決する優れた能力を示しています。しかし、逆説的に、より単純で小規模な特殊モデルと比較すると、算術や事実の発見などの基本的な機能が困難です。

この論文では、研究者らは、言語モデルがシンプルな API を通じて外部ツールの使い方を自ら学習し、両方の長所を実現できることを示しています。

彼らは、どの API を呼び出すか、いつ呼び出すか、どのパラメータを渡すか、そしてその結果を将来のトークン予測にどのように組み込むのが最適かを決定するようにトレーニングされたモデルである Toolformer を導入しました。

これは、API ごとに少数のデモンストレーションのみを使用して、自己監視方式で実行されます。計算機、質問応答システム、検索エンジン、翻訳システム、カレンダーなど、さまざまなツールが統合されています。

Toolformer は、コア言語モデリング機能を犠牲にすることなく、より大規模なモデルと競合しながら、さまざまな下流タスクでゼロショット パフォーマンスを大幅に向上させます。

論文タイトル: Voyager: 大規模言語モデルを備えたオープンエンドの具現化エージェント

論文アドレス: https://arxiv.org/pdf/2305.16291.pdf

この論文では、Minecraft の世界を継続的に探索し、多様なスキルを習得し、独立した発見を行うことができる、大規模言語モデル (LLM) を搭載した初の学習エージェントである Voyager を紹介します。

Voyager は次の 3 つの主要コンポーネントで構成されています。

探索を最大限にするために設計された自動レッスン、

複雑な動作を保存および取得するための実行可能コードスキルのライブラリが拡大しています。

環境フィードバック、実行エラー、自己検証を統合してプログラムを改善する新しい反復プロンプト メカニズム。

Voyager はブラックボックス クエリを通じて GPT-4 と対話し、モデル パラメータを微調整する必要がなくなります。

実証的研究に基づき、Voyager は環境的状況において強力な生涯学習能力を示し、Minecraft のプレイにおいて並外れた熟練度を示しています。

以前の技術レベルよりも 3.3 倍多くのユニークなアイテムを獲得し、2.3 倍長い距離を移動し、以前の技術レベルよりも 15.3 倍速く主要な技術ツリーのマイルストーンをアンロックします。

しかし、Voyager は学習したスキルのレパートリーを活用して、新しい Minecraft の世界で新しいタスクをゼロから解決することができましたが、他の技術は一般化に苦労しました。

論文タイトル: CogEval による大規模言語モデルの認知マップと計画の評価

論文アドレス: https://openreview.net/pdf?id=VtkGvGcGe3

この論文ではまず、認知科学にヒントを得て、大規模言語モデルの認知能力を体系的に評価するプロトコルである CogEval を提案しています。

次に、この論文では、CogEval システムを使用して、8 つの LLM (OpenAI GPT-4、GPT-3.5-turbo-175B、davinci-003-175B、Google Bard、Cohere-xlarge-52.4B、Anthropic Claude-1-52B、LLaMA-13B、Alpaca-7B) の認知マッピングおよび計画機能を評価しました。タスク キューは人間の実験に基づいており、LLM トレーニング セットには存在しません。

研究では、LLM は構造が単純ないくつかの計画タスクでは明らかな能力を示したものの、タスクが複雑になると、無効な軌道の幻覚やループに陥るなどの盲点に陥ることが判明しました。

これらの調査結果は、LLM がプラグアンドプレイの計画機能を備えているという見解を支持するものではありません。 LLM は、計画問題の背後にある基礎的な関係構造、つまり認知マップを理解しておらず、基礎的な構造に従って目標指向の軌道を展開する際に問題を抱えている可能性があります。

論文タイトル: Mamba: 選択的状態空間による線形時間シーケンスモデリング

論文アドレス: https://openreview.net/pdf?id=AL1fq05o7H

著者らは、線形アテンション、ゲート畳み込み、再帰モデル、構造化状態空間モデル (SSM) などの現在の多くのサブ線形時間アーキテクチャは、長いシーケンスを処理する際の Transformer の計算の非効率性を解決することを目的としていることを指摘しています。ただし、これらのモデルは、言語などの重要な領域では注意モデルほど優れたパフォーマンスを発揮しません。著者は、これらの

これらのモデルの主な弱点は、コンテンツベースの推論を実行できないことですが、いくつかの改善が行われました。

まず、SSM パラメータを入力の関数にするだけで、離散モダリティの弱点に対処し、モデルが現在のトークンに応じてシーケンス長の次元に沿って情報を選択的に伝播したり忘れたりできるようになります。

第二に、このバリエーションにより効率的な畳み込みの使用が妨げられますが、著者らは再帰モードでハードウェア対応の並列アルゴリズムを設計しています。私たちは、これらの選択的 SSM を、アテンション メカニズムや MLP モジュール (Mamba) を必要とせずに、簡素化されたエンドツーエンドのニューラル ネットワーク アーキテクチャに統合します。

Mamba は推論速度に優れており (Transformers より 5 倍高速)、シーケンス長に比例して拡張され、最大 100 万長のシーケンスまでの実際のデータでパフォーマンスが向上します。

汎用シーケンス モデル バックボーンとして、Mamba は言語、オーディオ、ゲノミクスなどの複数の領域で最先端のパフォーマンスを実現しています。言語モデリングの点では、Mamba-1.4B モデルは、事前トレーニングとダウンストリーム評価の両方で同じサイズの Transformers モデルよりも優れており、その 2 倍のサイズの Transformers モデルに匹敵します。

これらの論文は2023年に賞を受賞しませんでしたが、言語モデルアーキテクチャに革命をもたらす可能性のある技術モデルであるMambaの影響を評価するには時期尚早です。

来年の NeurIPS はどうなるのでしょうか? 2024 年に人工知能と神経情報システムの分野はどのように発展するのでしょうか? 現時点ではさまざまな意見がありますが、誰がそれを保証できるでしょうか?待って見てみましょう。

<<: 

>>:  Mamba 論文が ICLR に受け入れられなかったのはなぜですか? AIコミュニティは盛り上がっている

ブログ    

推薦する

マスク氏と陳天橋氏の両者が期待している脳コンピューターインターフェースは、将来いつ実現するのだろうか?

[[415853]]失語症の人は再び話せるようになり、聴覚障害の人は再び聞こえるようになり、四肢麻...

機械学習の7つの大罪

機械学習実験の信頼性を損なう7つのよくある間違い[[328516]]機械学習は私たちの世界を変える素...

CNN 推論エンジンを使用して IoT デバイスにディープラーニングを実装するにはどうすればよいですか?

[[212457]]ディープラーニング技術により、モノのインターネット (IoT) デバイスは非構...

デジタルセンサーを使用してピンホールカメラを作るにはどうすればいいですか?

ビッグデータダイジェスト制作出典: IEEE近年、ピンホール写真に対する人々の関心は年々高まり、関連...

医療業界における放射線科はなぜ人工知能による混乱に対してより脆弱なのでしょうか?

[[226435]]人工知能は、交通、金融、教育など、考えられるほぼすべての分野に革命をもたらして...

上場企業上位500社を調査し、人工知能の7つの主要トレンドをまとめました。

近年、人工知能技術の研究が継続的に進歩するにつれて、資本は熱い傾向を示し、さまざまな業界が人工知能に...

3分レビュー! 2021年1月のロボット工学分野の重要な動向の概要

ポスト疫病時代において、国内ロボット市場は急速に発展しました。同時に、国際ロボット分野は前向きな発展...

サプライチェーン管理における AI イノベーションを活用するために従業員を再教育する方法

サプライチェーン管理は最適化ゲームです。 AI の導入により、企業は最適な成果の達成にさらに注力でき...

コードを1行変更するだけで、PyTorchのトレーニングを3倍高速化できます。これらの「高度なテクニック」が鍵となります。

最近、ディープラーニング分野の著名な研究者であり、Lightning AI のチーフ人工知能教育者で...

大規模機械学習の台頭と「ゼロトラスト」アーキテクチャの出現、2021年の9つの主要な技術トレンド

[[373625]]このほど、デロイト マネジメント コンサルティングは「2021 年テクノロジー ...

4分でノーベル賞の再現に成功! CMU は化学研究を覆す GPT-4 化学者、自律コーディング、ロボット制御を開発し、Nature に発表

ChatGPT モデルは今年人気となり、予想外に化学の分野全体を覆しました。まず、Google De...

...

ChatGPT を使用して Web アプリケーションを構築する方法は?

翻訳者 |ブガッティレビュー | Chonglou ChatGPTの最大のセールスポイントの 1 つ...

PaddlePaddle と TensorFlow の比較分析

この記事では主に、フレームワークの概要、システム アーキテクチャ、プログラミング モデル、分散アーキ...