NeurIPS 2023 レビュー: ビッグモデルが最も注目されており、清華大学 ToT 思考ツリーがリストに載る

NeurIPS 2023 レビュー: ビッグモデルが最も注目されており、清華大学 ToT 思考ツリーがリストに載る

最近、米国のトップ 10 テクノロジー ブログの 1 つである Latent Space が、終了したばかりの NeurIPS 2023 カンファレンスの厳選されたレビューと概要を作成しました。

NeurIPS カンファレンスで採択された 3,586 件の論文のうち、受賞した 6 件の論文以外にも、他の論文も優秀かつ潜在性があり、AI 分野における新たなブレークスルーの先駆けとなる可能性もあります。

一緒に見てみましょう!

論文タイトル: QLoRA: 量子化 LLM の効率的な微調整

論文アドレス: https://openreview.net/pdf?id=OUIFPHEgJU

この論文では、メモリを節約するためにいくつかの最適化トリックを使用する、メモリ効率は高いが速度が遅い LoRA のバージョンである QLoRA を提案しています。

全体として、QLoRA を使用すると、大規模な言語モデルを微調整するときに使用する GPU メモリが少なくなります。

彼らは、単一の GPU でわずか 24 時間の微調整で新しいモデル Guanaco をトレーニングし、Vicuna ベンチマークで以前のモデルを上回るパフォーマンスを達成しました。

一方、研究者たちは、同様の効果を持つ 4 ビット LoRA 量子化などの他の方法を開発しました。

論文タイトル: DataComp: 次世代のマルチモーダルデータセットの探求

論文アドレス: https://openreview.net/pdf?id=dVaWCDMBof

マルチモーダル データセットは、CLIP、Stable Diffusion、GPT-4 などの最近のブレークスルーで重要な役割を果たしていますが、その設計はモデル アーキテクチャやトレーニング アルゴリズムほど研究の注目を集めていません。

機械学習エコシステムにおけるこのギャップを埋めるために、研究者らは、Common Crawl の新しい候補プールから抽出した 128 億の画像とテキストのペアのデータセットで実験を行うためのテストベッドである DataComp を導入しました。

ユーザーは、DataComp を試して、新しいフィルタリング手法を設計したり、新しいデータ ソースをキュレートしたり、標準化された CLIP トレーニング コードを実行して結果のモデルを 38 のダウンストリーム テスト セットでテストすることで、新しいデータセットを評価したりできます。

結果によると、CLIP ViT-L/14 モデルを最初からトレーニングできる最高のベンチマーク DataComp-1B は、ImageNet でゼロショット精度 79.2% を達成し、OpenAI の CLIP ViT-L/14 モデルよりも 3.7 パーセントポイント高くなっており、DataComp ワークフローの方が優れたトレーニング セットを生成できることが実証されています。

論文タイトル: 視覚的指導の調整

論文アドレス: https://arxiv.org/pdf/2304.08485v1.pdf

この論文では、研究者らは、言語のみに依存する GPT-4 を使用して、データに従ってマルチモーダル言語画像指示を生成する最初の試みを提示しています。

この生成されたデータに対する指示を微調整することで、一般的な視覚と言語理解のためにビジュアルエンコーダーと LLM を接続してエンドツーエンドでトレーニングされた大規模なマルチモーダルモデルである LLaVA: Large Language and Vision Assistant を導入します。

初期の実験では、LLaVA が優れたマルチモーダル チャット機能を発揮し、時には目に見えない画像やコマンドに対してマルチモーダル GPT-4 の動作を示し、合成マルチモーダル コマンド フォロー データセットで GPT-4 と比較して 85.1% の相対スコアを達成することが実証されています。

科学的な質問への回答を微調整すると、LLaVA と GPT-4 の相乗効果により、92.53% という新たな最先端の精度が達成されました。

論文タイトル: 思考の樹: 大規模言語モデルによる意図的な問題解決

論文アドレス: https://arxiv.org/pdf/2305.10601.pdf

言語モデルは、幅広いタスクにおける一般的な問題解決にますます使用されるようになっていますが、推論中のトークンレベルの左から右への意思決定にはまだ制限されています。つまり、探索や戦略的先見性を必要とするタスクや、最初の意思決定が重要な役割を果たすタスクでは、パフォーマンスが低下する可能性があります。

これらの課題を克服するために、研究者らは新しい言語モデル推論フレームワークである Tree of Thoughts (ToT) を導入しました。これは、言語モデルの推論における一般的な Chain of Thought アプローチを一般化し、問題解決に向けた中間ステップとして機能する一貫したテキスト単位 (思考) の探索を可能にします。

ToT により、言語モデルは複数の異なる推論パスと自己評価オプションを考慮して次のアクションを決定し、必要に応じて先を予測したり後戻りしたりしてグローバルな選択を行うことで、慎重な決定を下すことができます。

実験により、ToT は、24 ドット ゲーム、クリエイティブ ライティング、ミニ クロスワード パズルという、重要な計画や検索を必要とする 3 つの新しいタスクにおいて、言語モデルの問題解決能力を大幅に向上させることが実証されました。たとえば、24 ポイントのゲームでは、Chain of Thought プロンプトを使用する GPT-4 はタスクの 4% しか解決しませんでしたが、ToT は 74% の成功率を達成しました。

論文タイトル: ツールフォーマー: 言語モデルはツールの使い方を自ら学ぶことができる

論文アドレス: https://arxiv.org/pdf/2302.04761.pdf

言語モデルは、特に大規模な設定において、少数の例やテキスト指示から新しいタスクを解決する優れた能力を示しています。しかし、逆説的に、より単純で小規模な特殊モデルと比較すると、算術や事実の発見などの基本的な機能が困難です。

この論文では、研究者らは、言語モデルがシンプルな API を通じて外部ツールの使い方を自ら学習し、両方の長所を実現できることを示しています。

彼らは、どの API を呼び出すか、いつ呼び出すか、どのパラメータを渡すか、そしてその結果を将来のトークン予測にどのように組み込むのが最適かを決定するようにトレーニングされたモデルである Toolformer を導入しました。

これは、API ごとに少数のデモンストレーションのみを使用して、自己監視方式で実行されます。計算機、質問応答システム、検索エンジン、翻訳システム、カレンダーなど、さまざまなツールが統合されています。

Toolformer は、コア言語モデリング機能を犠牲にすることなく、より大規模なモデルと競合しながら、さまざまな下流タスクでゼロショット パフォーマンスを大幅に向上させます。

論文タイトル: Voyager: 大規模言語モデルを備えたオープンエンドの具現化エージェント

論文アドレス: https://arxiv.org/pdf/2305.16291.pdf

この論文では、Minecraft の世界を継続的に探索し、多様なスキルを習得し、独立した発見を行うことができる、大規模言語モデル (LLM) を搭載した初の学習エージェントである Voyager を紹介します。

Voyager は次の 3 つの主要コンポーネントで構成されています。

探索を最大限にするために設計された自動レッスン、

複雑な動作を保存および取得するための実行可能コードスキルのライブラリが拡大しています。

環境フィードバック、実行エラー、自己検証を統合してプログラムを改善する新しい反復プロンプト メカニズム。

Voyager はブラックボックス クエリを通じて GPT-4 と対話し、モデル パラメータを微調整する必要がなくなります。

実証的研究に基づき、Voyager は環境的状況において強力な生涯学習能力を示し、Minecraft のプレイにおいて並外れた熟練度を示しています。

以前の技術レベルよりも 3.3 倍多くのユニークなアイテムを獲得し、2.3 倍長い距離を移動し、以前の技術レベルよりも 15.3 倍速く主要な技術ツリーのマイルストーンをアンロックします。

しかし、Voyager は学習したスキルのレパートリーを活用して、新しい Minecraft の世界で新しいタスクをゼロから解決することができましたが、他の技術は一般化に苦労しました。

論文タイトル: CogEval による大規模言語モデルの認知マップと計画の評価

論文アドレス: https://openreview.net/pdf?id=VtkGvGcGe3

この論文ではまず、認知科学にヒントを得て、大規模言語モデルの認知能力を体系的に評価するプロトコルである CogEval を提案しています。

次に、この論文では、CogEval システムを使用して、8 つの LLM (OpenAI GPT-4、GPT-3.5-turbo-175B、davinci-003-175B、Google Bard、Cohere-xlarge-52.4B、Anthropic Claude-1-52B、LLaMA-13B、Alpaca-7B) の認知マッピングおよび計画機能を評価しました。タスク キューは人間の実験に基づいており、LLM トレーニング セットには存在しません。

研究では、LLM は構造が単純ないくつかの計画タスクでは明らかな能力を示したものの、タスクが複雑になると、無効な軌道の幻覚やループに陥るなどの盲点に陥ることが判明しました。

これらの調査結果は、LLM がプラグアンドプレイの計画機能を備えているという見解を支持するものではありません。 LLM は、計画問題の背後にある基礎的な関係構造、つまり認知マップを理解しておらず、基礎的な構造に従って目標指向の軌道を展開する際に問題を抱えている可能性があります。

論文タイトル: Mamba: 選択的状態空間による線形時間シーケンスモデリング

論文アドレス: https://openreview.net/pdf?id=AL1fq05o7H

著者らは、線形アテンション、ゲート畳み込み、再帰モデル、構造化状態空間モデル (SSM) などの現在の多くのサブ線形時間アーキテクチャは、長いシーケンスを処理する際の Transformer の計算の非効率性を解決することを目的としていることを指摘しています。ただし、これらのモデルは、言語などの重要な領域では注意モデルほど優れたパフォーマンスを発揮しません。著者は、これらの

これらのモデルの主な弱点は、コンテンツベースの推論を実行できないことですが、いくつかの改善が行われました。

まず、SSM パラメータを入力の関数にするだけで、離散モダリティの弱点に対処し、モデルが現在のトークンに応じてシーケンス長の次元に沿って情報を選択的に伝播したり忘れたりできるようになります。

第二に、このバリエーションにより効率的な畳み込みの使用が妨げられますが、著者らは再帰モードでハードウェア対応の並列アルゴリズムを設計しています。私たちは、これらの選択的 SSM を、アテンション メカニズムや MLP モジュール (Mamba) を必要とせずに、簡素化されたエンドツーエンドのニューラル ネットワーク アーキテクチャに統合します。

Mamba は推論速度に優れており (Transformers より 5 倍高速)、シーケンス長に比例して拡張され、最大 100 万長のシーケンスまでの実際のデータでパフォーマンスが向上します。

汎用シーケンス モデル バックボーンとして、Mamba は言語、オーディオ、ゲノミクスなどの複数の領域で最先端のパフォーマンスを実現しています。言語モデリングの点では、Mamba-1.4B モデルは、事前トレーニングとダウンストリーム評価の両方で同じサイズの Transformers モデルよりも優れており、その 2 倍のサイズの Transformers モデルに匹敵します。

これらの論文は2023年に賞を受賞しませんでしたが、言語モデルアーキテクチャに革命をもたらす可能性のある技術モデルであるMambaの影響を評価するには時期尚早です。

来年の NeurIPS はどうなるのでしょうか? 2024 年に人工知能と神経情報システムの分野はどのように発展するのでしょうか? 現時点ではさまざまな意見がありますが、誰がそれを保証できるでしょうか?待って見てみましょう。

<<: 

>>:  Mamba 論文が ICLR に受け入れられなかったのはなぜですか? AIコミュニティは盛り上がっている

推薦する

インテリジェントな顧客サービス チャット モジュールの 3 つのソリューションを比較すると、どれが気に入りましたか?

現在のインテリジェント顧客サービス市場とその NLP 分野において、チャット モジュールは非常に重要...

AI の成功にはなぜ知識管理が不可欠なのでしょうか?

AIに適切なコンテキストを提供することで、精度が向上し、幻覚が軽減されます。 AI が仕事に革命を...

機械学習アルゴリズムの実践 - Platt SMO と遺伝的アルゴリズム最適化 SVM

[[206589]]序文以前、SVMの双対問題を最適化するために、単純なSMOアルゴリズムを実装し...

70%は輸入品。中国の産業用ロボットはチップのような悲劇をどう回避できるのか?

ロボットは産業の魂です。 [[386663]]しかし、私たちの身近な国である日本が、20年もの間、世...

...

快手AIハッカソンは「AIの名の下に」みんなの幸福を向上させるために終了しました

最近、快手の内部インキュベーターである快手幸福実験室が主催した第2回ハッカソン「AIの名において」の...

モデルが 10 倍大きくなると、パフォーマンスは何倍向上しますか? Googleの研究者が調査を実施

ディープラーニング モデルが大きくなるにつれて、あらゆる種類のハイパーパラメータ調整を行うのは非常に...

たった2時間で7元以下で3Dロボットが作れます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能はソフトウェア開発業界にどのような影響を与えるでしょうか? AIはクリエイティブな労働者に取って代わることはできない

AI業界はクリエイティブなソフトウェア開発者を満足させることは決してできないでしょう。このテクノロジ...

リアルスティールの実写版!山東省の3人組のチームが、最小遅延12ミリ秒の史上最速ボクシングロボットを開発した。

この男性が自分の動きでロボットを操作している様子を注意深く見てください。彼がパンチを繰り出すと、ロボ...

...

ICML 優勝者 Lu Yucheng: 分散型機械学習の理論的な限界は何ですか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

OpenAI は大規模なモデル ストアを立ち上げる予定で、開発者は製品を棚に置くことができます。

最近、OpenAIの人気が高まっています。GPTモデル機能のアップデートからセキュリティ問題まで、世...

米研究機関:中国は2030年までにAI研究で世界をリードすると予想

アメリカのテクノロジーメディアGeekWireによると、米国シアトルのアレン人工知能研究所(AI2)...