NeurIPS 2023 レビュー: ビッグモデルが最も注目されており、清華大学 ToT 思考ツリーがリストに載る

最近、米国のトップ 10 テクノロジーブログの 1 つである Latent Space が、終了したばかりの NeurIPS 2023 カンファレンスの厳選されたレビューと概要を作成しました。

NeurIPS カンファレンスで採択された 3,586 件の論文のうち、受賞した 6 件の論文以外にも、他の論文も優秀かつ潜在性があり、AI 分野における新たなブレークスルーの先駆けとなる可能性もあります。

一緒に見てみましょう！

論文タイトル: QLoRA: 量子化 LLM の効率的な微調整

論文アドレス: https://openreview.net/pdf?id=OUIFPHEgJU

この論文では、メモリを節約するためにいくつかの最適化トリックを使用する、メモリ効率は高いが速度が遅い LoRA のバージョンである QLoRA を提案しています。

全体として、QLoRA を使用すると、大規模な言語モデルを微調整するときに使用する GPU メモリが少なくなります。

彼らは、単一の GPU でわずか 24 時間の微調整で新しいモデル Guanaco をトレーニングし、Vicuna ベンチマークで以前のモデルを上回るパフォーマンスを達成しました。

一方、研究者たちは、同様の効果を持つ 4 ビット LoRA 量子化などの他の方法を開発しました。

論文タイトル: DataComp: 次世代のマルチモーダルデータセットの探求

論文アドレス: https://openreview.net/pdf?id=dVaWCDMBof

マルチモーダルデータセットは、CLIP、Stable Diffusion、GPT-4 などの最近のブレークスルーで重要な役割を果たしていますが、その設計はモデルアーキテクチャやトレーニングアルゴリズムほど研究の注目を集めていません。

機械学習エコシステムにおけるこのギャップを埋めるために、研究者らは、Common Crawl の新しい候補プールから抽出した 128 億の画像とテキストのペアのデータセットで実験を行うためのテストベッドである DataComp を導入しました。

ユーザーは、DataComp を試して、新しいフィルタリング手法を設計したり、新しいデータソースをキュレートしたり、標準化された CLIP トレーニングコードを実行して結果のモデルを 38 のダウンストリームテストセットでテストすることで、新しいデータセットを評価したりできます。

結果によると、CLIP ViT-L/14 モデルを最初からトレーニングできる最高のベンチマーク DataComp-1B は、ImageNet でゼロショット精度 79.2% を達成し、OpenAI の CLIP ViT-L/14 モデルよりも 3.7 パーセントポイント高くなっており、DataComp ワークフローの方が優れたトレーニングセットを生成できることが実証されています。

論文タイトル: 視覚的指導の調整

論文アドレス: https://arxiv.org/pdf/2304.08485v1.pdf

この論文では、研究者らは、言語のみに依存する GPT-4 を使用して、データに従ってマルチモーダル言語画像指示を生成する最初の試みを提示しています。

この生成されたデータに対する指示を微調整することで、一般的な視覚と言語理解のためにビジュアルエンコーダーと LLM を接続してエンドツーエンドでトレーニングされた大規模なマルチモーダルモデルである LLaVA: Large Language and Vision Assistant を導入します。

初期の実験では、LLaVA が優れたマルチモーダルチャット機能を発揮し、時には目に見えない画像やコマンドに対してマルチモーダル GPT-4 の動作を示し、合成マルチモーダルコマンドフォローデータセットで GPT-4 と比較して 85.1% の相対スコアを達成することが実証されています。

科学的な質問への回答を微調整すると、LLaVA と GPT-4 の相乗効果により、92.53% という新たな最先端の精度が達成されました。

論文タイトル: 思考の樹: 大規模言語モデルによる意図的な問題解決

論文アドレス: https://arxiv.org/pdf/2305.10601.pdf

言語モデルは、幅広いタスクにおける一般的な問題解決にますます使用されるようになっていますが、推論中のトークンレベルの左から右への意思決定にはまだ制限されています。つまり、探索や戦略的先見性を必要とするタスクや、最初の意思決定が重要な役割を果たすタスクでは、パフォーマンスが低下する可能性があります。

これらの課題を克服するために、研究者らは新しい言語モデル推論フレームワークである Tree of Thoughts (ToT) を導入しました。これは、言語モデルの推論における一般的な Chain of Thought アプローチを一般化し、問題解決に向けた中間ステップとして機能する一貫したテキスト単位 (思考) の探索を可能にします。

ToT により、言語モデルは複数の異なる推論パスと自己評価オプションを考慮して次のアクションを決定し、必要に応じて先を予測したり後戻りしたりしてグローバルな選択を行うことで、慎重な決定を下すことができます。

実験により、ToT は、24 ドットゲーム、クリエイティブライティング、ミニクロスワードパズルという、重要な計画や検索を必要とする 3 つの新しいタスクにおいて、言語モデルの問題解決能力を大幅に向上させることが実証されました。たとえば、24 ポイントのゲームでは、Chain of Thought プロンプトを使用する GPT-4 はタスクの 4% しか解決しませんでしたが、ToT は 74% の成功率を達成しました。

論文タイトル: ツールフォーマー: 言語モデルはツールの使い方を自ら学ぶことができる

論文アドレス: https://arxiv.org/pdf/2302.04761.pdf

言語モデルは、特に大規模な設定において、少数の例やテキスト指示から新しいタスクを解決する優れた能力を示しています。しかし、逆説的に、より単純で小規模な特殊モデルと比較すると、算術や事実の発見などの基本的な機能が困難です。

この論文では、研究者らは、言語モデルがシンプルな API を通じて外部ツールの使い方を自ら学習し、両方の長所を実現できることを示しています。

彼らは、どの API を呼び出すか、いつ呼び出すか、どのパラメータを渡すか、そしてその結果を将来のトークン予測にどのように組み込むのが最適かを決定するようにトレーニングされたモデルである Toolformer を導入しました。

これは、API ごとに少数のデモンストレーションのみを使用して、自己監視方式で実行されます。計算機、質問応答システム、検索エンジン、翻訳システム、カレンダーなど、さまざまなツールが統合されています。

Toolformer は、コア言語モデリング機能を犠牲にすることなく、より大規模なモデルと競合しながら、さまざまな下流タスクでゼロショットパフォーマンスを大幅に向上させます。

論文タイトル: Voyager: 大規模言語モデルを備えたオープンエンドの具現化エージェント

論文アドレス: https://arxiv.org/pdf/2305.16291.pdf

この論文では、Minecraft の世界を継続的に探索し、多様なスキルを習得し、独立した発見を行うことができる、大規模言語モデル (LLM) を搭載した初の学習エージェントである Voyager を紹介します。

Voyager は次の 3 つの主要コンポーネントで構成されています。

探索を最大限にするために設計された自動レッスン、

複雑な動作を保存および取得するための実行可能コードスキルのライブラリが拡大しています。

環境フィードバック、実行エラー、自己検証を統合してプログラムを改善する新しい反復プロンプトメカニズム。

Voyager はブラックボックスクエリを通じて GPT-4 と対話し、モデルパラメータを微調整する必要がなくなります。

実証的研究に基づき、Voyager は環境的状況において強力な生涯学習能力を示し、Minecraft のプレイにおいて並外れた熟練度を示しています。

以前の技術レベルよりも 3.3 倍多くのユニークなアイテムを獲得し、2.3 倍長い距離を移動し、以前の技術レベルよりも 15.3 倍速く主要な技術ツリーのマイルストーンをアンロックします。

しかし、Voyager は学習したスキルのレパートリーを活用して、新しい Minecraft の世界で新しいタスクをゼロから解決することができましたが、他の技術は一般化に苦労しました。

論文タイトル: CogEval による大規模言語モデルの認知マップと計画の評価

論文アドレス: https://openreview.net/pdf?id=VtkGvGcGe3

この論文ではまず、認知科学にヒントを得て、大規模言語モデルの認知能力を体系的に評価するプロトコルである CogEval を提案しています。

次に、この論文では、CogEval システムを使用して、8 つの LLM (OpenAI GPT-4、GPT-3.5-turbo-175B、davinci-003-175B、Google Bard、Cohere-xlarge-52.4B、Anthropic Claude-1-52B、LLaMA-13B、Alpaca-7B) の認知マッピングおよび計画機能を評価しました。タスクキューは人間の実験に基づいており、LLM トレーニングセットには存在しません。

研究では、LLM は構造が単純ないくつかの計画タスクでは明らかな能力を示したものの、タスクが複雑になると、無効な軌道の幻覚やループに陥るなどの盲点に陥ることが判明しました。

これらの調査結果は、LLM がプラグアンドプレイの計画機能を備えているという見解を支持するものではありません。 LLM は、計画問題の背後にある基礎的な関係構造、つまり認知マップを理解しておらず、基礎的な構造に従って目標指向の軌道を展開する際に問題を抱えている可能性があります。

論文タイトル: Mamba: 選択的状態空間による線形時間シーケンスモデリング

論文アドレス: https://openreview.net/pdf?id=AL1fq05o7H

著者らは、線形アテンション、ゲート畳み込み、再帰モデル、構造化状態空間モデル (SSM) などの現在の多くのサブ線形時間アーキテクチャは、長いシーケンスを処理する際の Transformer の計算の非効率性を解決することを目的としていることを指摘しています。ただし、これらのモデルは、言語などの重要な領域では注意モデルほど優れたパフォーマンスを発揮しません。著者は、これらの

これらのモデルの主な弱点は、コンテンツベースの推論を実行できないことですが、いくつかの改善が行われました。

まず、SSM パラメータを入力の関数にするだけで、離散モダリティの弱点に対処し、モデルが現在のトークンに応じてシーケンス長の次元に沿って情報を選択的に伝播したり忘れたりできるようになります。

第二に、このバリエーションにより効率的な畳み込みの使用が妨げられますが、著者らは再帰モードでハードウェア対応の並列アルゴリズムを設計しています。私たちは、これらの選択的 SSM を、アテンションメカニズムや MLP モジュール (Mamba) を必要とせずに、簡素化されたエンドツーエンドのニューラルネットワークアーキテクチャに統合します。

Mamba は推論速度に優れており (Transformers より 5 倍高速)、シーケンス長に比例して拡張され、最大 100 万長のシーケンスまでの実際のデータでパフォーマンスが向上します。

汎用シーケンスモデルバックボーンとして、Mamba は言語、オーディオ、ゲノミクスなどの複数の領域で最先端のパフォーマンスを実現しています。言語モデリングの点では、Mamba-1.4B モデルは、事前トレーニングとダウンストリーム評価の両方で同じサイズの Transformers モデルよりも優れており、その 2 倍のサイズの Transformers モデルに匹敵します。

これらの論文は2023年に賞を受賞しませんでしたが、言語モデルアーキテクチャに革命をもたらす可能性のある技術モデルであるMambaの影響を評価するには時期尚早です。

来年の NeurIPS はどうなるのでしょうか? 2024 年に人工知能と神経情報システムの分野はどのように発展するのでしょうか? 現時点ではさまざまな意見がありますが、誰がそれを保証できるでしょうか?待って見てみましょう。

<<:

>>: Mamba 論文が ICLR に受け入れられなかったのはなぜですか? AIコミュニティは盛り上がっている

NeurIPS 2023 レビュー: ビッグモデルが最も注目されており、清華大学 ToT 思考ツリーがリストに載る

ロボットは共感を持つことができるか？感情AIはどれくらい使えるのか？

中国チームは、自分たちが作るペイントトランスフォーマーを提案した。ネットユーザー：これもニューラルネットワークの使用が必要です

AI を活用した検索と推奨はどれほど強力でしょうか?

マスク氏とアルトマン氏がともに暗号通貨を復活させたい理由

百新銀行と百度クラウドAI+銀行金融技術シンクタンク会議が開催、オープンバンキングについて議論

Claude3 が GPT4 に教訓を与えました!オープンAI最強の対戦相手の深夜爆弾、全貌解析付き！

WeChat、サードパーティのエコシステムに統合するインテリジェント会話システム「Xiaowei」を発表

推薦する

研究者：大規模な言語モデルを微調整すると「セキュリティ」が弱まり、ハッカーによるバックドア攻撃に対して脆弱になる

TensorFlowはWindows GPUのサポートを放棄し、多くのバグを抱えていると批判されている。2.0以降は徐々に消滅していくだろう。

オライリー、2023年ジェネレーティブAIエンタープライズレポートを発表

PyTorch のデータセット Torchvision と Torchtext

2024 年の IT 管理トレンド: ジェネレーティブ AI など

人工知能と機械学習がビジネスに及ぼす影響

【WOTI】English FluencyのLin Hui氏：教育分野でのAIはまだ初期段階にある

びっくり！外国人が人間の皮膚マスクでiPhone Xに挑戦：予想外の結果

2021年には、神経科学AIにいくつかの大きなトレンドがあります

コンピュータービジョンを使用してフィッシング攻撃を検出するにはどうすればよいでしょうか?

ブロックチェーンと人工知能、統合開発の「win-winゲーム」

データセキュリティにおける人工知能と機械学習の応用