まったく知られていなかった状態から誰もが話題にする状態へと、大規模言語モデル (LLM) の状況はここ数年で大きく変化しました。この分野の発展のペースは目まぐるしいものですが、解決すべき問題がまだ残っており、どの分野に成熟した応用があるかを把握することも困難です。 機械学習研究者がLLM分野の現状をより早く理解し、生産性を向上できるようにするために、ロンドン大学を含む複数の機関の研究チームが、LLM分野における困難な課題と成功したアプリケーションを体系的にまとめました。 LLM 研究の現在の人気は、このレビュー論文の参考文献にも反映されています。参考文献は合計 22 ページで、688 件の論文が引用されています。 Synced は、読者が LLM の課題と応用をすぐに理解できるように、このレビュー論文の一般的な枠組みを整理しました。より詳細な議論と特定の文献については、元の論文を参照してください。 論文: https://arxiv.org/abs/2307.10169 全体として、このレビュー論文は次の2つの主要テーマに焦点を当てています。(1)課題:未解決の問題は何か? (2)応用:LLMの現在の応用はどのようなもので、これらの応用はどのような課題に直面しているのか?トピック(1)については、研究者はLLMが直面している課題を、設計、行動、科学の3つの大きなカテゴリーに分類しました。トピック(2)については、研究者はチャットボット、計算生物学、計算生物学、コンピュータプログラミング、創造的作業、知識作業、法律、医学、推論、ロボット工学、社会科学などの分野を調査しました。 図 1: LLM チャレンジの概要。 LLM の設計は、展開前に行われた決定に関連しています。 LLM の動作に関する課題は、展開フェーズ中に発生します。科学的な課題は学問の進歩を妨げる可能性があります。 研究者らは、この論文の内容は個人的なものであり、読者が LLM の仕組みを理解していることを前提としていると宣言します。さらに、テキストデータでトレーニングされたモデルに重点を置いています。彼らのレビュー論文も技術的な側面に焦点を当てており、LLM の政治的、哲学的、倫理的な問題については議論していません。 チャレンジ理解不能なデータセット LLM の場合、事前トレーニング データセットのサイズが非常に大きいため、個人がドキュメントを徹底的に読んだり、その品質を評価したりすることは不可能です。この点に関する問題点としては、以下のものが挙げられます。
表1: 選択された事前トレーニングデータセットの概要 事前トレーニング データセットは、年々理解が難しくなってきています。データセットのサイズと多様性が急速に増大し、すべてが公開されているわけではありません。 依存関係トークナイザー トークナイザーには、計算オーバーヘッド、言語依存性、新しい単語の処理、固定された語彙、情報の損失、人間による解釈可能性の低さなど、いくつかの課題があります。 図 2: トークナイザーに依存することの一般的な欠点。 (1)トークナイザーのトレーニングステップでは、事前トレーニングデータセット全体を複数回走査するなど、複雑で面倒な計算が必要であり、また、事前トレーニングデータセットへの依存にもつながり、多言語環境では特に問題となります。 (2)LLMの埋め込み層Eと出力層Wは語彙サイズに関係している。例えばT5モデルでは語彙がモデルパラメータ数の約66%を占めている。 事前トレーニングは高価 モデルのパフォーマンスはコンピューティング バジェットを増やすことで向上できますが、モデルまたはデータセットのサイズが固定されている場合、成長率が低下し、収穫逓減のべき乗法則の傾向を示します。 図 3: マスキング戦略。各行は、特定の出力 y_i (行) に対してどの入力 x_i (列) を考慮できるかを示します (赤は一方向、青は双方向を示します)。 図 4: 事前トレーニング目標に基づく自己教師データ構築 (Tay らによる) オーバーヘッドの微調整 大量のメモリが必要: LLM 全体を微調整するには、事前トレーニングと同じ量のメモリが必要であり、多くの実践者にはそれが許容できません。 微調整された LLM の保存と読み込みのオーバーヘッド: 完全なモデルを微調整して LLM をタスクに適合させる場合、モデルのコピーを保存し (データ ストレージ スペースが必要)、タスクに使用するときに読み込む (メモリ割り当てが必要) 必要があります。 図 5: 特定の下流タスクに合わせて LLM を微調整する。 (a) は、モデル全体の更新を必要とする単純な微調整を示しており、その結果、タスクごとに新しいモデルが作成されます。 (b) は、各タスクのモデルパラメータのサブセットを学習し、それを固定ベース LLM で使用する PEFT アプローチを示しています。異なるタスクの推論を実行するときに、同じ基本モデルを再利用できます。 完全な行列乗算: LLM の効率的なパラメータの微調整には、ネットワーク全体にわたる完全な順方向/逆方向パスを実行する必要があります。 推論の遅延が大きい LLM の推論レイテンシは、並列性が低く、メモリ フットプリントが大きいため、依然として高くなっています。 コンテキストの長さが制限されている コンテキストの長さが制限されているため、LLM は長い入力を適切に処理することが難しく、小説や教科書の執筆や要約などのアプリケーションには適していません。 プロンプトが不安定です プロンプト構文の変更が結果の変更につながることは、人間にとって直感的ではありません。入力の小さな変更が出力の大きな変更につながる場合もあります。 図 6: 選択されたプロンプト設計方法の概要。単一ラウンドのプロンプト設計と複数ラウンドのプロンプト設計に分かれています。 幻覚の問題 幻覚の問題は、生成されたテキストが流暢かつ自然である一方で、ソースに忠実ではない場合 (内部の問題) や不確実な場合 (外部の問題) に発生します。 図7: GPT-4からの幻覚の質問の例(2023年2月6日にアクセス)。 図 8: ユーザーが LLM と対話する際の a) 内因性幻覚と b) 外因性幻覚の例。例 a) では、LLM によって生成された回答は指定されたコンテキストと矛盾していますが、例 b) では、生成された回答が矛盾しているかどうかを判断するのに十分な情報がコンテキストに提供されていません。 図 9: 幻覚問題に対する潜在的な解決策である検索強化型 GPT-4 の例。2023 年 2 月 6 日にアクセス。 不一致な行動 LLM は、人間の価値観や意図と一致しない出力を生成することが多く、意図しない悪影響につながる可能性があります。 図10: 配置。ここで、アライメントに関する既存の研究は、不整合な動作を検出する方法とモデル アライメントを達成する方法の 2 つのカテゴリに分類されます。 時代遅れの知識 LLM が事前トレーニング中に学習した事実情報は、不正確であったり、時間の経過とともに古くなったりする可能性があります。ただし、更新された事前トレーニング データを使用してモデルを再トレーニングするにはコストがかかり、微調整フェーズ中に古い事実を忘れて新しい知識を学習することは困難です。 図 11: 古くなった知識の問題に対する解決策には、次のものがあります。S.1) 基本検索インデックスのホットスワップを使用して最新の知識を取得できるようにし、検索機能を強化する。S.2) モデル編集テクノロジを適用する。 不安定な評価方法 基礎となるプロンプトまたは評価プロトコルに小さな変更を加えるだけで、結果が劇的に変化する可能性があります。 静的で人間が書いたグラウンドトゥルースに基づいて評価を実行する 静的ベンチマークは、モデルの機能が変化し、更新するには人間が真実を記述する必要があるため、時間の経過とともにますます役に立たなくなります。 生成されたテキストと人間が書いたテキストを区別することは困難です LLM が発展するにつれて、テキストが LLM からのものか人間からのものか区別することがますます難しくなります。 たとえテキストが LLM によって生成されたことが判明したとしても、いわゆる言い換え攻撃によって回避される可能性があります。言い換え攻撃とは、生成されたテキストを別の LLM で書き換えて、結果がほぼ同じ意味を維持しながら単語や文の構造を変更することです。 モデルやデータの拡張では解決できないタスク 一部のタスクは、構成タスクなど、データやモデルをさらに拡張しても解決できないようです。 実験設計の欠如 表 2 に、この点に関連するいくつかの学術論文を示します。多くの研究では制御変数を使用した実験が行われておらず、モデルの設計空間が大きい場合にこの問題は特に深刻になります。研究者たちは、これが LLM の科学的理解と技術的進歩を妨げると考えています。 表2: 選択されたLLMの概要。 N/A は詳細が欠落していることを意味します。複数のモデル サイズを調査した論文については、最大のモデルのみがここに示されています。トークナイザー項目が SP である論文については、対応する論文からは BPE または Unigram のどちらのトークン化方法が使用されたかは判断できないと研究者らは述べています。 制御された実験: 新しい LLM を紹介する論文には、十分なモデルをトレーニングするにはコストがかかりすぎるためか、制御された実験が不足していることがよくあります。 (設計) 次元の呪い: 通常、LLM 実験の設計空間の次元は非常に高くなります。 再現が難しい 再現不可能なトレーニング プロセス: 一般的に、よく使用されるトレーニング戦略は並列化です。つまり、トレーニング プロセスは多数のアクセラレータに分散されます。このプロセスは非決定論的であるため、LLM トレーニング プロセスを再現することは困難です。 再現不可能な API: 推論 API として提供されるモデルは、多くの場合、再現不可能です。 応用以下では、各分野に共通するアプリケーション アーキテクチャに重点を置きながら、LLM のアプリケーション領域に焦点を当てます。 さらに、各アプリケーション領域が直面する主な制限についても強調されています。 図 12: LLM アプリケーションの概要。異なる色は、事前トレーニング、微調整、プロンプト戦略、評価など、モデル適応のさまざまなレベルを表します。 チャットボット 汎用チャットボット (会話エージェント) には、情報検索、マルチターンの対話、テキスト生成 (コードを含む) など、さまざまなタスクが含まれます。 継続性の維持: 対話が複数回続くと、チャットボットが会話の前半部分を「忘れる」ことや、会話を繰り返してしまうことが容易になります。 推論の待ち時間が長い: 推論の待ち時間が長い場合、特にチャットボットとの会話が複数回にわたる場合、ユーザー エクスペリエンスが大幅に低下します。 計算生物学 計算生物学は、同様のシーケンスモデリングと予測の課題を提示する非テキストデータに焦点を当てています。 下流のタスクへの移行が困難: タンパク質言語モデルの最終的な目標は、医薬品設計などの実際のプロジェクトに展開することです。評価は、モデルが in vitro または in vivo でのタンパク質設計にどのように役立つかを考慮せずに、小規模および/または特殊なデータセットに対して実行されることがよくあります。 限られたコンテキスト ウィンドウ: 最大のゲノムの DNA 配列は、既存のゲノム LLM のコンテキスト ウィンドウよりもはるかに長いため、研究者がこれらの LLM を使用して特定のゲノム タイプをモデル化することが困難になる可能性があります。 コンピュータプログラミング LLM の最も高度で広く使用されているアプリケーションの 1 つは、さまざまなプログラミング言語でのコンピュータ プログラムの生成と完成です。 長距離依存関係: コンテキストの長さが制限されているため、LLM では通常、コード ベース全体にわたる長距離依存関係を考慮することができません。 図 13: API 定義フレームワーク。この図は、API 定義フレームワークを示しています。特定のタスクを解決するために、プロンプトで一般的な API 定義を提供して、LLM が外部コードまたはツールを使用できるようにすることができます。このアプローチの拡張には、LLM に API 定義の機能を実装することを要求する (赤) ことと、実行されていない API コードをデバッグするように LLM に要求すること (緑) が含まれます。 クリエイティブワーク クリエイティブな仕事の面では、LLM は主にストーリーや脚本の作成に使用されます。 限られたコンテキスト ウィンドウ: 限られたコンテキスト ウィンドウのため、現在の LLM では長い作品を完全に生成できず、長い作品への適用が制限され、モジュール式のプロンプト設計の必要性も生じます。 図 14: モジュール式プロンプト設計。 LLM は、一連の個別のプロンプトと処理ステップを通じて、単一のコンテキスト ウィンドウに収まらないタスクを実行し、単一のプロンプト ステップでは解決できないタスクを解決できます。 知識労働 特定の分野(法律や医学など)における知識タスクに対する LLM の能力が実証されるにつれて、より広範囲の知識作業に LLM を適用することへの関心が高まっています。潜在的な応用範囲は広大です。Eloundou らは、米国の労働者の 80% が、少なくとも 10% のタスクが LLM の影響を受ける可能性のある仕事に従事していると推定しています。 数値推論: LLM は数量を伴うタスクではパフォーマンスが低下することが多く、金融サービスや会計などの知識労働分野での使用が制限される可能性があります。 法 法律分野における LLM の応用は、法律に関する質問への回答や法律情報の抽出など、医療分野における応用と多くの類似点があります。ただし、訴訟結果の予測、法的調査、法的文書の生成など、他の特定のアプリケーションも提案されています。 情報の古さの問題: 法律は絶えず更新され、新しい判例が出現するため、トレーニング/検索データは古くなるという問題に頻繁に遭遇します。 薬 医療分野では、医療に関する質問への回答、臨床情報の抽出、索引付け、トリアージ、健康記録の管理など、多くの LLM アプリケーションが提案されています。 幻覚と偏見: 医療分野では安全性が最も重要であるため、幻覚の可能性によって現在の使用事例が大幅に制限される可能性があります。さらに、LLM が既存の臨床データセットにバイアスを永続させるリスクを軽減するために、さらなる研究努力が必要です。 推論 数学的およびアルゴリズム的なタスクでは、数学的演算の理解、複雑な複数ステップの推論、長期的な計画など、従来の NLP タスクとは異なる一連の機能が必要になることがよくあります。そのため、現在では、これらのタスクに LLM をどのように使用するか、また LLM の機能をどのように向上させるかについての研究も盛んに行われています。 人間以下のパフォーマンス: 既存の LLM は、推論ベンチマーク タスクで人間に匹敵することが困難です。 ロボットと具現化されたエージェント LLM はロボット アプリケーションにも統合され始めており、ロボットに高度な計画機能とコンテキスト知識機能を提供しています。 単一モダリティの問題: LLM はロボットやエージェントが指示を理解し、高度な計画機能を追加するのに役立ちますが、画像、音声、その他の感覚モダリティから直接学習することはできないため、その用途は制限されます。 社会科学と心理学 急速に発展している LLM は、心理学や行動科学の分野でも潜在的な応用が見出されています。研究者らは既存の文献を分析し、心理学と行動科学における LLM の使用には主に 3 つの方向性があることを発見しました。それは、LLM を使用して人間の行動実験をシミュレートすること、LLM の性格特性を分析すること、そして LLM を社会的関係をモデル化するための人工知能エージェントとして使用することです。図15に示すように。 図 15: 社会科学と心理学における LLM の使用事例。 社会的バイアス: LLM のトレーニング データには不均衡な見解や意見が含まれているため、偏った人間の行動に偏る傾向があります。 合成データの生成 LLM はコンテキスト内で学習する機能を備えているため、より小規模なドメイン固有のモデルをトレーニングするための合成データセットを生成するように促すことができます。 幻覚的な分布: 生成された合成データが対応する現実世界のデータの分布を代表しているかどうかを現在検証できないため、LLM を使用して完全な合成データセットを生成することは現在困難です。 |
<<: ビデオ管理システム (VMS) を使用して複数ブランドのデバイス管理を強化するにはどうすればよいですか?
>>: 30% のトークンで SOTA パフォーマンスを達成、Huawei Noah 軽量ターゲット検出器 Focus-DETR が効率を 2 倍に
機械学習の分野で仕事を見つけるのはどれくらい難しいですか? NVIDIA の大規模モデル研究科学者の...
[51CTO.com からのオリジナル記事] 「スマートテクノロジー」の代名詞として、無人店舗は晩夏...
IT Homeは11月30日、GoogleのDeepMindが人工知能(AI)を使って200万以上の...
人間の知能は「マルチモーダル学習」の総体であり、分類の境界を越えてさまざまな情報源や形式からの情報と...
[[248365]] 7月4日に開催された百度AI開発者会議で、ロビン・リー氏は「以前自慢していた...
[[428125]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
最近、 Quanta Magazineに掲載された記事では、機械学習が量子加速を実現したと指摘されま...
経済、社会、技術の急速な発展に伴い、世界人口は急速に増加し、天然資源の消費も増加しています。現在、陸...
親が子どもの世話をしたり、子どもと遊んだり勉強したり、看護師や介護士の仕事を手伝ったりするロボットに...
トランスフォーマーのメンバー8人全員がGoogleから離脱した。 Googleの画期的なTransf...