致命的な幻覚問題、GPU 代替品の開発、大規模モデルが直面するその他の 10 の課題

ChatGPT、GPT-4などのリリースにより、大規模モデル（LLM）の魅力が明らかになった一方で、直面するさまざまな課題も見えてきました。

LLM をより良くするにはどうすればよいでしょうか?大規模なモデルに直面した場合、どのような問題を解決する必要がありますか? AI分野では重要な研究テーマとなっています。

この記事では、コンピューター科学者の Chip Huyen 氏が、LLM が直面する課題を 10 の側面から包括的に説明します。具体的には、最初の 2 つの側面は幻覚と文脈学習に関するものであり、その他の側面にはマルチモダリティ、アーキテクチャ、GPU の代替手段の検索などが含まれますが、これらに限定されません。

オリジナルURL: https://huyenchip.com/2023/08/16/llm-research-open-challenges.html

以下は原文の翻訳です。

1. 幻覚を軽減する方法

幻覚の問題は、LLM によって生成されたテキストは流暢で自然ではあるものの、ソースコンテンツに忠実ではない (内部の問題) こと、および/または不確実である (外部の問題) ことです。この問題は LLM で広く発生しています。

そのため、幻覚を軽減したり、幻覚を測定する指標を開発することが非常に重要となり、多くの企業や機関がこの問題に注目しています。チップ・ヒューエン氏は、プロンプトに文脈を追加したり、思考の連鎖を利用したり、モデルの応答をより簡潔にしたりなど、幻覚を減らす方法はたくさんあると述べた。

参考資料には以下が含まれます。

自然言語生成における幻覚研究のレビュー: https://arxiv.org/abs/2202.03629
言語モデルにおける幻覚がどのように雪だるま式に大きくなるか: https://arxiv.org/abs/2305.13534
ChatGPT の推論、幻覚、対話性に関する評価: https://arxiv.org/abs/2302.04023
会話中の幻覚を軽減するための対照学習: https://arxiv.org/abs/2212.10400
自己一貫性は、思考の連鎖を通じて推論する言語モデルの能力を向上させます: https://arxiv.org/abs/2203.11171
生成的大規模言語モデルにおけるブラックボックス幻覚検出: https://arxiv.org/abs/2303.08896

2. コンテキストの長さとコンテキスト構造を最適化する

LLM のもう一つの研究の焦点はコンテキストの長さです。大規模なモデルはユーザーの質問に答えるときにコンテキストを参照する必要があるため、処理できる長さが長いほど LLM にとって有用になります。たとえば、ChatGPT に「最高のベトナム料理レストランはどれですか?」と質問すると、この質問に直面した場合、ChatGPT はコンテキストを参照して、ユーザーがベトナムで最高のベトナム料理レストランについて尋ねているのか、米国で最高のベトナム料理レストランについて尋ねているのかを判断する必要があります。この 2 つはまったく異なります。

このサブセクションでは、Chip Huyen がいくつかの関連論文を紹介しています。

最初の記事は「SITUATEDQA: 言語外コンテキストを QA に組み込む」で、著者は 2 人ともテキサス大学オースティン校の出身です。この論文では、オープン検索の QA データセット SITUATEDQA を紹介しています。興味のある読者は、詳細を確認するためにぜひアクセスしてください。

Chip Huyen 氏は、モデルは提供されたコンテキストから学習するため、このプロセスはコンテキスト学習と呼ばれていると述べました。

2 番目の論文は、「知識集約型 NLP タスクのための検索拡張生成」です。この論文では、事前トレーニング済みの言語モデルと外部知識を組み合わせて、オープンドメインの生成型質問応答やその他の知識集約型タスクを実現できる RAG (検索拡張生成) を提案しています。

RGA 操作プロセスは、チャンキング (取得とも呼ばれる) フェーズとクエリフェーズの 2 つのフェーズに分かれています。

この研究に基づいて、コンテキストが長ければ長いほど、モデルが詰め込める情報が多くなり、応答も良くなると多くの人が考えています。チップ・ヒューエン氏はそれが完全に真実だとは思っていない。

モデルがどれだけのコンテキストを使用できるのか、そしてモデルがそのコンテキストをどれだけ効率的に使用するのかは、まったく別の問題です。私たちが行う必要があるのは、コンテキストを処理するモデルの効率を改善しながら、モデルのコンテキストの長さを増やすことです。たとえば、論文「Lost in the Middle: How Language Models Use Long Contexts」では、モデルがインデックスの途中の情報よりも、インデックスの最初と最後の情報をよりよく理解できる方法が示されています。

3. マルチモダリティ

Chip Huyen 氏は、マルチモーダル性が非常に重要であると考えています。

まず、ヘルスケア、ロボット工学、電子商取引、小売、ゲーム、エンターテインメントなどの分野では、マルチモーダルデータが必要です。たとえば、医療予測には、医師の診断書や患者のアンケートなどのテキストコンテンツと、CT、X 線、MRI スキャンなどの画像情報が必要です。

第二に、マルチモーダル性によりモデルのパフォーマンスが大幅に向上すると期待されています。テキストと画像を理解できるモデルは、テキストのみを理解できるモデルよりもパフォーマンスが優れています。しかし、テキストベースのモデルは大量のテキストを必要とするため、モデルをトレーニングするためのインターネットデータがすぐに不足するのではないかと懸念され始めています。テキストがなくなったら、他のデータモダリティを検討する必要があります。

フラミンゴアーキテクチャ図

マルチモダリティに関しては、以下を参照してください。

論文 1: 自然言語の監督から転移可能な視覚モデルの学習
論文 2: Flamingo: 少量学習のための視覚言語モデル
論文 3: BLIP-2: 凍結画像エンコーダーと大規模言語モデルを使用した言語画像事前トレーニングのブートストラップ: https://arxiv.org/abs/2301.12597;
論文 4:「必要なのは言語だけではない: 知覚と言語モデルの整合」: https://arxiv.org/abs/2302.14045;
論文5: 視覚的指導の調整
Google PaLM-E: https://ai.googleblog.com/2023/03/palm-e-embodied-multimodal-language.html;
NVIDIA NeVA: https://catalog.ngc.nvidia.com/orgs/nvidia/teams/playground/models/neva.

4. LLMをより速く、より安くする

GPT-3.5は2022年11月下旬に初めてリリースされましたが、その使用コストの高さを懸念する声が多くありました。しかし、わずか半年で、コミュニティはパフォーマンスが GPT-3.5 に近いモデルを発見し、メモリ使用量は GPT-3.5 の 2% しか必要としませんでした。

チップ・ヒューエン氏は、十分に良いものを作れば、人々はすぐにそれを早く安く作る方法を見つけるだろうと語る。

以下は、Guanaco 7B と ChatGPT や GPT-4 などのモデルのパフォーマンス比較です。しかし、LLMを評価することは依然として非常に難しいことを強調しなければなりません。

次に、Chip Huyen 氏はモデルの最適化と圧縮の手法を次のように挙げました。

量子化: 現在最も一般的なモデル最適化手法。量子化では、パラメータを表すのに使用するビット数が少なくなり、モデルのサイズが小さくなります。たとえば、32 ビットの浮動小数点数を 16 ビットまたは 4 ビットの浮動小数点表現に変更する人もいます。
知識蒸留: 小さなモデル (生徒) をトレーニングして、より大きなモデルまたはモデルのアンサンブル (教師) を模倣する方法。
低ランク分解: 重要な考え方は、高次元テンソルを低次元テンソルに置き換えてパラメータの数を減らすことです。たとえば、ユーザーは 3x3 テンソルを 3x1 テンソルと 1x3 テンソルの積に分解できます。この積には 9 個ではなく 6 個のパラメーターのみが含まれます。
剪定。

知識蒸留による Alpaca のトレーニングや、低ランク分解と量子化を組み合わせた QLoRA など、上記の 4 つの方法は今でも人気があります。

5. 新しいモデルアーキテクチャを設計する

2012 年に AlexNet がリリースされて以来、LSTM や seq2seq を含む多くのアーキテクチャが普及し、その後廃止されました。対照的に、Transformer は信じられないほど粘着性があります。 2017年から存在し、現在でも広く使用されています。このアーキテクチャがどのくらい長く人気を維持するかを予測するのは困難です。

しかし、Transformer を超えるまったく新しいアーキテクチャを開発するのは簡単ではありません。過去 6 年間にわたって、研究者たちは Transformer に多くの改良を加えてきました。モデルアーキテクチャに加えて、ハードウェアレベルの最適化も含まれます。

アメリカのコンピューター科学者クリス・レ氏が率いる研究室は、2021年にS4に関する多くの研究を実施しました。詳細については、論文「構造化状態空間による長いシーケンスの効率的なモデリング」を参照してください。さらに、Chris Ré Lab は新しいアーキテクチャの開発に多額の投資を行っており、最近ではスタートアップの Together と協力して Monarch Mixer アーキテクチャを開発しました。

彼らの主なアイデアは、既存の Transformer アーキテクチャでは、注意の複雑さはシーケンスの長さの 2 乗であるのに対し、MLP の複雑さはモデルの次元の 2 乗であり、複雑さが低いアーキテクチャの方が効率的であるというものです。

6. GPUの代替品を開発する

2012 年に AlexNet がリリースされて以来、GPU はディープラーニングを支配してきました。実際、AlexNet が人気を博した理由として一般的に認められているのは、GPU を使用してニューラルネットワークのトレーニングに成功した最初の論文だったことです。 GPU が登場する前は、AlexNet のような規模のモデルをトレーニングするには何千もの CPU を使用する必要がありましたが、現在は数個の GPU でもその作業を実行できます。

過去10年間、大企業とスタートアップ企業の両方が人工知能用の新しいハードウェアの開発に取り組んできました。最も代表的なものとしては、Google の TPU、Graphcore の IPU、AI チップ企業 Cerebras などが挙げられますが、これらに限定されるわけではありません。さらに、AIチップのスタートアップ企業SambaNovaは、新しいAIチップの開発のために10億ドル以上を調達した。

もう 1 つの興味深い方向性は、光子を使用してデータを移動し、より高速で効率的なコンピューティングを可能にするフォトニックチップです。この分野のスタートアップ企業数社は、Lightmatter（2億7000万ドル）、Ayar Labs（2億2000万ドル）、Lightelligence（2億ドル以上）、Luminous Compute（1億1500万ドル）など、数億ドルを調達している。

以下は、論文「フォトニックマトリックス乗算がフォトニックアクセラレータとその先を照らす」から抜粋した、フォトニックマトリックスコンピューティングへの 3 つの主なアプローチの進捗状況のタイムラインです。 3 つの方法は、平面光変換 (PLC)、マッハツェンダ干渉計 (MZI)、波長分割多重 (WDM) です。

7. エージェントをより使いやすくする

エージェントは、インターネットの閲覧、電子メールの送信、部屋の予約などのアクションを実行できる LLM です。この記事で紹介した他の研究方向と比較すると、この方向は比較的遅れて登場し、誰にとっても非常に新しいものです。

まさにその斬新さと大きな可能性ゆえに、インテリジェントエージェントには熱狂的な関心が寄せられています。 Auto-GPT は現在、GitHub で 25 番目に人気のあるプロジェクトにランクされています。 GPT-Engineering も非常に人気のあるプロジェクトです。

これは刺激的で有望ではありますが、LLM が十分に信頼性が高く、行動権を与えられるほど高いパフォーマンスを備えているかどうかは依然として疑問です。

しかし、すでに応用事例が登場しており、それはインテリジェントエージェントを社会調査に応用することです。少し前に、スタンフォードは「仮想都市」スモールビルをオープンソース化しました。25人のAIエージェントが町に住んでいます。彼らは仕事をし、噂話をし、社会活動を組織し、新しい友達を作り、バレンタインデーパーティーを開催することさえあります。それぞれの「町の住人」には、ユニークな性格と背景ストーリーがあります。

詳細については、以下の論文を参照してください。

論文アドレス: https://arxiv.org/pdf/2304.03442.pdf

おそらくこの分野で最も注目されているスタートアップはAdeptです。同社はTransformerの共著者2人と元OpenAI副社長によって設立され、これまでに約5億ドルを調達しています。昨年、彼らはエージェントがインターネットを閲覧し、Salesforce に新しいアカウントを追加する方法を紹介するデモを行いました。

8. 人間の好みからの学習の改善

RLHF、つまり人間の好みからの強化学習。 RLHF にはまだ解決すべき問題がたくさんあるため、LLM をトレーニングする他の方法が見つかっても不思議ではありません。 Chip Huyen 氏は次の 3 つの点を挙げています。

人間の好みは数学的にどのように表現できるでしょうか?

現在、人間の好みは比較によって決定されます。つまり、人間の注釈者は、応答 A が応答 B より優れているかどうかを判断しますが、応答 A が応答 B よりどの程度優れているかは考慮しません。

人間の好みとは何でしょうか?

Anthropic は、モデル内の応答の品質を、有用性、誠実さ、無害性の 3 つの軸に沿って測定します。

論文アドレス: https://arxiv.org/abs/2212.08073

DeepMind は、大多数の人々を満足させるような応答を生成しようともしています。下記の論文をご覧ください。

論文アドレス: https://arxiv.org/abs/2211.15006

しかし、はっきりさせておきたいのは、私たちが求めているのは立場を表明できる AI なのか、それとも物議を醸す可能性のあるトピックを避けるような汎用的な AI なのかということです。

「人間」の好みとは誰の好みでしょうか?

文化や宗教などの違いを考慮すると、すべての潜在的なユーザーを完全に表すトレーニングデータを取得するのは多くの課題があります。

たとえば、OpenAI の InstructGPT データでは、ラベル付けを行ったのは主にフィリピン人とバングラデシュ人であり、地域の違いにより一定のバイアスが生じている可能性があります。

画像出典: https://arxiv.org/abs/2203.02155

研究コミュニティもこれに取り組んでいますが、データの偏りは依然として存在しています。たとえば、OpenAssistant データセット内の人々の統計的分布では、222 人の回答者のうち 201 人 (90.5%) が男性でした。

9. チャットインターフェースの効率を向上させる

ChatGPT以来、チャットがさまざまなタスクに適しているかどうかについて多くの議論がありました。たとえば、次のような議論があります。

自然言語は怠惰な UI です https://austinhenley.com/blog/naturallanguageui.html
チャットボットが未来ではない理由: https://wattenberger.com/thoughts/boo-chatbots
どのような種類の質問には会話で答える必要がありますか? https://arxiv.org/abs/2303.17710
AI チャットインターフェースは、ドキュメントを読むための主要なユーザーインターフェースになる可能性があります: https://idratherbewriting.com/blog/ai-chat-interfaces-are-the-new-user-interface-for-docs
最小限のチャットで LLM とやり取りする: https://eugeneyan.com/writing/llm-ux/

しかし、これらの議論は最近のものではありません。チャットは、多くの国、特にアジアでは約 10 年にわたってスーパーアプリのインターフェースとして使用されてきました。

中国語アプリケーションのユニバーサルインターフェースとしてのチャット

2016 年、多くの人がアプリは死に絶え、チャットボットが未来だと信じていたとき、議論は再び緊迫しました。

チャットインターフェース: https://acroll.medium.com/on-chat-as-interface-92a68d2bf854
チャットボットのトレンドは大きな誤解なのでしょうか?
ボットがアプリに取って代わるのではなく、より優れたアプリがアプリに取って代わるのです: http://dangrover.com/blog/2016/04/20/bots-wont-replace-apps.html

Chip Huyen 氏は、次の理由からチャットインターフェイスが非常に気に入っていると述べています。

チャットは、これまでコンピュータやインターネットに触れたことがない人でも、誰でもすぐに使い方を習得できるインターフェースです。
チャットインターフェースは使いやすく、急いでいるときでもテキストの代わりに音声を使用できます。
チャットも非常に強力なインターフェースであり、何でも質問でき、応答が良くない場合でも応答します。

しかし、Chip Huyen 氏は、チャットインターフェースにはいくつかの領域でまだ改善の余地があると考えています。彼は次のような提案をしている

1. ラウンドごとに複数のメッセージ

現時点では、1 ラウンドあたり 1 つのメッセージしか送信できないとほぼ考えられています。しかし、現実の生活では人々はそのようにテキストメッセージを送信しません。多くの場合、アイデアを完成させるには複数のメッセージが必要になります。これは、プロセス中にさまざまなデータ (画像、場所、リンクなど) を挿入する必要があり、ユーザーが前のメッセージで何かを見逃していたり、すべてを 1 つの大きな段落に書きたくない場合があるためです。

2. マルチモーダル入力

マルチモーダルアプリケーションの分野では、ほとんどの労力がより優れたモデルの構築に費やされてきましたが、より優れたインターフェースの構築にはほとんど労力が費やされていません。 Nvidia の NeVA チャットボットを例にとると、ユーザーエクスペリエンスを改善する余地があるかもしれません。

アドレス: https://catalog.ngc.nvidia.com/orgs/nvidia/teams/playground/models/neva

3. ワークフローに生成AIを組み込む

Linus Lee 氏は、講演「チャットを超えた AI 生成インターフェース」の中で、この点を非常にうまく説明しています。たとえば、作業中のグラフの列について質問したい場合は、その列を直接ポイントして質問できる必要があります。

ビデオリンク: https://www.youtube.com/watch?v=rd-J3hmycQs

4. 情報の編集と削除

ユーザー入力を編集または削除すると、チャットボットとの会話の流れがどのように変化するかを考える価値があります。

10. 英語以外の言語向けのLLMの構築

英語を第一言語とする現在の LLM は、パフォーマンス、レイテンシ、速度の点で他の言語にうまく適応できません。関連コンテンツについては、以下の記事をお読みください。

論文アドレス: https://arxiv.org/abs/2304.05613

記事アドレス: https://blog.yenniejun.com/p/all-languages-are-not-created-tokenized

チップ・フイエン氏は、この記事を早期に読んだ数人の読者から、2つの理由からこの指示は含めるべきではないとの意見を聞いたと述べた。

1. これは研究上の問題というよりも、物流上の問題です。私たちがすでにその方法を知っているというのは完全に真実ではありません。必要なのは、お金と労力を投資してくれる人だけです。ほとんどの言語は低リソース言語と見なされており、英語や中国語などに比べて高品質なデータがはるかに少ないため、大規模な言語モデルをトレーニングするには異なる手法が必要になる場合があります。以下の記事を参照してください。

論文アドレス: https://arxiv.org/abs/2006.07264

論文アドレス: https://aclanthology.org/P19-1310/

2. より悲観的な人々は、将来多くの言語が消滅し、インターネットは英語と中国語の 2 つの言語で構成されると考えています。

機械翻訳やチャットボットなどの AI ツールが言語学習に与える影響については、あまり明確ではありません。これらが人々が新しい言語をより早く習得するのに役立つのか、それとも新しい言語を習得する必要が全くなくなるのかは不明です。

要約する

この記事で言及されている質問も難易度が異なります。たとえば、最後の質問については、十分なリソースと時間があれば、英語以外の言語の LLM を構築することが可能です。

最初の問題は幻覚を減らすことですが、幻覚は LLM が確率的なことをしているだけなので、これは非常に困難です。

4 番目の問題は、LLM をより高速かつ安価にすることですが、これは完全に解決されることはありません。この分野ではある程度の進歩があり、将来さらに進歩するでしょうが、完璧に改善することは決してできません。

5 番目と 6 番目の問題は、新しいアーキテクチャと新しいハードウェアです。これらは非常に困難ですが、時間の経過とともに避けられません。アーキテクチャとハードウェアは共生関係にあり、新しいアーキテクチャは共通のハードウェアに合わせて最適化する必要があり、ハードウェアは共通のアーキテクチャをサポートする必要があるため、この問題は同じ会社によって解決される可能性があります。

技術的な知識だけでは解決できない問題もいくつかあります。たとえば、8 番目の質問である「人間の好みから学習する方法の改善」は、技術的な問題というよりもむしろ政策的な問題である可能性があります。 9 番目の質問であるインターフェースの効率性の向上について言えば、これはユーザーエクスペリエンスの問題に近いため、この問題を解決するには、技術的なバックグラウンドを持たないより多くの人が協力する必要があります。

これらの問題を別の視点から見てみたい場合、Chip Huyen は次の論文を読むことを勧めています。

論文アドレス: https://arxiv.org/abs/2307.10169

<<: Alibaba のビッグモデルが再びオープンソース化されました!画像を読み取り、物体を認識することができ、市販されているTongyi Qianwen 7Bをベースに構築されています。

>>: HDビデオは本物ではなく、数枚の写真でレンダリングされた3Dシーンでは本物かどうか判断が難しい。