暗唱することは理解を意味するわけではない。ビッグモデルの背後にある知識の蓄積と抽出の詳細な分析

暗唱することは理解を意味するわけではない。ビッグモデルの背後にある知識の蓄積と抽出の詳細な分析

モデルのサイズが大きくなるにつれて、大規模なモデルが大量の知識を習得できる方法を模索し始めます。一つの見方では、これは「ロスレス圧縮」によるもので、モデルがさらにトレーニングされ、より多くのコンテンツを記憶することで予測精度が向上すると考えられています。しかし、「ロスレス圧縮」によって、本当に大規模なモデルがこの知識を理解できるようになるのでしょうか? Zhu Zeyuan (MetaAI) と Li Yuanzhi (MBZUAI) による最新の研究「言語モデル物理学パート 3.1: 知識の保存と検索」では、この問題が詳細に検討されています

論文アドレス: https://arxiv.org/pdf/2309.14316.pdf

人間について、「本を百回読めばその意味が明らかになる」という格言があります。この文はすべての知識に当てはまるわけではありませんが、簡単な知識であれば、関連する本を覚えておけば、関連する質問に簡単に答えることができます。たとえば、古代の詩「静夜思索」を覚えていれば、「詩の中の月光は何に例えられているのか」という質問に簡単に答えることができます。また、百度百科事典の「清朝遷都碑/創作背景」の段落を覚えていれば、「清朝遷都碑はいつ創作されたのか」という質問に簡単に答えることができます。では、大規模なモデルでもこれを行うことはできますか?

図1: GPT-4による知識抽出の例(左がChatGPT、右がAPI)

GPT-4 は質問に関連する段落を理解して語り直すことができますが、なぜ人間のように簡単な質問に答えることができないのでしょうか?モデルが十分に大きくない、メモリが足りない、またはトレーニング後の微調整が不十分なためでしょうか?どちらでもない!記事では、自然言語モデルが十分に大きく、十分に長くトレーニングされ、十分に微調整されていたとしても、人間が簡単だと考える質問に答えられない可能性があると指摘しています。この根本的な理由は、事前トレーニング データ セットで知識が提示される方法に関係しています。同じ知識が事前トレーニング データセットに複数回出現し、十分な「多様性」を備えている必要があります。そうすることで、微調整後に簡単に抽出できるようになります。

これを実証するために、2 人の著者は 10 万件の伝記を含むデータセットを作成しました。各伝記には、人物の名前と 6 つの固定属性 (生年月日、出生地、大学専攻、大学名、勤務地、勤務単位) を含む伝記エントリが含まれています。彼らは BioS と BioR という 2 つのデータセットを設計しました。BioS の各文は 50 個の固定テンプレートから選択され、BioR の各文はより現実的で多様性のある LLaMA-30B を使用して書き直されました。 2 つのデータセットの結果は一致しています。以下は、BioS を例として使用したサンプルエントリです。

Anya Briar Forger は 1996 年 10 月 2 日に生まれました。幼少期をニュージャージー州プリンストンで過ごしました。MIT の教授陣から指導を受けました。コミュニケーションを専門に学んで教育を修了しました。Meta Platforms で専門職を務めました。カリフォルニア州メンロパークに勤務していました。

図2

自然言語モデルが 10 万件の個人経歴で完璧に事前トレーニングされていたとしても、QA の微調整によって「アーニャはどこの大学に通っていましたか?」などの質問に正確に答えることはできません。図 2 に示すように、5 万人を QA 微調整トレーニング データとして使用し、LoRA を含むさまざまな微調整方法を試しても、残りの 5 万人に対するモデルの精度はわずか 10% です。 682Mモデル(人数の7,000倍)で1,350回トレーニングし、WikiBookなどの標準的なNLP事前トレーニングデータを追加しても、精度は向上しませんでした。 「大きな力は奇跡を起こす」ということは起こらなかったことがわかります。

したがって、大規模なモデルでは、必ずしも「ロスレス圧縮」の知識が取得または抽出されるわけではありません。では、GPT-4 はどのようにして知識を獲得するのでしょうか?この問題を研究するために、2 人の著者は事前トレーニング セットに変更を加えました。著者はこれを知識拡張と呼んでいます。

1. 多重性 - multiM: 同じ情報を保持しながら、異なる物語言語を使用して各人物の伝記エントリを M 個作成します (各文には 100 種類の物語方法があり、各伝記では各文にそのうちの 1 つを使用します)

2. ランダムに並べ替え: 伝記の文章をランダムに並べ替える

3. フルネーム: 経歴にある代名詞、姓、名をすべてフルネームに置き換えます。

著者らは、元のデータセットを bioS single と呼び、15 種類の知識拡張の組み合わせを試しました。たとえば、bioS multi5+permute は、各人物に 5 つの伝記があり、語順がシャッフルされていることを意味します。以下は bioS multi5+permute の例です。

Anya Briar Forger はニュージャージー州プリンストン出身です。彼女はコミュニケーションを専攻し、カリフォルニア州メンロパークで実務経験を積みました。Meta Platforms でキャリアを積みました。彼女は 1996 年 10 月 2 日にこの世に生を受けました。彼女は MIT で上級コースを修了しました。

人間と大規模モデルの場合、bioS シングル データセットと bioS マルチ 5+permute データセットはほぼ同じくらい難しいことに注意してください (情報量は同じで、各文は 50 個のテンプレートから選択されます)。では、この新しい知識強化データセットで事前トレーニングを行い、その後 QA の微調整を行うと、新しいパフォーマンスが得られるのでしょうか?

図3

図 3 は、bioS シングル事前トレーニング済みモデルの QA 精度がわずか 9.7% であるのに対し、bioS マルチ 5+permute 事前トレーニング済みモデルの精度は 96.6% と高いことを示しています。この大幅な改善は、モデルの微調整、サイズ、トレーニング時間とは関係なく、事前トレーニングで知識が提示される方法、つまり大規模モデルによって知識がどのように「暗唱」されるかに関係しています。

また、この研究では、伝記を著名人と少数派に分けることで、少数派の伝記に知識強化がなくても、著名人の伝記に知識強化があれば、少数派グループに関する知識を抽出するモデルの精度が大幅に向上することがわかりました。もちろん、最高の効果を得るには、すべてのデータの知識強化が必要です。

図 4: 有名人のトレーニング データの多様性を高めるだけで、少数派グループからの知識抽出の精度が飛躍的に向上します。

では、異なるデータを記憶した後、モデルの質問応答能力になぜこれほど大きな違いが生じるのでしょうか?有名人の伝記を繰り返し暗唱すると、なぜ少数派グループの知識検索能力が向上するのでしょうか?その理由は、このモデルでは異なる記憶方法を採用しているためです。

著者らは、2 種類の線形プローブを通じて、モデルの記憶知識の原理を詳細に調査しました。 P-プロービングと呼ばれる方法の 1 つを見てみましょう。

P-probe では、事前トレーニング済みのモデルに経歴エントリを入力し、線形分類器をトレーニングして 6 つのターゲット属性 (大学、専攻など) を予測します。モデルが属性よりも早い位置でこの情報を抽出できるかどうかを確認したいと思います。分類器が人物名の直後の「職場」に対して高い精度を示した場合、モデルは「アーニャの雇用主はメタである」ことを直接学習したことになります。高い精度が経歴の最後でのみ達成される場合、モデルは誤った記憶方法を使用している可能性があります。たとえば、「X の誕生日は 1996 年 10 月 2 日、大学は MIT、したがって雇用主は Meta です。」

Pプローブの実験設計は次のとおりです。各経歴における 6 つの属性のそれぞれの最初の出現箇所を見つけ、線形分類器をトレーニングして、これらの位置の前の位置にある各ターゲット属性を予測します。その結果、36 個の分類タスクが生成されました。

図 5: P プローブ テストの結果は、事前トレーニング データセットの知識強化により知識をより早い場所に保存できるようになり、その一部は人物の名前に直接保存されることを示しています。モデルが微調整を通じて質問に答えられるかどうかは、事前トレーニング中に人物の名前に直接情報が保存されているかどうかに関係します (図 3 と図 5 を比較)。

P プローブ実験の結果は、自然言語モデルが事前トレーニング中に圧縮を実現するために名前を通じて情報を記憶できること、または他の情報 (「MIT で学び、誕生日が 1996 年 10 月 2 日で、... に勤務している人」など) を通じて情報を記憶できることを示しています。 2 番目の記憶方法は人間にとっては「不自然」ですが、モデルにとっては 2 つの方法の圧縮率は同じです。モデルが 2 番目の方法で情報を記憶すると、トレーニング後に微調整を行っても質問に答えることができなくなります。知識の強化を通じて、事前トレーニング済みモデルは徐々に最初の記憶方法を使用するように学習する傾向があります。

上記の「知識抽出」の失敗は、GPT などの自己回帰言語モデルの単方向性によるものであると主張する人もいるかもしれません。実際、BERT などの双方向言語モデルは、知識抽出においてさらに劣っています。これらのモデルは、「Meta Platform」などの複数単語の知識を保存することはできますが、抽出することはできません。興味のある読者は論文の第 6 章を参照してください。

一般的に、言語モデルが「知識の抽出」という質問に答えられるかどうかは、「ロスレス圧縮」だけでなく、「モデル内でどのように圧縮するか」にも依存します。この論文では、事前トレーニング中に重要だが希少なデータに対する知識強化(ChatGPT を使用した複数回の書き換えなど)を実行する必要があることを強調しています。このステップがなければ、どれだけ細かく調整しても、事前トレーニング済みモデルはトレーニング データをロスレスで圧縮しても、その知識を抽出できなくなる可能性があります。

結論

自然言語モデルの仕組みを理解するにはどうすればよいでしょうか?ほとんどの研究者は、GPT-4 などのモデルの能力について、彼らと話し合って推測します。しかし、「言語モデル物理学」シリーズの論文の著者らは、慎重に設計されたトレーニングデータと制御された実験を通じて、Transformerの内部メカニズムを調査し、AIタスクを処理する能力を説明するより正確な方法を提案しました。

「パート 3.1: 知識の保存と検索」では、著者はさまざまなデータに対するモデルの応答を正確にテストし、モデルの学習知識と能力とトレーニング データとの正確な関係を発見しました。

彼らはまた、「パート 3.2: 知識の操作」も公開し、特定の状況でモデルが知識を操作する方法をさらに検討しました。たとえば、大規模モデルが「Quiet Night Thoughts」を記憶している場合、「Quiet Night Thoughts」の最後の文が「頭を下げて故郷を思う」であると推論するように微調整できますか?近日中に続報をお届けします。

<<:  ChatGPTがついにオンラインになり、回答のソースを提供できるようになりました

>>:  一般相対性理論の予測に沿って、M87ブラックホールの最新の研究結果がネイチャー誌に掲載されました。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

工業情報化部:チップやオペレーティングシステムなどのトップレベルの基盤にブレークスルーがなければ、AI業界は空中楼閣になるだろう

12月17日、浙江省徳清国際会議センターで2019年中国スマート企業発展フォーラムが開催され、工業情...

AIをやりたいのですが、開発ツールはどのように選べばいいですか?この入門ガイドはあなたのためのものです

[[207302]]現代の人工知能は企業に多くの利益をもたらすと同時に、機械の認知能力も大幅に向上さ...

2030 年までにどの AI アプリケーションが普及するでしょうか?

何十年もの間、人工知能はSFの中で邪悪な力として描かれてきました。アーサー・C・クラークの『宇宙の旅...

Facebook は顔認識を中止することで本当にリスクを回避しているのでしょうか?人種差別は致命的である

名前にちなんでFacebookとしても知られるMateは、顔認識システムを無効化し、10億人以上の個...

スマートシティを計画する際には、アクセシビリティを忘れないようにしましょう

私たちは、使用するほぼすべてのものが「スマート」な時代に生きています。私たちのデバイスは、長い間、指...

米国の専門家:中国のロボット優位性が懸念される

フォーブスは10月2日、寄稿者ティム・バジャリン氏による記事を掲載し、中国ロボットの利点と、中国と米...

もう感情を隠せない?歩く姿勢からAIがわかる!

歩き方は人それぞれ違います。歩き方は、その時々の気分など、あなたに関する秘密を明らかにします。たとえ...

ResearchAndMarkets: 世界の AI ソリューション市場は 2027 年に 2,820 億ドルに達する見込み

ResearchAndMarkets が発表した最新のレポートによると、2027 年までに世界の人...

教師あり学習か教師なし学習か?この問題は明確にされなければならない

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

人工知能、ブロックチェーン技術などが医療分野を改善している

ヘルスケア業界の成長は驚異的ですが、欠点がないわけではありません。医師や研究者は、一般的な病気や珍し...

人工知能とデータセンター: AI がリソースを大量に必要とする理由

2023 年末までに AI 生成にどれだけのエネルギーが必要になるかについての予測は不正確です。たと...

人工知能技術は交通にどのように応用できるのでしょうか?

都市交通の分野では、AI信号制御、インテリジェントな街路交通監視、スマートバス停、スマート高速道路な...

機械学習情報工場になるためには、企業はリーン製造からこれらの6つの基本を学ぶ必要がある

【51CTO.com クイック翻訳】調査機関Forrester Researchが最近発表した調査レ...

AI分野 | ゲームのルールを変える画期的なアイデア10選

[[357174]] AI の旅が始まって以来、私は無限の可能性を秘め、輝かしい歴史に足跡を残してき...

...