K2 K2、上海交通大学チームが70億パラメータの地球科学言語モデルを発表

K2 K2、上海交通大学チームが70億パラメータの地球科学言語モデルを発表

地球科学は、岩石、鉱物、土地の特性を研究するだけでなく、地球の気候、海洋、大気、生態系などの現象と原理を探求する古代の学問です。地質学は私たちの日常生活に深く関わっており、天気を予測したり、地球の進化の歴史を理解したり、海洋生態系や海洋資源のバランスを維持したりするのに役立ちます。同時に、火山活動、地震、恐竜の化石、気象現象などの魅力的な内容も地質学者によって解説されており、誰もが驚きと魅力に満ちた物語を次々と楽しむことができます。

写真

図: 地質学分野のワードクラウド図; 各地質学時代における地質学論文数の分布。

一般的に、地球科学は強力な理論的側面と応用的側面を備えた自然科学です。理論的に言えば、自然の神秘と法則を明らかにするという使命を担っています。応用可能性の観点から、地球上で暮らす人類がいかに自然に適応し、自然を活用し、自然を保護することができるかについての科学的方法論を提供します。しかし、従来の理論的および実践的方法に頼るだけでは、新しい地質学理論を効率的に発見することはできません。従来の地球科学を統合し、コンピューターサイエンスを使用してビッグデータを処理することが、地球科学における新しい研究パラダイムとなっています。

コンピュータサイエンスは長い間、地球科学の不可欠な部分となってきました。地球科学には、文献データ、地質データ、気象データ、リモートセンシングデータなど、大量のデータが関係します。コンピュータ サイエンスは、画像、テキスト、数字の形式で大量のデータを処理、保存、分析するためのツールとテクニックを提供します。これら 2 つの分野の相互統合は避けられない傾向になっています。

その中でも、テキスト データ マイニングは重要でありながら、最も見落とされがちなコンポーネントです。大量のテキスト データから地球科学に関する情報、パターン、傾向を抽出することで、地球科学への理解を深め、科学的研究、意思決定、問題解決をサポートできます。同時に、近年非常に人気が高まっている言語モデルは、テキストデータマイニングにとって重要なツールです。したがって、この大規模言語モデルの時代には、地球科学の垂直分野における基礎言語モデルを立ち上げることが必須です。

最近、上海交通大学のチームが、K2と呼ばれる70億パラメータの地球科学言語モデルを立ち上げました。 K2 はオリジナルの LLaMA-7B モデルに基づいており、100 万件を超える地球科学論文と地球科学関連の Wikipedia 記事を使用してさらに事前トレーニングされています。同時に、地球科学分野で初めて微調整されたデータセットGeoSignalを設計しました。これには、記事の内容、カテゴリ、参考文献、言及されたエンティティなどが含まれます。これは、地球科学の専門的な質問に答えたり、名前付きエンティティの抽出を完了したり、地質学的概念の下位概念と下位概念の関係を判断したりするのに適しています。

図: 地球科学分野における大規模言語モデルK2の構築フローチャート。

ほとんどの垂直分野におけるモデルトレーニングのアイデアとは異なり、チームは、ChatGPT によって生成されたデータを使用して指示データを収集するために、単に自己指示などの方法を使用するのではなく、独自のデータ再構築テクノロジーを通じて指示の微調整のためのデータを生成します。

同時に、モデルの地質学的知識の理解と応用能力を評価するために、中国の地理学と地質学の大学院入試問題と米国の地理学、地質学、環境科学のAP試験問題を中心に構成される地球科学言語モデルの最初のベンチマークであるGeoBenchmarkも確立しました。興味深いことに、地球科学関連の AP 試験における ChatGPT と GPT4 のスコアは、GPT4 の技術レポートとともに提供されなかったため、想像の余地が十分に残されています。

ビッグモデル競争の時代において、垂直分野におけるほとんどのビッグモデルのトレーニングには、最初に専門分野のコーパスで事前トレーニングし、次に指示を微調整するという統一されたパラダイムがあります。ただし、ほとんどのモデルの事前トレーニング段階で使用されるデータは透明性が低く、指示の微調整のためのデータは ChatGPT または高価な手動ラベル付けから抽出される可能性が高くなります。しかし、K2は、コンピュータの観点からデータの統合と改良を通じて学際的な知識工学とモデル構築を行う地質学の垂直分野に一連の技術的ルートを提供しました。これは、データマイニングと自然言語の分野に対するK2の貢献の1つです。

事前トレーニング データについては、チームは Grobid、PyPDF2、DeepShovel (https://deepshovel.deep-time.org/) などのツールに基づいてデータ クリーニング ツールキットを開発しました。

DeepShovel: 地球科学者の知識抽出を支援する文献注釈プラットフォームであり、徐々にすべての学術分野に拡張されています。現在、DeepShovel は 100 を超える地球科学研究機関を支援しています。

その中で、オープンアクセスの地球科学論文は、コンピュータで非常に読みやすい Markdown 形式のテキストに変換されます。多階層のタイトル、数式、参考文献を区別するための特別なトークン、および画像や表の注釈テキストも特別なトークンによって保存されます。一連の操作を経て、合計 55 億トークンのテキスト コーパスが得られました。彼らは現在、より大規模な学術モデルをトレーニングすることを目的として、より大規模な学術リソースのコーパスを構築しています。

指示データを微調整するために、チームは複数の自社開発プラットフォームからのデータを統合し、データ再構築を通じて構造化されたウェブページを再構築し、知識集約型データセットに再編成しました。このプロセスにおいて、上海交通大学チームはチーム内のすべてのプラットフォーム研究グループの力を結集してデータを完全に再編成し、特定の地質学的タス​​クを備えた知識ベースの指示の微調整データセットの独自のセットを構築しました。

同論文によると、上海交通大学のチームは過去3年間、DDEビッグサイエンスプロジェクト(https://deep-time.org/)の呼びかけに応えて、合計4つの地球科学データおよび機能プラットフォームを開発した。

  • 深遠な文学

https://ddescholar.acemap.info/

私たちは、地質学の分野で DBLP を構築し、すべての地質学の学術文献を統合し、このプラットフォームを利用して学者のポートレートに関する一連のデータマイニングと分析を実施することに尽力しています。

  • ガック

https://gakg.acemap.info/

私たちは、地質学の分野におけるマルチモーダルな学術知識グラフを作成し、あらゆる地質学の学術文献のデータマイニングを実施し、文献間の相関関係、地質学の知識ポイント間の階層関係や上位関係などの意味関係を抽出し、地質学の文献内で知識マイニングを実施することに取り組んでいます。これは、外部に意味的クエリとテキスト検索システムを提供するものであり、CIKM 史上初の地球科学関連の科学研究論文でもあります。 GAKG は、データのダウンロード、セマンティック クエリ、テキスト検索のためのプラットフォームも提供します。同時に、GAKG の技術的な研究も CIKM に掲載されました。CIKM もコンピューター サイエンスと地球科学の交差点に関する科学研究論文です。

  • グローバル

https://gso.acemap.info/

これは、機械で生成され、手動で修正された地質知識ツリー システムであり、階層関係を使用して地質知識ポイント間の関連性を維持し、大規模モデルが地質知識リンクを予測するための優れた監視信号を提供します。

  • データエキスポ

https://dataexpo.deep-time.org/

すべての地球科学データセットは、キーワード検索とテキスト分類を通じて要約されました。

これらのプラットフォームは、地質学的知識のメタデータを保持します。プラットフォームの基礎となるデータ ロジックを手動で統合すると、地質学的知識と特定のタスク駆動型データ セット間の関係をすばやく取得できます。

DDE Scholar をベースに、地質科学関連の科学研究文献を入手し、OA 文献のダウンロードリンクからダウンロードして事前トレーニング コーパスを構築できます。GAKG を通じて、エンティティ抽出用のデータセットと意味的下位語の知識判断用のデータセットを構築できます。 DeepShovel のデータ蓄積を通じて、特定のタスク向けの地球科学の質問応答システムや、文献の表から抽出されたデータセットを構築できます。 DataExpo を通じて、データセットに関連する知識テキストを取得できるだけでなく、ある程度、科学研究文献と同様の地質学的知識の監視シグナルを提供することもできます。

もちろん、ChatGPT をある程度蒸留することで、モデルを ChatGPT に近づけることができます。そのため、K2 はさまざまな地質学分野向けに、自己指示ベースの指示微調整データセットも統合し、ChatGPT が生成された後、専門の地質学専門家のレビューも通過し、高品質の監督結果が得られます。

最終的に、上海交通大学のチームは、手動と機械の方法を組み合わせてこれらの指示を整理し、最終的に微調整された地質科学知識指示の 39k サイズのデータ​​セットを作成しました。このデータセットでは、抽出された ChatGPT の割合は高くありません。これは、交通大学チームの見解では、このタイプのデータは QA タスクの一種の監視にすぎず、他のより困難なタスクにはうまく一般化できないためです。

最後に、上海交通大学チームは、近年の地理学大学院入試問題を翻訳するために専門の地理学翻訳専門家を雇い、アメリカの高校のAP試験の地理学関連科目に基づいてGeoBenchmarkを構築しました。同じサイズのモデルと比較して、K2はデータコストが少なく、最終的に次の結果が得られました。

さらに、研究チームは、K2 の微調整は比較的熟練を要するプロセスであることも発見しました。知識ベースの指示のみを使用してデータを微調整すると、モデルは最良の結果を達成できません。地球科学とは関係のないアルパカなどのオープンソースの指示を使用してデータを微調整するよりも、わずかに優れているだけかもしれません。しかし、興味深いのは、まずアルパカなどの命令微調整データを使用して微調整を行い、その後知識ベースの命令微調整データを使用してさらにトレーニングを行うと、達成される効果がさらに高まることです。

この現象は、子供にまず人間の言語を話せるようにしてから専門用語を話せるようにさせるのと似ているため、この特徴が地球科学の分野にのみ存在するかどうかはまだわかっていません。わかりにくい主題に直面したとき、このように別の考え方を持つことは良い方法です。

この現象は広く見られるのでしょうか? 答えは「非常にありそう」です。ジョージア大学のマイ・ゲンチェン教授が主催した GeoAI セミナーでは、ジョージア大学とハーバード大学のチームも放射線学の分野で生成モデルをトレーニングしているときにこの現象を発見しました。これは、専門家になりたいなら、まず「人間」になることを学ばなければならないことを十分に示しています。

K2の育成と開発の全過程は紆余曲折に満ちており、現場の障壁が高いため、専門家の意見を直接得ることは困難でした。需要から始めると、地質学分野のニーズをコンピュータ分野のタスクに直接変換することも困難です。最後に、地質学の分野におけるこの大規模モデルは、コンピューターの観点からうまくトレーニングされ、地質学の分野におけるその後の大規模モデルに一定の参考的意義を与えました。

現時点では、K2 は国際社会において非常に幅広い応用の見通しを持っているようです。たとえば、自然言語理解、情報検索強化のための GAKG と組み合わせた QA タスク、テキスト生成タスクなどに使用できます。さらに、将来的には、K2 は地球科学分野におけるナレッジ グラフの構築や、地球科学文献の自動分析にも使用される可能性があります。チームの刺激的な仕事は、地質科学情報会社の社交界で広く議論されている。例えば:

1. https://paulhcleverley.com/2023/08/03/worlds-first-geoscience-large-language-model/

2. https://www.linkedin.com/posts/paulhcleverley_geosciences-largelanguagemodels-artificialintelligence-activity-7093001271632101376-jzAc


この記事の説明によれば、コンピューターは地質学に新たな命を与え、地質学はコンピューターに新たな使命を与えるという。今後、地質学に真剣に時間を割く意志のあるコンピューターサイエンスの専門家や、地質学の観点からサポートと忍耐を提供するために真剣に時間を割く意志のある地質学の専門家がますます増えていくと私たちは信じています。地質学の AI 時代はもうすぐ到来するでしょう。

  • 論文: https://arxiv.org/abs/2306.05064
  • コード: https://github.com/davendw49/k2

DDE国際ビッグサイエンスプロジェクトについて

K2は、国際ビッグサイエンスプロジェクト「ディープデジタルアース(DDE)」の呼びかけに応えて打ち上げられました。コンピュータ分野の科学研究者が地質学分野の詳細なデータ収集と分析を実施し、コンピュータサイエンスと地球科学の学際的研究に新たなアイデアをもたらしました。 DDE国際ビッグサイエンスプログラムは、中国で唯一の国際ビッグサイエンスプログラムです。中国地質大学の王成山院士や中国科学院地理科学・天然資源研究所の周成湖院士など、中国の地球科学者が主導しています。地球規模の地質ビッグデータを集約し、データ駆動型の地球科学の発見を構築するという目的を達成するために、社会が地球規模の科学技術の課題に対応し、地球規模または地域の運命共同体を支援するために必要な知識を提供する国際プラットフォームの構築に取り組んでいます。

<<:  マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの研究者7人が5つの主要トピックについて協力し、119ページの文書を公開した。

>>:  1,000元の予算で半日のトレーニングを実施し、その効果は主流の大型モデル、オープンソース、市販の中国製LLaMA-2に匹敵する。

ブログ    
ブログ    

推薦する

AI業界は依然として寒い冬に:資金調達規模はピーク時の半分以下、上場ブームは倒産の波を伴う

[[351301]]資本の冬を経験した後、疫病のブラックスワンが次々と起こり、AI初期に蓄積された非...

...

アルゴリズムが消費者を「計算」するのを防ぐにはどうすればよいでしょうか?専門家:対策のためのアルゴリズムの研究は可能

デジタル経済の時代では、目に見えず、実体のないアルゴリズムが常に消費者の選択に影響を与えます。近年、...

...

機械翻訳:人工知能分野の重要な中核技術

近年、機械翻訳 (MT) は大きな進歩を遂げ、満足のいく成果を達成しました。 MT は人工知能分野の...

リアルタイムの犯罪警報: ディープラーニングで安全を守る方法

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...

千年紀の文化遺産の碑文を解読するAIの能力は人間より30%高い

科学技術の継続的な進歩により、人工知能(AI)はあらゆる面で常に人間を超えつつあるようだ。例えば、1...

量子コンピューティングは人工知能をどう変えるのか

量子コンピューティングと人工知能は、現代の最も破壊的なテクノロジーの 2 つです。 2 つのテクノロ...

...

...

エラー率が44%減少しました!ニューヨーク大学の最新の「顔生成」は、年齢を自由に変えることが可能で、10代から高齢者まであらゆる人をカバーできる。

現在の「顔認識システム」は老化防止能力が非常に弱く、人の顔が老化すると認識性能が大幅に低下し、一定期...

AI専門家バターフィールド氏:33カ国が統一AI標準を採用

ケイ・フェイス・バターフィールドは忙しい人です。彼女の使命は、世界経済フォーラム (WEF) と第四...

AIを信頼していない経営者は何を考えているのか?

経営幹部は長い間、より高度な意思決定にデータ分析を使用することに抵抗し、AI 支援による意思決定より...

パフォーマンス最適化技術: アルゴリズム

アルゴリズムとその実装にはさまざまな種類がありますが、この記事ではシングルコア、シングルスレッドのア...