研究ツールとして、LLM は科学研究に新たなブレークスルーをもたらすことができますか? 本日、Microsoft AI4Science Research は、すべての研究者に伝えるために 230 ページの論文を発表しました。 LLM (GPT-4) は非常に強力なので、今すぐ使用する方法を見つけましょう。 論文アドレス: https://arxiv.org/abs/2311.07361 このレポートでは、著者らは GPT-4 に焦点を当て、科学的発見と科学研究における LLM のパフォーマンスについて詳細な調査を実施します。 研究分野には、創薬、生物学、計算化学(密度汎関数理論(DFT)および分子動力学(MD))、材料設計、偏微分方程式(PDE)が含まれます。 研究は主に2つの部分に分かれています。1つ目は、専門家にGPT-4の関連分野における知識蓄積を評価してもらい、複雑な科学的概念と関係に対するモデルの理解を理解させることです。 次に研究者らは GPT-4 をドメイン固有のベンチマークにかけ、明確に定義されたドメイン固有の問題を解決するモデルの能力を調べました。 報告書では、GPT-4 はさまざまな科学的アプリケーションで大きな可能性を示しており、複雑な問題解決や知識統合のタスクを処理する能力を実証していると考えています。 具体的には、生物学や材料設計の分野において、GPT-4 は科学研究における特定の要件を満たすことができる広範なドメイン知識を持っています。 GPT-4 は、複雑な生物学的言語の理解と処理、バイオインフォマティクスタスクの実行、生物学的設計の科学的アシスタントとしての役割において大きな可能性を示しています。 生物学の概念を幅広く理解し、特殊なファイルの処理、シグナルペプチドの予測、観察結果から妥当なメカニズムを推論するなど、さまざまなタスクを実行できるため、生物学研究を進めるための効果的なツールとなります。 GPT-4 は、情報を取得し、設計原則を提案し、新しく実現可能な化学組成を生成し、分析および数値手法を推奨し、さまざまなプログラミング言語でコードを生成することで、材料設計タスクを支援する可能性を示しています。 しかし、より複雑な構造(有機ポリマーや MOF など)を表現して提案する能力、正確な原子座標を生成する能力、正確な定量的予測を提供する能力は、改善する必要があります。 創薬の分野では、GPT-4 は強力な属性予測能力を示しています。たとえば、GPT-4 を使用すると、薬物と標的の結合親和性や相互作用を予測することができ、これにより創薬プロセスを大幅に加速できます。 LLM は分子の物理化学的および生物学的特性を予測する可能性を示しており、分子の溶解度、毒性、生物学的活性、その他の特性を正確に予測できます。 材料設計において、GPT-4 は、情報を取得し、設計原則を提案し、新しく実現可能な化学組成を生成し、分析および数値手法を推奨し、さまざまなプログラミング言語でコードを生成することで、材料設計タスクを支援する上で有望です。 しかし、より複雑な構造(有機ポリマーや MOF など)を表現して提案したり、正確な原子座標を生成したり、正確な定量的予測を提供したりする際に課題が生じます。 偏微分方程式の研究分野では、GPT-4 は基本的な概念を理解し、概念間の関係を識別し、正確な証明方法を提供する能力を実証しています。 さまざまな種類の PDE を解くための適切な解析的および数値的手法を推奨し、さまざまなプログラミング言語で PDE を数値的に解くためのコードを生成することができます。 GPT-4 は、基本的な概念を理解し、概念間の関係を識別し、正確な証明方法を提供する能力を示します。さまざまな種類の PDE を解くための適切な解析的および数値的手法を推奨し、さまざまなプログラミング言語で PDE を数値的に解くためのコードを生成することができます。 研究者らは、LLM の強力な科学研究能力を総括した後、さまざまな分野の科学者に対し、LLM を専門的な科学ツールやモデルと組み合わせたり、既存のオープンソース LLM に基づいて基本的な科学モデルを開発したりして、より多くの科学研究パラダイムと可能性を切り開くよう呼びかけました。 論文の著者チームは、GPT-4 用に医学、生物学、化学、材料、数学の 5 つの「特別試験」を設計しました。各科目の試験で GPT-4 がどのように機能したかを見てみましょう。 創薬創薬とは、特定の病気や病状を治療または予防するための新しい薬剤候補を特定し、開発するプロセスです。この複雑かつ多面的な分野は、安全で効果的かつ的を絞った治療法を開発することで、人間の健康と幸福を向上させることを目指しています。 GPT-4 の創薬能力を評価すると、発見プロセスの加速、検索および設計コストの削減、創造性の向上など、大きな可能性が生まれます。 具体的には、GPT-4は創薬に関する幅広い知識を持っています。GPT-4は、個々の薬剤を含む創薬の重要な概念を幅広く理解しています。 標的タンパク質、 低分子医薬品の一般原則、 創薬プロセスのさまざまな段階で直面する課題について説明します。 これを基に、GPT-4 は次のような創薬におけるいくつかの基本的なタスクの完了に役立ちます。 分子操作: GPT-4 は既存の分子構造を変更することで新しい分子構造を生成することができ、新しい薬の発見につながる可能性があります。 GPT-4 は創薬研究を支援する便利なツールですが、その限界と潜在的なエラーを理解することが重要です。 SMILES シーケンスの処理は困難です。GPT-4 は SMILES シーケンスを直接処理することが困難な場合があります。モデルの理解と出力を向上させるには、可能であれば薬物分子の名前とその説明を提供することをお勧めします。 これにより、モデルにさらに多くのコンテキストが提供され、関連性のある正確な応答を生成する能力が向上します。 定量的タスクの制限: GPT-4 は定性的なタスクや問題では優れたパフォーマンスを発揮しますが、分子の数値を予測するなどの定量的タスクでは制限に直面する可能性があります。 著者らが評価したデータセット内の特徴と薬物ターゲット結合。研究者は、このような場合には GPT-4 の出力をリファレンスとして使用し、専用の AI モデルまたは科学計算ツールを使用して検証し、信頼できる結論を確実に得ることが推奨されます。 生成された分子を再確認する: GPT-4 を使用して新しい分子を生成する場合、生成された構造の妥当性と化学的特性を確認することが不可欠です。 薬物と標的の結合予測: GPT-4 は分子と標的タンパク質間の相互作用を予測できるため、有望な薬物候補を特定し、その結合特性を最適化するのに役立ちます。 分子特性予測: GPT-4 は分子のさまざまな物理化学的および生物学的特性を予測することができ、薬剤候補の選択と最適化に役立ちます。 逆合成予測: GPT-4 は標的分子の合成経路を予測できるため、化学者が潜在的な薬剤候補を合成するための効率的で費用対効果の高い戦略を設計するのに役立ちます。 新しい分子の生成: GPT-4 は、テキストの指示に従って新しい分子を生成するために使用できます。分子を新たに生成するこの能力は、新薬を特定するためのツールとなる可能性があります。 広範な知識ベースにより、GPT-4 は幅広い創薬タスクにわたって有用な洞察と推奨事項を提供できます。 コーディング機能: GPT-4 は、創薬コーディングの支援を提供し、データのダウンロードや処理などに大きな利便性を提供します。 GPT-4 の強力なエンコード機能により、将来的には研究者の作業負荷が大幅に軽減される可能性があります。 研究者らはまず、定性的なテストを通じてGPT-4の薬剤発見に関する知識を調査し、GPT-4の薬剤や表現を翻訳する能力をテストしました。 GPT-4 は化学式を CHClFNO として正しく出力し、IUPAC 名も正しいため、GPT-4 は Afatinib という薬剤を認識しています。 しかし、SMILESは正しくありません。研究者らはさらに、GPT-4 が再び SMILES を生成できるようにするためのガイダンスを提供しました。残念ながら、図に示すように、研究者は GPT-4 に「各原子タイプの原子の数に注意する」ように明示的に指示し、正しい IUPAC と化学式に基づいて生成しましたが、生成された SMILES シーケンスはいくつかの試行で依然として正しくありませんでした。 次に、薬物-標的相互作用/結合親和性予測、分子特性予測、逆合成予測など、複数の主要タスクに対する定量テストを通じて、その予測能力が調査されます。 生物学研究者たちは、GPT-4 が複雑な生物学的言語を処理し、バイオインフォマティクスのタスクを実行し、さらには生物学的設計における科学的アシスタントとして機能する能力を実証することで、生物学の分野に貢献する大きな可能性を示していると考えています。 生物情報処理: GPT-4 は、MEME 形式、FASTQ 形式、VCF 形式など、生物分野の専門的なファイル情報処理を理解していることを示します。 さらに、提供された配列のシグナルペプチドの予測など、与えられたタスクとデータのバイオインフォマティクス分析にも優れています。 生物学的理解: GPT-4は、コンセンサス配列を含むさまざまな生物学的トピックについて幅広い理解を示しています。 PPI、 シグナル伝達経路と進化の概念。 生物学的推論: GPT-4 は、組み込まれた生物学的知識を使用して、生物学的観察からもっともらしいメカニズムを推論することができます。 生物学的支援: GPT-4 は、実験プロトコルを自動化の目的で変換することにより、タンパク質設計タスクの分野やウェットラボ実験における科学的アシスタントとしての可能性を実証しました。 GPT-4 自体は生物学研究に役立つ非常に強力なツールですが、いくつかの制限や時折のエラーが観察されています。 FASTA 配列の理解: GPT-4 の注目すべき課題は、FASTA 配列を直接処理することです。可能であれば、生体分子の名前とその配列を提供することをお勧めします。 一貫性のない結果: 生物学的エンティティに関連するタスクにおける GPT-4 のパフォーマンスは、エンティティに関連付けられた豊富な情報の影響を受けます。転写因子など、十分に研究されていない実体の分析では、一貫性のない結果が得られる可能性があります。 アラビア数字の理解: GPT-4 はアラビア数字を直接処理することが困難なため、アラビア数字をテキストに変換することをお勧めします。 定量的コンピューティング: GPT-4 は生物学的言語の理解と処理に優れていますが、定量的なタスクでは限界があります。信頼できる結論を得るには、代替の計算ツールを使用した手動検証または検証をお勧めします。 プロンプトの感度: GPT-4 の回答は一貫性がなく、質問の文言に大きく依存する可能性があるため、異なるプロンプトを試すなど、変動性を減らすためにさらなる改良が必要です。 要約すると、GPT-4 は、生物学的言語の理解と処理、組み込みの知識による推論、タスクの設計支援における能力を実証することで、生物学の分野を進歩させる大きな可能性を示しています。 いくつかの制限やバグはあるものの、適切なガイダンスと改善があれば、GPT-4 は進化する生物学研究分野の研究者にとって貴重なツールになる可能性があります。 計算化学次は化学試験です。計算化学は分子システムの研究に欠かせないツールであり、原子レベルの相互作用に関する洞察を提供し、実験作業を導きます。 このテストで、研究者は GPT-4 が次のような優れた機能を持っていることを観察しました。 文献レビュー機能: GPT-4 は、密度汎関数理論、ファインマン図と電子構造理論、分子動力学シミュレーション、分子コンフォメーション生成など、広範な計算化学の知識を備えています。 GPT-4 は基本的な概念を説明できるだけでなく、分野の主な調査結果や傾向を要約することもできます。 方法選択機能: GPT-4 は、システムのサイズ、時間スケール、理論レベルなどの要素を考慮して、特定の研究の質問に対して適切な計算方法とソフトウェア パッケージを推奨できます。 シミュレーション設定機能: GPT-4 は、単純な分子入力構造を準備し、特定の対称性、密度関数、時間ステップ、積分、温度と圧力の制御方法、初期構成などのシミュレーション パラメータを確立して提案するのに役立ちます。 コード開発機能: GPT-4 は、既存の計算化学および物理学ソフトウェア パッケージに新しいアルゴリズムや機能を実装するのに役立ちます。 さらに、GPT-4 は実験的、計算的、理論的なガイダンスを提供することで研究者を支援することもできます。 もちろん、研究者たちはいくつかの限界も観察しました。 まず、GPT-4 は複雑な論理的推論を実行するのが難しい可能性があります。 第二に、GPT-4 は複雑な分子や材料の生の原子座標を生成したり処理したりするのが得意ではありません。 最後に、GPT-4 は評価対象となるベンチマークでの正確な計算が得意ではなく、一般に対称性や不変性などの物理的な事前条件を無視します。 マテリアルデザイン材料設計試験では、研究者は背景知識、設計原理、候補の特定、候補構造の生成、性能予測、合成条件予測など、さまざまな側面を網羅する包括的な一連のタスクを設計しました。 設計プロセスの全範囲に対処することで、特に結晶性無機材料、有機ポリマー、およびより複雑な材料に関して、GPT-4 の材料設計能力を完全に評価できます。 テスト評価を通じて、GPT-4 はマテリアル デザインにおいて次の機能を備えていることがわかりました。 情報記憶: GPT-4 は、情報を記憶し、無機結晶やポリマーの設計原理を提案するのが得意です。特に、テキスト形式でのマテリアル デザインのルールの理解に優れています。例えば、固体電解質材料を設計する場合、イオン伝導性を向上させる方法を提案し、正確な例を提供することができます。 組成の作成: 以下に示すように、新しい無機材料の実現可能な化学組成を巧みに生成します。 左のグラフは、GPT-4 による合金化学物質の生成成功率を示しています。中央のグラフは、イオン化合物の化学位置を生成する成功率を示しています。右側のグラフは、特定のプロトタイプの化学組成を生成する成功率を示しています。 エラーバーは 5 つのクエリの標準偏差を表します。平均とテスト差の合計が 1 を超える可能性があるため、一部のエラー バーは 1 を超えます。たとえば、三元イオン化合物の元素の数を正しく答える課題では、成功率は 1.0、0.967、0.7、1.0、1.0、平均は 0.933、標準偏差は 0.117 でした。 合成計画: 以下の例のように、無機材料の合成計画において満足のいくパフォーマンスを実証しました。 GPT-4 の回答から、無機材料の合成経路を比較的正確に予測していることがわかります。合成手順は通常正しく、与えられた合成条件は実際の回答からそれほど離れていません。 コーディング支援: GPT-4 は、材料シミュレーションの実行、材料データの分析、視覚化の実行のためのコード アシスタントとして機能します。これは、GPT4 の既存のパッケージに関する知識に大きく依存します。 たとえば、多数の特性計算のための分子動力学や DFT 入力を生成したり、多くの計算パッケージを適切に活用して自動処理パイプラインを構築したりできます。ただし、生成されたコードを微調整するには、反復的なフィードバックと手動の調整が必要になる場合があります。 研究者たちは、コーディング支援に関連するいくつかのタスクを設計し、評価しました。 GPT-4 は材料科学の分野で強力な能力を発揮していますが、いくつかの制限もあります。 GPT-4 は、有機ポリマーと MOF を提案するタスクにおいて、理想的とは言えないパフォーマンスを示しました。 GPT-4 の構造生成機能は限られており、特に正確な原子座標を生成する場合には限界があります。たとえば、以下のテストでは、左側が GPT-4 によって生成された Si 構造で、右側が正しい構造です。 GPT-4 は属性予測において正確な定量的予測を提供できません。たとえば、ある物質が金属か半導体かを予測する場合、その精度は、次の表に示すように、ランダムに推測するよりもわずかに優れています。 最後に、追加のガイダンスがなければ、GPT-4 はトレーニング セットに存在しない有機ポリマーの合成ルートを提案することが困難になります。 偏微分方程式研究者らは、物理学、工学、生物学、金融などさまざまな分野で広範囲に応用されている偏微分方程式(PDE)を数学の試験に選択した。 偏微分方程式という言葉を見て目が輝き、あるいは心が沈むのを感じても、今回テストを受けるのは私たちとは全く関係のない GPT-4 です。 著者は GPT-4 のパフォーマンスを検証します。 まず、偏微分方程式の概念を検討します。 GPT-4 の回答は明確で説得力があり、学生のガイドとしても役立ちます。 一方、GPT-4 は概念間の関係を非常によく識別できるため、数学者が視野を広げ、異なるサブフィールド間のつながりを直感的に把握するのに役立ちます。 GPT-4 の解決策を見つける能力を調べる: GPT-4 は、さまざまなタイプと複雑さの偏微分方程式を解くために適切な解析的および数値的手法を推奨できます。 ——偏微分方程式で頭がいっぱいですね。大学院入試を受けようと思っているんですか? 口先だけではダメ。コードを見せてください。 GPT-4 のコーディング機能を見てみましょう。 GPT-4 は、偏微分方程式の数値解を求める MATLAB コードも簡単に記述しました。 ——それはすごいですね。 コードを少し調整すると、上記の結果が得られます。 最後に、GPT-4 はこの分野でさらにいくつかの研究方向を提案し、独自の意見を添えました。 もちろん、完璧な人間はいませんし、完璧な機械もありません。研究者らは、この試験で GPT-4 のいくつかの限界も発見しました。 GPT-4 は偏微分方程式を解いて明示的な解を提供するという点で人間のような能力を示していますが、導出が間違っている場合もあるため、検証する必要があります。 さらに、GPT-4 は存在しない参照を誤って引用することがあります。 将来に向けて上記の試験を通じて、自然科学のさまざまな分野における GPT-4 の機能と限界について学びました。これは、自然科学分野における GPT-4 の可能性を探る第一歩でもあります。 同時に、これらの制限に対処することで、GPT-4 などの LLM は、学際的な科学的発見のためのより強力で信頼性の高いツールになることができます。これにより、研究者は LLM の高度な機能と洞察の恩恵を受けることができ、創薬、材料科学、生物学、数学、その他の科学的探究分野における研究と革新のペースが加速します。 |
<<: LangChain、RStudio、Enough Python を使って人工知能を構築する方法
>>: コンピュータビジョンにおけるステレオビジョンと奥行き知覚の例
5年前(2019年1月)、Nature Machine Intelligenceが設立されました。...
デジタル変革は、現在の企業、特にハイテクの伝統的な製造業の主なテーマとなっています。人工知能、クラウ...
人工知能 (AI) 技術が職場に統合されることにより、仕事の性質が急速に変化し、人間と機械の関係が再...
ニューラル関係抽出のための構文的に敏感なエンティティ表現。関係抽出タスクの大規模な適用における大きな...
共通のデータ構造とアルゴリズム最も基本的なデータ構造とアルゴリズムは次のとおりです。ソートアルゴリズ...
[[439421]] [51CTO.com クイック翻訳]近年、人工知能(AI)は私たちの日常生活...
ブラウザに住むアーティストが開発した、ニューヨーク発のAIカメラアプリが人気を集めている。もしスティ...
[51CTO.com からのオリジナル記事] 2014 年頃から、マイクロサービス アーキテクチャの...
モノのインターネットは、私たちがテクノロジーや周囲の世界と関わる方法に革命をもたらしました。 データ...
丸一日待った後、ついに答えが明らかになりました!先ほど、2021年のチューリング賞が発表されました。...