MITは、音声チャットを通じて実験を行うことができる実験科学者向けの大規模モデルアシスタントを構築しました。

MITは、音声チャットを通じて実験を行うことができる実験科学者向けの大規模モデルアシスタントを構築しました。

現在、人工知能や自律実験は主にPythonなどの言語で書かれています。しかし、実験科学者全員がそのようなプログラミング言語を使いこなせるわけではなく、実際の実験への影響はまだ比較的限られています。

最近、OpenAIが公開したChatGPT API関数呼び出し機能をベースに、かつてはアイアンマン映画でしか見られなかったJarvisインテリジェントアシスタントを作成できるようになりました。

最近、MITのLi Ju教授のチームは、実験科学者向けにカスタマイズされた人工知能アシスタントCREST(Copilot for Real-world Experimental Scientist)を開発しました。バックエンドはChatGPTをコアとして直列に接続されており、次の機能を備えています:(1)現実世界のロボットアームを呼び出して自動実験を実行できます。(2)ローカルまたはオンラインの専門的な材料データベースを自律的に検索できます。(3)材料配合を最適化するためのアクティブラーニングアルゴリズムを提供します。

CREST フロントエンドには、音声入力、音声出力、AI 生成音声、複数のプラットフォーム間でのシームレスな切り替えが実装されています。 CREST を使用すると、研究者はコーディングの経験がなくても、自動実験プラットフォームを使用して、口頭での会話を通じて実験を行うことができます。

写真

論文アドレス: https://doi.org/10.26434/chemrxiv-2023-tnz1x

次に、CRESTの具体的な効果について見ていきましょう。すでに強調しましたが、CREST に話しかけることでミッションを開始できます。以下に、具体的なタスクのプロセスを簡単に紹介します。詳細については、ビデオをご覧ください。

まず、ミッションがもうすぐ始まることを CREst に伝えます。 CREST は、今日取り組みたいプロジェクトの名前を尋ねます。

どんなプロジェクトを抱えているか忘れてしまった場合でも、心配しないでください。いつでも CREST に相談できます。 CREST では、現在取り組んでいるプロジェクトの名前と簡単なプロジェクトの説明が明確に記載されます。

写真

プロジェクトのリストを報告した後、CREST は今回どのプロジェクトに取り組むかを尋ねます。ユーザーの応答を受け取った後、CREST は、次の一連の実験のレシピをどのように決定するか、手動選択を使用するか、アクティブ ラーニングを使用するかなど、実験の詳細についても質問します。

写真

この手順を完了すると、データベースに保存されているコンテンツの一部を突然知りたいと思うようになります。このとき、CREST にデータベースのコンテンツを読み取ってもらい、質問に答えてもらうことができます。

写真

抽出されたデータベースの内容に基づいて、実験の一部を変更したい場合は、CREST に伝えると、CREST が指示に従って変更します。次に、CREST はデバイスを確認するように通知します。

写真

CREST は、実験の開始時と終了時にメールを送信する必要があるかどうかも尋ね、上記の変更方法に従って実験を開始するかどうかを確認します。明確な返信を受け取った後、CREST は実験を開始します。この時点では、実験を常に監視する必要はありません。食事に行ったり、他のことをしたりして、残りは CREST に任せてください。

写真

実験中のサンプル準備はすべて CRESt 自身によって処理されました。

写真

実験後、CREST に実験ビデオを携帯電話に送信するよう依頼すると、実験ビデオのメールが届きます。

写真

CRESTから送られてきた実験ビデオ

プロジェクト紹介

CREST「オペレーティング システム」は、主にユーザー インターフェイス、ChatGPT バックエンド、アクティブ ラーニング、エンド エフェクタの 4 つの部分で構成されています。

ユーザー インターフェイスは、音声テキスト変換とテキスト音声変換のインタラクションをサポートする Github プロジェクトである chatgpt-voice に基づいています。便利なネットワーク フレームワークにより、ユーザーはラボを離れた後も電話でシームレスに会話を続けることができます。バックエンドは独立して実行されるため、フロントエンドが変更されても影響を受けません。

さらに、著者らは、リアルな人間の声をリアルタイムで生成する ElevenLabs AI 音声をフロントエンドに統合しました。フロントエンドから収集されたテキスト メッセージは、CallingGPT 上に構築されたChatGPT バックエンドに転送されます。 CallingGPT は、Google docstring スタイルで文書化された Python 関数を、ChatGPT API が認識できる JSON 形式に変換し、ChatGPT が必要と判断したときに呼び出せるようにする別の Github プロジェクトです。さらに、ChatGPT とローカル Python 関数ライブラリの間に閉じたフィードバック ループを形成します。ChatGPT によって呼び出されるように提案された関数はすぐにローカルで実行され、その戻り値が ChatGPT に送り返されます。

さらに、著者らは CREST にアクティブ ラーニングアルゴリズムも組み込みました。アクティブラーニングは、小規模なデータセットでも優れたパフォーマンスを発揮するため、実験科学に最も適した機械学習アルゴリズムの 1 つと考えられています。実際の物理世界での実験を伴う機械学習プロジェクトでは、データの取得が最大の課題となることがよくあります。仮想世界とは異なり、現実の物理世界におけるあらゆるデータ ポイントには、多大な時間と費用がかかります。一般的に言えば、1000 ポイントのデータセットはかなり良好です。このような状況では、設計空間を効率的にサンプリングする方法が重要になります。アクティブラーニングの主な機能は、ビデオで紹介されている合金レシピの推奨など、次の一連の実験でテストするパラメータの組み合わせをインタラクティブに提案することです。

CREST には、Meta チームによって開発された BoTorch ベースの Axe プラットフォームが組み込まれています。 Ax には優れた SQL ストレージ機能があり、GPT バックエンドがリセットされても、データベースに保存されているレコードを取得することで、以前のアクティブ ラーニングを続行できます。

エンドエフェクタは、HTTP リクエストを介して呼び出される一連のサブルーチンです。これらの中には、情報検索タスク(Materials Project のようなローカルまたはパブリック データベースのクエリ)が含まれるものもあれば、ビデオに示されているような(液体処理ロボット、レーザー カッター、ポンプ、ガス バルブ、ロボット アームなど)物理的な世界に実際の影響を与えるもの(主に実験を行うための自動化ハードウェア)もあります。これらのデバイスの自動化は主に、人間のマウスとキーボードの操作をシミュレートできる Python ライブラリである PyAutoGUI によって実現されます。 しかし、著者らは、近い将来、ほとんどの実験装置が人間とのインターフェースに加えて専用の AI 通信インターフェースを提供するようになるため、この冗長なステップは最終的には必要性が低くなると予想しています。

見通し

大規模言語モデルは科学や工学の分野に何をもたらすのでしょうか?これは、ChatGPT の登場以来、著者チームが考えてきた質問です。大規模言語モデルがドキュメントオーガナイザーとして並外れた可能性を示したことは間違いありません。必要なのは、事前トレーニングプロセス中に、より多くの全文ドキュメントを提供することだけです。他にどんな可能性があるでしょうか? CREST の形で開発した実験者アシスタントの役割に加えて、大規模言語モデルが少なくとも 3 つの次元で役割を果たすことを想定しています。

楽器テクニカルインストラクター。現在、研究者は、使用する技術の理論的根拠だけでなく、メーカーごとに異なる可能性のある個々の機器の具体的な操作(経験に基づく「スキル」、「職人技」に基づく場合もあります)を理解する必要があります。後者は、多くの場合、公共楽器のための一連のトレーニングコース、またはグループ内楽器の 200 ページのマニュアルの読解、および数百時間の実践的な演習など、膨大な時間コストを意味します。しかし、考えてみてください。これらの手順は本当に必要なのでしょうか?近い将来、研究者は自分のニーズを自然言語で明確に表現するだけでよくなり、大規模な言語モデルがこれらのニーズを最適なパラメータ設定に変換できるようになると予測しています (実際、一部の機器の専門家は現在、顧客のニーズを理解し、それを機器のパラメータ設定/操作に変換しています)。必要に応じて、大規模言語モデルは、ユーザーが詳細を理解できるように、取扱説明書の該当部分をユーザーに提供することもできます。技術的には、計測器メーカーは大規模な言語ベースモデルを適切に微調整し、社内の上級技術者の計測器操作経験を学習させるだけでよく、これは今日から実行可能です。

組立ライン診断士。マルチセンサーロボットやドローンと組み合わせると、ビッグ言語モデルは実験の再現性が低い根本原因を特定するのに役立ちます。将来的には、各サンプルのライフサイクル全体にわたってすべてのメタデータを記録するのが理想的な実験パラダイムになるでしょう。原因不明の現象が発生した場合、関連するすべてのログデータがマルチモーダル大規模言語モデルに入力され、分析されます。優れた仮説生成機能を使用することで、大規模言語モデルは、人間の専門家が最も可能性が高いと考える少数の仮説をさらに調査するための一連の潜在的な原因を提案できます。このアプローチは、産業用組立ラインにも適用できます。生産量/生産高の大幅な低下が認められた場合、大規模な言語モデルは組立ラインの履歴を比較することで「犯人」を特定できます。人間のエンジニアが介入する必要があるのは、複雑な実世界の操作が必要な場合のみです。それ以外の場合は、大規模な言語モデルが、問題が発生する可能性が最も高いサブリンクのパラメータを直接微調整できます。この役割を実現するための前提条件は、大規模言語モデルが大量の画像(動画)を処理できることであり、そのパフォーマンスはマルチモーダル情報(サンプルメタデータ、視覚情報、音声情報など)の整合度に依存します。

メカニズム推測者。大規模言語モデルは、確立された科学的原理を適用して新しい実験現象を説明するのに非常に優れていると期待されます。科学的メカニズムの探索段階における作業の大部分は、パターン マッチング作業 (たとえば、スペクトルから小さな特徴を抽出し、それを標準データベースと比較する) であり、これは大規模言語モデルの機能の範囲内です。近い将来、このワークフローは非常にシンプルでわかりやすくなります。大きな言語モデルに尋ねるだけで済みます。サンプルを準備してテストしました。その構成は xxx、処理技術とパラメーターは xxx、パフォーマンスは xxx です。ここにすべての特性評価結果(SEM、X 線回折など)を示します。このサンプルのパフォーマンスが優れている理由を 10 個詳しく教えてください。人間の研究者は、大規模な言語モデルによって生成された一連の物語から最も合理的な説明をフィルタリングし、これを基にしてメカニズムの説明全体を改善することができます。しかし、このタスクは、大規模言語モデルに想定されるすべての役割の中で最も困難であり、(i) 画像入力と科学用語との整合、(ii) 専門的な物理科学データベースから特定の情報を取得する機能、(iii) 科学雑誌のテキストと付録での大規模言語モデルの事前トレーニング、(iv) さまざまな最先端のサブフィールドからの機械学習モデルまたはシミュレーションモデルを呼び出す大規模言語モデルの機能が必要です。

要約する

CREST は科学者を支援するための大規模言語モデルの出発点に過ぎず、大規模言語モデルの真の可能性は仮説生成能力にあると私たちは考えています。人間の知識基盤は比較的限られていますが、優れた因果推論能力により、小さいながらも正確な仮説を導き出すことができます。対照的に、AI は幅広い知識ベースとビッグデータから統計情報を抽出する能力を備えているため、短時間で精度の低い仮説を大量に生成することができます。したがって、これは人工知能が人間と競争する物語ではなく、人工知能が人間の欠点を補う物語です。 「AIが提案し、人間が選択する」という協力モデルでは、双方がそれぞれの強みを最大限に発揮し、「才能を最大限に生かす」ことができる。

<<:  マスク氏がxAI設立を正式発表!清華大学の卒業生がGoogle + OpenAIチームに参加し、宇宙の究極の答えを解読

>>:  GPT-4が「愚か」になったと誰もが不満を言っていますが、これはアーキテクチャの再設計が原因かもしれません。

ブログ    
ブログ    

推薦する

李開復のLLaMAに基づく企業モデルだが、テンソル名が異なっており論争を巻き起こしたが、公式の回答が来た。

少し前に、オープンソースのビッグモデル分野に新しいモデル「易」が導入されました。このモデルはコンテキ...

データセットに適したクラスタリングアルゴリズムを選択する方法

クラスタリング アルゴリズムを適用するのは、最適なアルゴリズムを選択するよりもはるかに簡単です。 そ...

世界シミュレーターはAGIの最終成果、12の状況予測です!チーフエキスパートによる1万語の記事がソラのマイルストーンを専門的に解釈

私はここ数日、Sora の技術レポートと Sora のさまざまな技術分析を読んできました。基本的な視...

この式がブロックされると、AI IQはゼロになります

[[214770]]この記事はQuantum School(WeChat:quantumschool...

コンピュータビジョンが日常生活をどう改善するか

機械学習の力を活用して日常のさまざまなタスクを処理するテクノロジーである人工知能は、すでに私たちの仕...

LoraHubはレゴのように組み立てることができ、LoRAのモジュール特性を探索することができます。

低ランク適応 (LoRA) は、基本的な LLM が特定のタスクに効率的に適応できるようにする、一般...

AutoML 2.0: データ サイエンティストは時代遅れか?

AutoML はここ数年で急速に成長しました。そして、景気後退が避けられない状況となった今、人工知...

Excelを使用してPIDアルゴリズムを学習する

1. PIDの紹介モーター制御この方法ではフィードバックはありません。つまり、入力数値を完全に信じて...

...

投資管理と AI: 顧客関係と投資収益の向上

正直に言うと、顧客はおそらく、投資マネージャーが使用する高度な AI ツールを気にしていないでしょう...

自動運転のためのニューラルネットワークとディープラーニング

先進運転支援システム (ADAS) は、道路の安全性と旅行体験に対するドライバーと乗客のより高い要求...

ガイドはここにあります! GPT3.5を微調整して大規模モデルをカスタマイズしましょう!

著者 | 崔昊レビュー | Chonglou一般的なモデルは優れていますが、技術者は、独自の大規模な...

...

中国人がさらに7,360万ドルの資金調達を実施した!天才プログラマーが共同設立したLeCunの重鎮たちが全員サポート

Perplexity AIは本日、シリーズBの資金調達で7,360万ドルを調達し、評価額は5億2,0...

sklearnのトレーニング速度が100倍以上向上、米「Fanli.com」がsk-distフレームワークをオープンソース化

この記事では、Ibotta (「Rebate Network」の米国版) の機械学習およびデータ サ...