生物学分野における人工知能の応用は飛躍的に進歩しています。創薬、診断開発からヘルスケアまで、あらゆる分野で AI が活用されています。 AI の応用の可能性は非常に大きいため、AI と生物学の新しい応用がほぼ毎日のように登場し、信号とノイズを区別することがますます困難になっています。バイオメディカル分野の実践者やリーダー、あるいは関連する投資家や運営者であっても、誰もが共通の問題に直面しています。それは、新しい AI テクノロジーをどのように評価し、時間、エネルギー、お金を投資する価値があるかどうかということです。 これは非常に重要な問題です。この記事では、AI バイオテクノロジーを評価する方法、従うべき原則、よくある落とし穴について説明します。 1. 問題を解決するために AI は本当に必要ですか? AI は、主要な特性が明確に定義されておらず、人間にとって直感的に理解できない大量の非構造化データの処理を必要とする複雑なタスクに取り組んだり、分析を実行したりする能力において独特です。 特定の既知の変数の影響を受ける傾向のみを予測できるソフトウェアが必要な場合、AI は過剰 (または有害) になる可能性があります。代わりに、AI は、医療画像や構造化されていない健康記録などの複雑なデータをふるいにかけ、さまざまな相互作用する要因や不明な要因によって引き起こされる病気の診断に役立ちます。 データ自体も考慮する必要があります。 AI が効果的に機能できるように、トレーニングとテストに使用できる高品質でノイズのないデータが十分にありますか?データの生成と管理は、まず別々に行う必要がありますか? 質問とデータを入念にストレステストし、生物学的問題が AI に適していると確信したら、プラットフォームまたは製品自体を評価するときです。 第二に、それは本物の AI なのか、それともマーケティングの誇大宣伝なのか? 一方、自動化では、ルールベースのシステムを使用して結果を「予測」しますが、これらの予測は適応できません。自動化により反復的なタスクを完了することはできますが、それらのタスクから学習して新しいタスクを完了することはできません。 たとえば、AI を搭載していない医療用文字起こしソフトウェアは、従来の心血管系の用語はよく理解できるかもしれませんが、新しい腫瘍学研究の概念やこれまで未開拓だったオントロジーに遭遇すると、適応して学習することができません。 AI を使用していると主張しているが、実際には人間の選択の統計分析に基づいた基本的なデータ分析を行っているだけの企業には注意してください。これは、医師が選択した特徴(病気の重症度、年齢など)を使用した回帰分析に基づいて入院期間を推定するモデルのようです。これはAIではありません。 真の AI を識別するには、プラットフォームがどのようにトレーニングされているかを詳しく調べることが重要です。機能は自律的に学習されるのか、それともすべて予測または事前に選択されるのか?実際に試行錯誤で調整できるのでしょうか、それとも特定のパラメータによって制約されるのでしょうか?精度と予測力は時間の経過とともに自動的に向上しますか?それとも安定傾向にあるのでしょうか?独自に大量のデータを作成しますか? データの消費は AI の注目すべき側面であり、これを使用してモデルを反復的に改善することができます。要約すると、偽の AI システムは面倒な入力と人間の監視に大きく依存しているため、適応することができません。真の AI システムには、学習し、独自に特徴を認識し、時間の経過とともに改善する能力があります。本物の AI を使用することを決定したら、AI がどのように機能し、競合他社と比べてどう優れているかを詳しく調べることができます。 3. このモデルは本当に差別化を実現できるのでしょうか? 核となる疑問は、AI が本当にこの分野で前例のないことを達成するのか、まったく新しいユースケースとして出現するのか、あるいは速度、効率、コストなどで桁違いの改善を達成するのか、ということです。ここでのロジックは、AI かどうかに関係なく、すべての新製品に当てはまります。 差別化を考えるとき、それはすべて、第三者がその技術をコピーしたり改良したりすることがいかに難しいか(堀があるか)に帰着します。データセットの起源、さらには AI アルゴリズム自体を理解することが重要です。高品質のオープンソース AI パッケージとデータセットの民主化の驚くべき点の 1 つは、それらがすぐに利用できることです。今では、コンピュータサイエンスの初級者でも、簡単な機械学習分類器を組み立てることができます。 これは幅広い分野にとって驚くべき進歩ですが、特定のプラットフォームが既成のツールを使用して複製できるかどうか、または何らかの根本的な進歩が働いているかどうかも見極める必要があります。 4. 効果はありますか?どうして知っていますか? たとえば、分類の問題(組織サンプルが癌であるかどうかを分類するなど)に取り組んでいる場合、目標は精度を最大化することです。 AUC 値、感度、特異度などを知ることは非常に重要です。薬物の分子特性の値や患者治療の理想的な投与量を予測するなど、複雑な回帰問題に取り組んでいる場合は、誤差を減らすよう努める必要があり、R² や RMSE などの指標が重要になります。 しかし、現実の世界では、精度を最大化したりエラーを最小化したりするだけでは成功を保証することはできません。効用の臨界値を知る必要があります。予測モデリングは、手元のアプリケーションに相対的かつ固有のものであるため、通常、最大限の精度は実現可能ではありません (また、必要でもありません)。これらはすべてコンテキストと、問題に適用可能な AI 駆動型アルゴリズムの現在のベースラインに基づいています。表面的には、0.71 R² は印象的ではないかもしれませんが、特定のアプリケーションを優先しない限り、驚くべき結果になる可能性があります。たとえば、臨床試験の結果を予測する場合、予測パフォーマンスがわずかに向上するだけの不完全なシステム(おそらく、1 年に 1 つの追加手順の優先順位を下げることができる程度)であっても、組織は数十億ドルを節約できる可能性があります。 パフォーマンスを理解したら、よりシンプルなアプローチでのパフォーマンスと比較することも重要です。複雑なディープラーニング アルゴリズムをより単純なランダム フォレストまたはロジスティック回帰に置き換えて、パフォーマンスがどのように変化するかを確認すると、モデルのスキルの限界を発見する機会が得られます。 AI がバイオテクノロジー分野で進歩するにつれ、ベンチマークがまだ確立されていない新しいアプリケーションが登場する可能性があります。このような場合、最も重要なのは、標準的な方法と比較して、AI が特定のタスクの精度、速度、または正確さをどのように向上できるかを理解することです。 (こうした未知の状況は困難に思えるかもしれませんが、こうした新しい分野でのチャンスは、最も刺激的なものとなることが多いのです!) 5つは...良すぎるでしょうか? 「なぜこんなことが可能なのか?」と疑問に思う人もいるかもしれません。特に、何ヶ月にもわたるトレーニングと検証、そして最先端の AI ツールを使用した後にはそう思えるでしょう。考えられる説明の 1 つは、答えがすでにトレーニング データセットに隠されている可能性があるため、本質的にプロセスが最初から壊れているということです。簡単に言えば、テスト セットからの回答が誤ってトレーニング データセットに漏れてしまったのです。技術的に言えば、データの準備と相互検証のプロセスによってデータ漏洩が発生する可能性があります。 典型的な例としては、組織画像から一見正確そうな AI 駆動型腫瘍検出器を開発したが、そのシステムを別の病院の腫瘍画像に使用すると完全に失敗するというケースがあります。科学者たちは、データを振り返ってみると、腫瘍のある画像のすべてに、腫瘍の大きさを測る白い定規が描かれていることに気づきました。スケールは、モデルを十分に訓練されたスケール検出器にするために、トレーニング セットに隠された欺瞞アイテムです。ここでの重要なメッセージは、データを「ホワイト スケール」からクリーンアップすることに注意を払うことです。統計情報だけでは十分ではありません。 場合によっては、AI モデルの落とし穴が非常に微妙なため、特定の機能を正確に特定することが不可能な場合があります。これらは、R2 の 0.6 と 0.78 の違いのように、それほど明白ではなかったり、バイナリではなかったりするため、見つけるのが困難です。 AI アルゴリズムでよく問題となる例の 1 つは、時系列データの問題です。 たとえば、臨床試験における薬剤の成功確率 (PoS) を予測することに特化した AI 駆動型プラットフォームを考えてみましょう。一見すると、利用可能なすべての臨床試験情報を使用するのが自然に思えます。テストを行うと、モデルが 2007 年の主要な試験の結果を自信を持って予測したときに、(誤って) 感心することになります。 ここでの間違いは、AI モデルにすでに未来からの手がかりが組み込まれているため、問題がより予測可能になっていることです。データはクリーンアップされ、重複は削除され、隠れた手がかりはありませんが、2020 年時点の臨床試験データセットは、新しい生物学的および臨床的知識 (新しい投与レジメン、新しいモダリティとの相互作用、より洗練された患者サブグループでの臨床試験など) を通じて「不正要因」を吸収しており、そのようなモデルは 2007 年には存在しなかったため、将来の試験に一般化することはできません。時系列でデータ漏洩が発生する場合、モデルが将来を覗き見ることができないように注意する必要があります。 最終的に、優れたモデル (つまり優れた製品) は、トレーニング データが分析される予想される現実世界のデータを正確に表現し、一般化することを保証します。 6. 検証のゴールドスタンダードとして前向き試験が実施されましたか? 特定のテクノロジーについて最終決定を下す場合、前向き試験などの適切に設計されたランダム化臨床試験以上に AI プラットフォームを真に検証できるものはありません。これはテストの聖杯、つまり現実のプレビューです。ただし、これは時間、リソース、新しいテクノロジーのコストの観点から現実的ではない可能性があるため、次のテストは何らかの形式の遡及的盲検テストにするのが最適です。従来のベンチマーク データセットを使用すると、競合するさまざまな手法のパフォーマンスを直接比較することができます。 要約すると、AI がバイオテクノロジーのあらゆる分野に浸透し続けるにつれて、これらの指針は実践者とビジネス パートナーの両方にとって重要になると考えています。しかし、これらの複雑なモデル、そしてその複雑な生物学への応用を真に理解するには、独特のスキルセットが必要です。企業は AI の専門家と他の分野の専門家を組み合わせる必要があると考えます。この相乗的な組み合わせによってのみ、生物学分野における人工知能の巨大な可能性を十分に実現することができます。しかし、好奇心や懐疑心を持って「傍観者」として見守ってきた人々にとって、このフレームワークは、特定の AI 製品が時間と資本を費やす価値があるかどうかを評価し始める出発点となり得ます。 例: 1. 曲線下面積 (AUC) は、分類問題のパフォーマンス指標であり、分離可能性の程度または尺度を示します。モデルが異なるクラスをどれだけうまく区別できるかを示します。 AUC が高いほど、モデルの予測能力が強くなります。理論上の最大値は 1 です。 AUC が 0.5 の場合、モデルには分類能力がまったくないことを意味します。 2. R² または r² は、データ ポイントがモデルにどの程度一致するかを示す指標です。 R² の理想的な値は 1 です。 R² 値が 1 に近いほど、モデルがデータに適合していることを示します。 3. RSME: 二乗平均平方根誤差 (RMSE) は、定量的データを予測する際のモデル誤差の尺度です。 RMSE が小さいほど良いです。 4. クロスバリデーションは主に、目に見えないデータに基づいてモデルを推定するために人工知能によって適用される手法です。まず、利用可能なデータセットは、トレーニング データ、検証データ、テスト データの 3 つのサブセットに分割されます。モデルはトレーニング セットを使用してトレーニングされ、精度などの特定のメトリックで最高のスコアを持つモデルを取得することが目標となります。最後に、テスト データセットを通じてモデルのパフォーマンスを判断することで、モデルの成功が測定されます。 参考リンク: https://a16z.com/2021/01/08/evaluating-ai-bio/ |
>>: AI兵器の時代:イランの科学者は本当にAI兵器によって暗殺されたのか?
11月15日、WeChat車載バージョンを搭載したGACの第2世代Trumpchi GS4が発売され...
[[417184]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
[[218293]]はじめに:この記事では主に、アリババのリアルタイムビッグデータと関連する機械学...
今はお金を稼ぐのが難しく、ビジネスも簡単ではないと言う人もいますが、今こそ最高の時代だと言う人もいま...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
1分で新しいGPTが誕生!わずか1週間で、さまざまなカスタマイズされたGPTが世界中で爆発的に増加し...
ChatGPT は一晩で静かにアップデートされ、数多くの起業家プロジェクトが始動しようとしています。...
マスク氏は突如行動を起こし、OpenAI開発者会議の前に大型モデルGrokをリリースした。他の Ch...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
AIの創造性の限界は何でしょうか?最近、ネットユーザーは、GPT-4 に適切なタイミングで PUA ...
こんにちは、みんな。短い動画を見ているときに、こんな動画を見たことはありませんか?動画の中で、人物の...