新型コロナウイルスはどのように変異するのでしょうか?機械学習が答えを教えてくれる

新型コロナウイルスはどのように変異するのでしょうか?機械学習が答えを教えてくれる

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

ウイルスは他の微生物と同様に、地球上で生き残るために進化と変異を続けています。これは人類にとって少し怖いことであり、特に新型コロナウイルスが世界中で猛威を振るっている今日この頃だ。人間は他に何をしたいのだろうか?

[[322699]]

実際のところ、突然変異はすでに起こっています。まず、人間のウイルスから進化したコウモリウイルスのRNAヌクレオチド配列を見てみましょう。

AAAATCAAAGCTTGTGTTGAAGAAGTTACAACAACTCTGGAAGAAAACTAAGTT

そして新たなコロナウイルスのRNAヌクレオチド配列:

AAAATTAAGGCTTGCATTGATGAGGTTACCACAACACTGGAAGAAAACTAAGTT

明らかに、新型コロナウイルスの元々の構造は、新たな宿主に適応するために変化した。正確に言うと、元の構造の20%が変異していますが、ほとんどの構造は変化していないため、ウイルスは変異していません。

研究者らは、新型コロナウイルスが生き残るために何度も変異していることを発見した。新型コロナウイルスとの戦いでは、ウイルスを排除する方法を知るだけでなく、ウイルスがどのように変異し、どのように対処するかを理解する必要があります。この記事では、K-Means と PCA を使用してこれを調査してみます。

ゲノム配列とは何ですか?

RNA ヌクレオチド配列に精通している場合は、この部分をスキップできます。

ゲノム配列解析は「デコード」とも呼ばれ、サンプルの DNA を分析する上で重要なステップです。一般的に、正常な細胞には DNA 構造を運ぶ 23 対の染色体があります。

DNA は二重らせん構造で、ほどけると梯子の形になります。梯子は対になって現れる塩基で構成されています。 DNAにはアデニン、チミン、グアニン、シトシンの4つの塩基があります。アデニンはチミンとのみ対になり、グアニンはシトシンとのみ対になります。これら 4 つの塩基はそれぞれ A、T、G、C で表されます。

これらの塩基対の配置と組み合わせによって、生物のタンパク質の特定の構造が決定されます。つまり、本質的にウイルスの働きを決定するのは DNA です。

シーケンシング機器や特殊なラベリング方法などの特殊な機器を使用することで、特定の断片の DNA 配列の謎を解明することができます。得られた情報はさらに分析および比較することができ、研究者は遺伝的変化、疾患と表現型の関連性を特定し、薬剤のターゲットを決定するのに役立ちます。

ゲノム配列は、A、T、G、C の長い鎖であり、生物の自然環境に対する特定の表現です。生物の突然変異は DNA を変化させることによって起こります。ゲノム配列を研究することは、ウイルスの変異を分析する効果的な方法です。

データの理解

以下のデータは Kaggle で見つかります:

データの各行はコウモリウイルスの変異を表しています。新型コロナウイルスはわずか数週間で262回も変異し、生存率が向上した。

重要なデータ:

  • クエリ acc.ver は、元のウイルスの識別子を示します。
  • 不一致は、変異したウイルスと元のウイルスの間の異なる項目の数を示します。
  • subject acc.ver は変異したウイルスの識別子です。
  • % 同一性は、元のウイルスと変異ウイルス間の類似性の度合いを示します。
  • アライメントの長さは、シーケンス内の同一または類似の数字の特定の数を示します。
  • ビットスコアは類似度を表します。スコアが高いほど類似度が高くなります。

次の図は、いくつかのデータの各列の統計値を示しています(このデータは、Python の data.describe() を使用して簡単に取得できます)。

% 同一性列のデータを観察すると、各変異の最小アライメント値が約 77.6% であるという興味深い現象がわかります。 7% の標準偏差はこのデータ セットでは非常に大きく、このような大きな標準偏差は変動の範囲が広いことを意味します。ビット スコアの値を見ると、標準偏差がすでに非常に大きく、平均よりもさらに大きいことがわかります。

相関ヒートマップはデータを視覚化するのに最適な方法です。各セルには、さまざまな機能間の関連性が表示されます。

ほとんどの値の変化は互いに影響を及ぼし合うため、多くのデータは互いに高い相関関係にあります。ここで特に注意する必要があるのは、アライメントの長さとビット スコアの間に高い相関関係があることです。

K-Means法を使用してバリアントクラスターを作成する

K-Means は、機械学習で使用されるクラスタリング アルゴリズムであり、将来の空間でデータ ポイントのグループを検出できます。 K-Means の目的は、ウイルスの性質を研究し治療するための基礎を提供するために、変異のクラスターを発見することです。

ただし、クラスターの数 k を選択する必要があります。これは 2 次元でポイントをプロットするのと同じくらい簡単ですが、高次元では不可能です (ほとんどの情報を保持したい場合)。エルボー法を使用して k を選択するのは主観的すぎて不正確なので、シルエット法を使用します。

シルエット法は、k 個のクラスターのスコアであり、クラスターがデータにどの程度適合しているかを示します。 Python の sklearn ライブラリを使用すると、K-Means 法と silouhette 法が非常に簡単に使用できるようになります。

データには 5 つのクラスターが最適であるようです。これで、クラスターの中心を特定できます。これらは各クラスターが囲むポイントであり、(この場合は)5 つの主要な突然変異タイプの数値評価を表します。

注: 特徴はすべて同じスケールになるように標準化されています。そうしないと、列を比較できなくなります。

このヒートマップの各列は、各クラスターのプロパティを表します。ポイントはスケール化されているため、実際の注釈値は定量的に意味を持ちません。

ただし、各列内のスケールされた値を比較することは可能です。各バリアント クラスターの相対的な特性を直感的に感じることができます。科学者がワクチンを開発しようとするなら、ウイルスの主要なグループに取り組む必要がある。

次のステップは、PCA を使用してクラスターを視覚化することです。

PCA を使用したクラスターの視覚化

PCA は、多次元空間内の直交ベクトルを選択して軸を表す次元削減手法であり、これによりほとんどの情報 (分散) が保持されます。

人気の Python ライブラリ sklearn を使用すると、2 行のコードで PCA を実装できます。まず、説明分散比を調べることができます。これは、元のデータセットから保持される統計の割合です。この場合、説明分散比は 0.9838548580740327 となり、これは天文学的な数字です。

PCA から得られる分析はすべて実際のデータに基づいていると確信できます。

それぞれの新しい特徴 (主成分) は、他のいくつかの列の線形結合です。ヒートマップを使用すると、列が 2 つの主成分のどちらにとっても重要であるかを視覚的に確認できます。

最初のコンポーネントの高値が何を意味するかを理解することが重要です。この場合、それらはより長いアラインメント長を特徴としており、つまり元のウイルスに近いことを意味します。一方、コンポーネント 2 は主により短いアラインメント長を特徴としており、つまり変異後の元の値からより離れていることを意味し、これはビット スコアのより大きな差にも反映されています。

ウイルスの変異には主に 5 つの系統があることは明らかです。そこから多くの情報を得ることができます。

ウイルスの変異のうち 4 つは最初の主成分の左側に位置し、1 つは右側に位置します。最初の主成分は、アライメントの長さが長いことが特徴です。これは、第 1 主成分の値が高いほど、アライメントの長さが長くなる(元のウイルスに近い)ことを示しています。

したがって、コンポーネント 1 の値が低いほど、元のウイルスとは遺伝的に異なることになります。ウイルスクラスターのほとんどは元のウイルスとは大きく異なっていました。したがって、ワクチンを開発しようとしている科学者は、ウイルスが大規模に変異することを認識しておく必要があります。

K-MeansとPCAを使用することで、COVID-19変異体の5つの主要なクラスターを特定することができ、ワクチンを開発する科学者はこれらのクラスターの中心で得られる各クラスターの特性を利用できます。 PCA を使用すると、これらのクラスター中心を 2 次元で視覚化し、コロナウイルスの変異率が非常に高いことがわかります。

これが、新型コロナウイルスがこれほど致命的である理由なのかもしれない。

<<:  産業用拡張現実(AR)は、機器のメンテナンス、現場サービス、従業員のトレーニングを容易にします。

>>:  職場におけるAIと自動化の重要性

ブログ    
ブログ    
ブログ    

推薦する

モデルを最適化する方法だけを心配する必要はありません。これは機械学習のすべてではありません。

[[263282]]機械学習分野の学生、研究者、企業の開発者は、より高い精度/AUC/mAP など...

Google のコード生成システムはプログラマーの半分を「飲み込んだ」のでしょうか?人類は長い間AIに「負けて」きました!

著者: 徐潔成最近、センセーショナルなAlphaGo囲碁ロボットを発売したDeepMindが再び大き...

人力資源社会保障省は、人工知能トレーナーを含む16の新しい職業を最終候補者に発表する予定である。

Chinanews.com 1月2日(李金磊)人力資源・社会保障部の承認を得て、中国就業訓練技術指...

小型モデルの意見も参考になります! GPT-4+AutoGPTオンライン意思決定:物を買うときにもう心配はいりません

この論文では、現実世界の意思決定タスクにおける Auto-GPT エージェントの包括的なベンチマーク...

機械学習の発展の歴史と啓蒙

[[188091]]近年、人工知能の目覚ましい発展、特にAlphaGoと韓国のチェスプレイヤー、イ・...

上位 10 の古典的なソートアルゴリズムを理解するのに役立つ 20 枚の写真

[[433768]]ソートアルゴリズムのトップ10のアイデアのまとめ手書きのソートアルゴリズムは面接...

米連邦取引委員会は、ChatGPTによるデータ漏洩と回答の捏造を含むOpenAIに対する徹底的な調査を開始した。

ワシントンポスト紙によると、7月13日、米国連邦取引委員会(FTC)はサンフランシスコに拠点を置くO...

人工知能は進歩しすぎているのでしょうか?この記事を読めば、誰もが人工知能の歴史を理解できる

人工知能は常に人々に非常に高級感を与えます。人々に役立つものの意味と価値を理解する必要があります。 ...

...

生成 AI 規制: 「ディープフェイク技術」は大規模言語モデルの自由意志を実証するか?

特定のスタイルの生成 AI プロンプトを与えるということは、AI に想像力を働かせてほしいということ...

動物の顔認識技術は何に使われますか?

動物を正確に識別できる技術は、迷子になった動物を飼い主と再会させたり、農家が家畜を監視したり、研究者...

この相手は普通じゃない。ドローンアプリは「アングリーバード」に注意が必要

関連データによると、2020年現在、わが国の民間ドローンの規模は約350億元に達しており、同時に、ド...

VB.NET コーディングアルゴリズム学習ノート

この記事では、VB.NET コーディング アルゴリズムを紹介します。おそらく、まだ多くの人が VB....

ハッカーの天敵! AI はサイバー攻撃の防御にどのように役立つのでしょうか?

最近、ハッカーがサイバー攻撃を仕掛けてデータ漏洩を引き起こしているというニュースをよく耳にすると思い...