MITは、Natureの表紙に掲載され、非コード領域のDNA変異を予測するディープラーニングフレームワークを設計した。

人間の細胞にはそれぞれ多数の遺伝子が含まれていますが、いわゆる「コーディング」DNA配列は、ヒトゲノム全体のわずか1%を占めるにすぎません。残りの99%は、タンパク質を構築するための指示を持たない「非コード」DNAで構成されています。

この非コード DNA (制御 DNA とも呼ばれる) の重要な機能は、遺伝子のオン/オフを切り替えて、生成されるタンパク質の量を制御することです。時間の経過とともに、細胞が成長して分裂するために DNA を複製するにつれて、これらの非コード領域はしばしば変異を獲得し、場合によっては機能が微調整され、遺伝子発現の制御方法が変わります。これらの変異のほとんどは軽微ですが、がんを含むいくつかの病気のリスクを高めることがあります。

研究者たちは、このような突然変異の影響をより深く理解するために、生物のゲノムを調べ、どの遺伝子が発現するかを予測し、その発現が生物の観察可能な特性にどのように影響するかを判断できる数学的マップの開発に取り組んできました。生物学では、これらの地図は「適応度地形」と呼ばれ、遺伝子構成が一般的な生物の適応度、特に生殖の成功にどのように影響するかを理解するために約 1 世紀前に概念化されました。

初期の適応度地形は非常に単純で、限られた数の突然変異にのみ焦点を当てていることがよくあります。より豊富なデータセットが利用可能になりましたが、研究者はこれらの複雑なデータを特徴付け、視覚化するために追加のツールを必要としています。この機能は、個々の遺伝子が時間の経過とともにどのように進化するかをより深く理解するのに役立つだけでなく、将来の配列や発現の変化を予測するのにも役立ちます。

最近、MIT とハーバード大学のブロード研究所やその他の研究機関の研究者らが、制御 DNA の適応度地形を研究するための新しい枠組みを開発しました。ネイチャー誌の最新号の表紙を飾ったこの研究では、何億もの実験測定に基づいて訓練されたニューラルネットワークモデルを使用して、酵母DNAの非コード配列の変化とそれが遺伝子発現に与える影響を予測した。

論文アドレス: https://www.nature.com/articles/s41586-022-04506-6

この研究では、適応度地形を2次元で表現する独自の方法も考案され、既存の実験結果を理解し、酵母以外の生物の非コード配列の将来の進化を予測するだけでなく、遺伝子治療や産業用途向けにカスタマイズされた遺伝子発現パターンを設計することも可能になった。

「科学者はこのモデルを使って進化に関する疑問に取り組んだり、遺伝子発現を望ましい方法で制御する配列を作成するなどのことを達成したりすることができる」と、MITの生物学教授でこの研究の主執筆者の一人であるアビブ・レゲフ氏は言う。

アヴィヴ・レゲフ

この研究以前は、多くの研究者が自然界で発生する既知の突然変異に基づいてモデルを単純にトレーニングしていました。しかし、レゲフ氏のチームはさらに一歩進みたいと考えていました。彼らは、これまで見たことのないようなあらゆる DNA 配列に基づいて生物の適応度と遺伝子発現を予測できる独自の偏りのないモデルを構築しました。研究者はこれらのモデルを使用して細胞を操作し、新薬を開発し、がんや自己免疫疾患などの病気の新しい治療法を見つけることができるようになります。

この目標を達成するために、MITの大学院生Eeshit Dhaval Vaishnav氏、コロンビア大学の助教授Carl de Boer氏（論文の共同筆頭著者）らは、遺伝子発現を予測するニューラルネットワークモデルを作成した。彼らは、何百万もの完全にランダムな非コード DNA 配列を酵母に挿入して生成されたデータセットでモデルをトレーニングし、各ランダム配列が遺伝子発現にどのように影響するかを観察しました。彼らは、非コード DNA 配列の特定のサブセット、つまりプロモーター、つまり近くの遺伝子をオンまたはオフにできるタンパク質の結合部位に焦点を当てました。

「この研究は、モデルを訓練するための適切なデータを生成するための新しい実験を設計すると何が可能になるかを示しています」とレゲブ氏は言う。「より広い意味では、これらのアプローチは、疾患リスクをもたらすヒトゲノムの調節領域における遺伝的変異の理解、変異の組み合わせの影響の予測、新しい分子の設計など、多くの問題にとって重要になると考えています。」

Regev、Vaishnav、de Boerとその共著者らは、さまざまな方法でモデルの予測力をテストし続けています。「正確なモデルを作成することは確かに成果ですが、私にとってはそれは単なる出発点にすぎません」とヴァイシュナフ氏は説明します。

まず、研究者らは、このモデルが抗生物質、酵素、食品の生産などの合成生物学の用途に役立つかどうかを判断するために、このモデルを使用して、対象となるあらゆる遺伝子に対して望ましい発現レベルを生み出すことができるプロモーターを設計しました。次に、彼らは他の科学論文を参考にして、進化に関する基本的な疑問を特定し、自分たちのモデルがそれらの疑問に答えられるかどうかを調べました。研究チームは、世界中の酵母菌株の遺伝情報を含む既存の研究から、現実世界の人口データセットにもアクセスしました。これらの方法を通じて、研究者たちは、酵母ゲノムを現在の形に形作ってきた過去数千年にわたる選択圧を明らかにすることができました。

しかし、すべてのゲノムを調査できる強力なツールを作成するには、研究者は、そのような包括的な集団データセットなしで非コード配列の進化を予測する方法を見つける必要がありました。これを実現するために、ヴァイシュナフ氏とその同僚は、フレームワークからの予測を 2 次元グラフにプロットできる計算方法を考案しました。これにより、研究室で時間のかかる実験をすることなく、非コード DNA 配列がどのように遺伝子発現と適応度に影響を与えるかを非常に簡単な方法で示すことができました。

「これまで、適応度ランドスケープの未解決の問題の 1 つは、シーケンスの進化特性を意味のある形で捉えて視覚化する方法がないことでした」と Vaishnav 氏は説明します。「私は、そのギャップを埋め、完全な適応度ランドスケープを作成するという長期的なビジョンに貢献する方法を見つけたいと思っていました。」

エディンバラ大学医学研究会議人類遺伝学ユニットの遺伝学教授マーティン・テイラー氏は、この研究は人工知能が調節DNAの変化の影響を予測できるだけでなく、何百万年にもわたる進化を支配してきた基本原理を明らかにすることもできることを示していると述べた。

彼は、このモデルが、いくつかの成長条件下での酵母調節 DNA の小さなサブセットのみでトレーニングされたにもかかわらず、哺乳類の遺伝子調節の進化について非常に有用な予測を行えることに感銘を受けました。

この研究は、生物学的 DNA 配列の設計に重要な影響を与えることから、大きな注目を集めています。研究が正式に発表される前から、ヴァイシュナフ氏は、このモデルを使用して遺伝子治療用の非コード DNA 配列を設計したいと考える研究者から問い合わせを受けていました。

この研究は最近、醸造、パン焼き、バイオテクノロジーにおける酵母の調節 DNA のカスタム設計など、いくつかの具体的な応用につながっています。

マーティン・テイラー氏はまた、「この研究は、現在臨床で発見するのが難しく、ほとんど無視されてきた人間の調節DNAの疾患変異を将来的に特定するのに役立つと期待されています。この研究は、より豊富で複雑で多様なデータセットでトレーニングされた遺伝子調節AIモデルに明るい未来があることを示しています。」とコメントしました。

<<: 2022年スタンフォードAIインデックス発表：中国がAIジャーナルの出版と引用で1位、TFオープンソースライブラリが最も人気

>>: 戦争におけるAI：ウクライナはロシア軍兵士を「調査」するために顔認識を使用しているが、これは単なる子供の遊びだ