AIがあなたが何歳で死ぬかを予測?トランスフォーマーの「占い」がネイチャーのサブジャーナルに掲載され、事故死の予測に成功

AIがあなたが何歳で死ぬかを予測?トランスフォーマーの「占い」がネイチャーのサブジャーナルに掲載され、事故死の予測に成功

AIは本当に科学的に占いができるんですね! ?

デンマーク工科大学(DTU)の研究者らは、各人の死亡のおおよその時期を含め、人々の人生における主要な出来事や結果を予測できるAIモデルを設計したと主張している。この記事は2日前にネイチャーの関連誌「Computational Science」に掲載された。

写真

「私たちはこのモデルを使って、過去の状況や出来事に基づいて将来の出来事をどの程度予測できるかという根本的な疑問に答えました」と著者のスネ・レーマン氏は述べた。

著者の研究目的は、AI を使って人々の占いを支援することに他ならないようです。

研究者たちは、人々の人生の軌跡を、自然言語と構造的に類似した表現方法である、人生の出来事の時系列的な順序として特徴づけた。

Transformer モデルの表現学習機能を活用することで、ライフイベントの意味空間を学習し、個々のライフシーケンスのコンパクトなベクトル表現を生成できます。

研究者らは、デンマークの約600万人の健康と労働に関するデータを活用し、「life2vec」と呼ばれるTransformerベースのモデルを構築した。

このモデルの入力データには、個人の出生時間、出生地、教育、健康状態、職業、給与が含まれ、出力データには「事故死」や「微妙な性格の違い」など、個人の生活に密接に関連する内容が含まれる。

写真

研究チームは、人生のシーケンスに基づいて個人の人生の出来事を予測し、そのモデルは他の現在の方法よりも大幅に優れたパフォーマンスを発揮しました。

写真

他の方法と比較して、life2vecモデルは性格の微妙な違いをより正確に予測する。

研究者らはさらに論文の中で、モデルの概念空間と個人の表現空間はどちらも意味があり解釈可能であり、新しい仮説を生み出すために使用でき、個別介入の可能性をもたらすと指摘した。

人の人生は予測できるかもしれない

人類が現在経験している「人間予測の時代」の根本的な理由は、膨大なデータセットと強力な機械学習アルゴリズムの出現です。

過去 10 年間、機械学習は、ますます大規模なデータセットにアクセスすることでますます複雑なモデルを可能にすることで、画像およびテキスト処理の分野に革命をもたらしました。

言語処理は特に急速に進歩しており、Transformer アーキテクチャは、大規模で構造化されていない単語のシーケンス内の複雑なパターンを正常にキャプチャできることが実証されています。

これらのモデルは自然言語処理に起源を持ちますが、人間の言語の構造を捉える能力は、言語と同様の特性を持つ他のシーケンスにも一般化されます。

しかし、大規模データが不足しているため、Transformer モデルは業界外のマルチモーダル社会経済データにはまだ適用されていません。

研究者のデータセットはそれを変えました。データセットの膨大な量により、研究チームは個人の人生の軌跡をシーケンスレベルで表現し、各人が時間の経過とともにどのように動いたかを詳細に記述することができました。

研究者は、さまざまな種類のイベント(心臓発作に関する情報と昇給や都市から田舎への引っ越しに関する情報の組み合わせ)のコンテキストで個人の生活がどのように変化するかを観察できます。

各シーケンス内の時間解像度とシーケンスの総数は十分に大きいため、研究者はトランスフォーマーベースのモデルを意味のある形で適用して、人生の出来事の結果を予測することができます。

これは、表現学習をまったく新しい領域に適用して、人間の生活の進化と予測可能性に関する新たな理解を深めることができることを意味します。

具体的には、研究者たちは BERT のようなアーキテクチャを採用し、人間の生活における 2 つの非常に異なる側面、つまり死亡時期と性格のニュアンスを予測しました。

研究者らは、研究者のモデルがこれらの結果を正確に予測でき、早期死亡の場合には現在の最先端の方法よりも約 11% 優れていることを発見しました。

こうした正確な予測を行うために、研究者のモデルは、人生におけるすべての出来事の単一の共通埋め込み空間、つまり軌道に依存しています。

写真

言語モデルにおける埋め込み空間の研究が人間の言語に対する新たな理解をもたらすのと同様に、研究者は埋め込み空間の概念を研究することで人生の出来事間の重要な相互作用を明らかにすることができます。

以下では、研究者らが、結果として得られたライフイベントの概念空間についての洞察を提供し、その空間とモデル自体の堅牢性と解釈可能性を実証します。

トランスフォーマーベースのモデルは、個体の埋め込みも生成します (言語表現における類似点は、テキスト全体を要約するベクトルです)。研究者らは、顕著性マップや概念活性化ベクトル (TCAV) などの解釈可能性ツールを使用して、個々の要約も意味があり、医療画像の分析を強化するなど、他の個人レベルの予測タスクを改善できる行動表現型として機能する可能性があることを示しています。

モデル予測結果

研究者たちは豊富なデータを単純な記号言語でエンコードしました。

複雑なマルチソースの時系列データの生データ ストリームは、不規則なサンプリング レート、データのスパース性、機能間の複雑な相互作用、多数の次元など、方法論上の大きな課題をもたらします。

時系列解析の古典的な手法(サポートベクターマシン、ARIMAなど)[42, 43]は、スケーラブルで柔軟性に欠け、有用な特徴を抽出するために大規模なデータ前処理を必要とするため、扱いにくくなっています。

変換アプローチを使用することで、研究者は手作業で作成された特徴を避け、代わりに言語との類似性を活用する方法でデータをエンコードすることができました。具体的には、研究者の例では、離散的特徴と離散的連続的特徴の各クラスが語彙を形成します。

この語彙と時間的コーディングにより、研究者は各ライフイベント(その詳細な修飾情報を含む)を複合語または概念記号で構成された文として表現することができます。

研究者たちは各イベントに2つの時間インジケーターを取り付けました。 1 つはイベント発生時の個人の年齢を指定し、もう 1 つは絶対時間を取得します (下の図を参照)。

したがって、研究者の合成音声は、「フランシスコは2020年9月にエルシノアの城で警備員として働いていたときに2万デンマーククローネを受け取った」のような情報を取得することができました。

または「寄宿学校の 3 年目に、ハーマイオニーは 5 つの選択科目を受講しました。」この意味で、人の人生の過程は、そのような文章の列として表現され、それらが合わさってその人の人生のシーケンスを構成します。

研究者の方法により、研究者は元のデータの内容と構造を犠牲にすることなく、個人の生活における出来事に関する幅広い詳細な情報をエンコードすることができました。

life2vec モデル

研究者たちはトランスフォーマーモデルを使用して、個々の生命をコンパクトに表現しました。研究者たちはこのディープラーニングモデルをlife2vecと名付けた。

Life2vec モデルはトランスフォーマー アーキテクチャに基づいています。 Transformer は、コンテキスト情報を圧縮し、時間情報と位置情報を考慮する機能を備えているため、ライフ シーケンスを表現するのに適しています。

Life2vec のトレーニングは 2 つの段階に分かれています。まず、研究者らは

(1)トークン表現と文脈情報の両方を使用するようにモデルに強制するマスク言語モデル(MLM)タスク。

(2)シーケンスの時間的一貫性に焦点を当てたシーケンス順序予測(SOP)タスク(モデルをトレーニングするため。事前トレーニングにより概念空間が作成され、シーケンスの構造のパターンを認識するようにモデルに学習させます。

次に、個人の人生の流れを簡潔に表現するために、モデルは分類タスクを実行しました。この最終ステップでモデルが学習する個々の要約は分類タスクに依存し、特定の下流タスクの確実性を最大化するパターンを識別して圧縮します。

たとえば、研究者がモデルに人物の性格のニュアンスを予測するように依頼すると、人物埋め込み空間は性格に寄与する主要な次元を中心に構築されます。

分野を超えた正確な予測

あらゆるモデルの最初のテストは、その予測パフォーマンスです。 Life2vec は既存の SOTA を上回るだけでなく、非常に異なる分野で分類予測を実行することもできます。研究者たちは、2つの異なるタスクでフレームワークをテストしました。

早期死亡率の予測

研究者らは、2016年1月1日から4年後に人が生きている可能性を推定した。これは統計モデリングにおける一般的なタスクです。さらに、死亡率の予測は他の健康予測タスクと密接に関連しているため、正しい結果を予測するには、life2vec で個人の健康シーケンスの発達と労働履歴をモデル化する必要があります。

具体的には、シーケンス表現が与えられると、life2vec は、研究者のシーケンスの終了 (2016 年 1 月 1 日) から 4 年後まで人が生きている可能性を推測します。

研究者らは、死亡率の予測がより難しい30歳から55歳までの若いグループを対象に予測を行うことに重点を置いた。

研究者らは、ラベル付けされていないサンプルの存在に応じて MCC 値を調整する修正マシューズ相関係数 C-MCC61 を使用したモデルのパフォーマンスを実証しました。

Life2vec はベースラインを 11% 上回ります。 RNN モデルのサイズを大きくしてもパフォーマンスは向上しないことに注意してください。

下の図 2.D では、年齢と性別に基づくクロスグループと、シーケンスの長さに基づくグループなど、さまざまなサブグループのパフォーマンスも内訳を示しています。

写真

性格のニュアンスを予測する

予測因子としての死は明確に定義されており、非常に測定可能です。

life2vec の汎用性をテストするために、研究者たちは現在、「性格のニュアンス」を予測しています。これは、測定スペクトルの反対側の結果であり、個人の内部にあり、通常はアンケートを通じて測定できるものです。

測定は難しいものの、性格は人の思考、感情、行動を形成し、人生の結果を予測する重要な特性です。具体的には、研究者らは、内向性-外向性の次元(簡潔にするため、以下では外向性)の領域における性格のニュアンスに焦点を当てました。これは、対応する性格のニュアンスが、前世紀に(西洋世界で)出現した基本的な性格構造のほぼすべての包括的なモデルの一部であるためです。

研究者らはデータセットとして、デンマーク人格・社会行動委員会(POSAP)の研究で収集された大規模で代表的な個人グループからのデータを使用しました。

研究者らは、外向性の各側面についてランダムに 1 つの項目 (性格のニュアンス) を選択し、個人レベルの回答を予測しました。

写真

上の図は、Life2vec をライフシーケンスに適用すると、研究者が早期死亡率を予測できるだけでなく、性格の微妙なニュアンスを捉えるのに十分な汎用性があることを示しています。

Life2vec はすべての項目で RNN よりも高いスコアを獲得していますが、その差は項目 2 と 3 でのみ統計的に有意です。この特定のタスク用にトレーニングされた RNN が性格に関する信号も抽出できたという事実は、Transformer モデルが強力である一方で、Life2vec を非常に一般的なものにしている大きな要素がデータセット自体にあることを強調しています。

概念空間: 概念間の関係を理解する

研究者のアプローチの斬新さは、アルゴリズムが人間の人生で起こり得るすべての出来事を網羅する単一の結合多次元空間を学習するという点です。研究者たちは視覚化からこの空間の探究を始めました。

グローバルな視点

写真

上の図では、元の 280 次元の概念が PaCMAP を使用して 2D グラフに投影されており、高次元空間のローカル構造とグローバル構造が保持されています。

ここでは、各概念はそのタイプに応じて色分けされています。

この色分けにより、全体的な構造が、健康、職業の種類など、合成言語の主要概念に従って編成されていることが明確になりますが、生年、収入、社会的地位、その他の主要な人口統計情報を分離した興味深い詳細があります。この空間の構造は非常に堅牢であり、さまざまな条件にわたって確実に再現されます。

概念空間の微細構造は意味がある。研究者たちは、全体的なレイアウトをさらに深く掘り下げて、モデルが近くの概念間の複雑なつながりを学習したことを発見しました。

研究者らは、類似性の尺度として、元の高次元表現における概念間のコサイン距離を利用する近傍分析を通じて、これらの局所構造を研究した。

個人概要

要約とは、ある人物の人生における一連の出来事全体の重要な側面を要約した単一のベクトルです。

個人的な要約は、研究者の個人的な埋め込みの空間にわたります。人間による要約を作成するために、モデルはどの側面が現在のタスクに関連しているかを判断します。この意味で、人物要約は特定の予測タスクを条件としています。以下では、研究者らは死亡の可能性に関する個人ごとの要約に焦点を当てました。

写真

上の図は、個人プロファイルのスペースを視覚化したものです。

死亡率予測に関連して、モデルは、低い推定死亡率から高い推定死亡率までの連続体上に個人を編成します (パネル D のポイント クラウド)。

図では、研究者らは実際の死亡者数を赤いひし形で示し、予測の信頼性は点の半径で表している(例えば、半径が小さい点は信頼性の低い予測である)。

さらに、推定確率を表示するために、黄色から緑までのカラーマップが使用されます。

研究者たちは、領域 2 には主に高齢者が住んでいる一方で、若年成人の割合もかなり高く (図 5E)、真のターゲットの割合もわずかであることを確認しました (図 5F)。

ゾーン B はほぼ逆の構造で、ほとんどが若い個体でしたが、かなりの数の高齢の個体もいました (図 5E)。実際に死亡した個体は 1 匹だけでした (図 5F)。

研究者らが低確率地域での実際の死亡例を調べたところ、地域1に最も近い5つの死因は、事故2件、脳の悪性腫瘍、子宮頸部の悪性腫瘍、心筋梗塞であることがわかった。

参照: https://arxiv.org/abs/2306.03009

<<:  PyTorch を使用したノイズ除去拡散モデルの実装

>>: 

ブログ    

推薦する

SVM のマップ削減データマイニングアルゴリズム

元のアルゴリズムに並列戦略を適用するのは難しいため、他のアルゴリズムのバリアントである pegaso...

生成 AI が流行する中、コンプライアンス計画にはどのような変化が見られるのでしょうか?

消費者のショッピング嗜好を予測したり、軍事上の意思決定を導いたり、金融犯罪に関する独自の洞察を提供し...

AgentGPT: ブラウザ上の自律型 AI エージェント

翻訳者 |ブガッティレビュー | Chonglou AgentGPT Web は、ユーザーがカスタマ...

...

Twitter が名前を X に変更し、マスク氏が X の世界を爆発させた! AIから宇宙探査まで、ユニバーサルアプリが形になりつつある

今、ボス・マーの「Xユニバース」がまた成長しました。それ以来、Twitter は単なるソーシャル ネ...

なんて想像力豊かなんでしょう! AIは実際にこのようにプレイできます! 同意できない場合は、比較してみてください。

「まあまあ、今のところ需要はないんですが、ありがとうございます。」今週、子供向け番組を「販売」する...

人工知能の「最初の一滴」がエンタープライズIT自動化に属する理由

企業の情報技術の意思決定者として、上級管理職や部門長に AI のビジネス価値を示す必要がある場合、I...

AIを使って古い写真をカラー化するのは本当に正確なのでしょうか?技術界と歴史界は1,000のポストを主張した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

メタバース、ドローン、5G…は2022年に投資する価値のあるテクノロジーになるでしょうか?

2022年は活気に満ちた春のニュースとともにやって来ます。新年はどんな機会と課題をもたらすでしょう...

...

All Research: AIガバナンス市場規模は2027年に13億4,520万米ドルに達する

9月28日、市場調査会社オールリサーチが発表したレポートでは、2027年までに人工知能ガバナンス市場...

...

人工知能が人間の神経を刺激し、2017年は世界的な技術革新が活発化

[[183471]]図1:2017年1月7日、知能ロボット「小宝」が上海市楊浦区のショッピングモール...

...