人工知能は複雑な囲碁のゲームでは簡単に人間に勝つことができますが、科学的な発見に役立つのでしょうか?米国エネルギー省ローレンス・バークレー国立研究所が最近ネイチャー誌に発表した論文が、幅広い注目を集めている。研究者らによると、人工知能は材料科学分野の論文300万本を自動的に読み、新たな科学的知識を発見したという。 一般的に、Nature に論文が掲載されれば、結論は当然かなり正確であるはずだと人々は信じています。しかし、人工知能に詳しい人にとって、この研究で少し奇妙に感じられるのは、論文のモデルで使用されている技術が「単語埋め込み」であり、畳み込みニューラルネットワークでも、再帰型ニューラルネットワークなどのより複雑なモデルでもないことです。このような単純なモデルは、何百人もの研究者が長年発見できなかった新しい材料を見つけるのに本当に役立つのでしょうか? この記事が公開された後、機械学習コミュニティから多くの反対が寄せられ、人々はこのような「フラッディング」行為に反対を表明しました。 まず、論文に何が書かれているか見てみましょう。 AIは「論文を読む」ことを学習し、その研究はネイチャー誌に掲載された。論文の著者である、バークレー国立研究所のエネルギー貯蔵・分散リソース部門の科学者アヌバフ・ジェイン氏が率いるチームは、発表された材料科学論文330万本の要約を収集し、word2vecと呼ばれるアルゴリズムに入力した。単語間の関係を解釈することにより、アルゴリズムは何年も前に新しい熱電材料について予測し、現在未知の材料の中から応用の可能性のある候補材料を特定することができます。 「教師なし単語埋め込みが材料科学文献から潜在的知識を捕捉する」と題されたこの論文は、7月3日にネイチャー誌に掲載された。 論文アドレス: https://www.nature.com/articles/s41586-019-1335-8 論文の筆頭著者であるヴァヘ・チトヤン氏は、バークレー国立研究所の博士研究員であり、現在はグーグルで働いている。さらに、バークレー国立研究所の科学者であるクリスティン・パーソン氏とゲルブランド・セダー氏もこの研究に参加した。 「この論文は、科学文献のテキストマイニングによって隠れた知識を発見でき、純粋なテキスト抽出によって基礎的な科学知識を確立できると主張している」とガーブランド・セダー氏は述べた。 論文の筆頭著者であるチトヤン氏は、このプロジェクトは、膨大な量の発表された研究を理解するのが難しいことがきっかけになったと述べた。そこで彼らは、機械学習がそれらの集合的な知識すべてを教師なしの方法で活用できるのではないかと考えました。 キング - クイーン + 男 = ?研究チームは、1922年から2018年の間に1,000誌以上の雑誌に掲載された論文の抄録330万件をまとめた(そう、AIは論文を読むときに抄録のみを読み込むのだ)。 Word2vec はこれらの要約から約 500,000 個の固有の単語を抽出し、各単語を 200 次元のベクトル、つまり 200 個の数値の配列に変換しました。 「重要なのは数字ではなく、その数字を使って単語間の関係性を見ることだ」とジェイン氏は言う。たとえば、標準的なベクトル計算を使用してベクトルの減算を行うことができます。他の研究者は、非科学的なテキストソースでアルゴリズムをトレーニングし、「キングマイナスクイーン」からベクトルを抽出すると、「マンマイナスウーマン」に近い結果が得られることを示しました。 同様に、材料科学のテキストでトレーニングすると、アルゴリズムは、要約内の単語の位置と他の単語との共起のみに基づいて、科学用語と概念の意味を学習できます。たとえば、アルゴリズムは「キング-クイーン + マン」の方程式を解くことができるのと同様に、「強磁性 - NiFe + IrMn」の方程式の答えが「反強磁性」であることを計算できます。 左: Word2vec の元素表現 (2 次元空間に投影)。右: メンデレーエフの周期表。画像出典: バークレー研究所 上の図に示すように、Word2vec は、周期表の化学元素を 2 次元空間に投影したときに、それらの元素間の関係を学習することもできます。 何年も前に新素材を予測するでは、Word2vec がそれほど賢いのであれば、新しい熱電材料を予測できるのでしょうか?優れた熱電材料は、熱を効率的に電気に変換でき、安全で豊富かつ生産しやすい原材料から作られています。 アルゴリズムは、各化合物をその単語ベクトルと「熱電」という単語との類似性に基づいてランク付けし、研究者はアルゴリズムが最も推奨する熱電材料を選択しました。その後、アルゴリズムの予測を検証するために計算を実行しました。 アルゴリズムによって予測された上位 10 の熱電材料のうち、すべての予測で計算された力率 (電気機器の効率を測る係数で、値が高いほど効率が良い) が既知の熱電部品よりわずかに高く、上位 3 つの材料の力率は既知の熱電部品の 95% より高かったことが分かりました。 次に、研究者らは、2000年以前の要約のみを与えて、アルゴリズムが「過去の」予測実験で機能するかどうかをテストした。結果は再び驚くべきものでした。アルゴリズムによって与えられた上位の予測の多くが、その後の研究にも現れ、ランダム選択の結果の 4 倍にもなりました。例えば、2008 年以前のデータでトレーニングして得られた予測は 5 つありますが、そのうち 3 つは発見されたものですが、残りの 2 つは非常にまれであったり、毒性物質を含んでいたりします。 「この研究は、アルゴリズムがもっと早く適用されていれば、いくつかの物質は何年も前に発見できたかもしれないことを示している」と研究者らは述べた。 研究が進むにつれて、研究者らはアルゴリズムによって予測された上位50の熱電材料を公開している。彼らはまた、他の人々がより良い資料を発見できるように、研究で使用した単語の埋め込みを公開する予定です。さらに、研究者がより効率的な方法で抄録を検索できるように、より強力なインテリジェント検索エンジンを開発しています。 機械学習コミュニティからの嘲笑に遭遇人工知能は本当に新しい材料を自動的に発見できるのでしょうか?この論文が発表されるとすぐに、ソーシャルネットワーク上で白熱した議論が巻き起こった。これまでに、この投稿は14万回閲覧されています。 最初に驚きを表明したのは材料科学の学生たちだった。「AIが科学研究者に取って代わったら、私たちは全員失業してしまうのでしょうか?」論文を読んだ後、機械学習に詳しい人たちは我に返り、「嘲笑モード」をオンにした。 シンガポール国立大学の博士号を持ち、テンセントのアルゴリズムエンジニアでもあるハワード氏は、知乎で次のように述べた。「この論文を読んだ後、長い間落ち着くことができませんでした。こんなにひどい論文は久しぶりです!」 他の分野の学者も、機械学習の手法を使って独自の研究を行う前に、しっかりとした基礎を築くべきだと主張する人もいます。 「あちこちで穴を掘っている江宇成」はこう言った。「記事の著者と査読者は CS224n を学ぶべきだと心から提案します...」この記事のアイデアは非常に優れていますが、実際の実装はあまりにも水っぽく、Nature に掲載されるにはまったく値しません。 機械学習コミュニティの人々はこの論文を注意深く分析しました。 この論文では、著者らは t-SNE を使用して単語ベクトルを 2 次元空間に投影し、同じファミリーの要素が集まっていることを発見しました。 「ハワード」は、同じファミリーの要素は文脈の中で言及するのはもちろん簡単だが、それらは単なる共起関係であると述べました。さらに、著者は、単語ベクトルを直接使用して化合物を予測できると主張し、予測結果と理論計算の間の絶対誤差は非常に小さいと述べています。しかし、理論で何かを計算できる場合、フィッティングにニューラルネットワークを使用することに本当に意味があるのでしょうか? ここで、著者はニューラル ネットワークが適用可能な基本的なシナリオさえ理解できません。形成エネルギーの計算は、完全な量子力学理論によってサポートされています。正確にモデル化できるこのような問題の場合、従来の物理学の第一原理理論を使用して計算する方が優れており、信頼性も高くなります。 最後に、著者らはコサイン類似度を使用して熱電に最も近い単語を計算し、位置326と345にLi2CuSbとCu3Nb2O8という2つの材料を見つけ、そのアルゴリズムが潜在的な新しい熱電材料を予測できると主張した。読者にとって、これは「息をのむような」作戦です。熱電材料と 2 つの材料のコサイン類似度が近い理由は、記事の中で誰かが熱電材料と Li2CuSb および Cu3Nb2O8 を同時に言及していたためであり、これは単なる共起関係です。 結論は次のようになります。潜在的な新しい熱電材料を予測できるいわゆる AI アルゴリズムはナンセンスであり、これによって材料研究者の存続が脅かされることはありません。なぜなら、この論文では、AI が論文を理解できるようにするアルゴリズムは提案されていないからです。資料を研究した一部の学者も知乎上で、ビッグデータ、機械学習、ディープラーニングの人気に乗じて、多くの分野の研究者が関連作業を行っていると述べた。 「盛世理冀」さんは、AI関連の技術に触れて初めて学んだとき、このツールを使えば素晴らしい仕事ができると思ったが、実際にやってみると「これは高次元特徴空間の統計ツールにすぎないのに、なぜこんなにすごいと喧伝されているのだろう?」と感じたと自身の体験を語りました。 機械学習は無差別に使用すべきではない論文はネイチャー誌やサイエンス誌に掲載されているが、精査に耐えられない。これは、機械学習コミュニティで最近、一度や二度ではなく何度も起こっている。 「人工知能を科学研究に利用する」という研究の前には、「地震を予測するためのディープラーニング」という研究がありました。昨年8月、「大地震後の余震パターンのディープラーニング」と題する人気論文がNature誌に掲載されました。この論文はハーバード大学とグーグルのデータ科学者が共同執筆したもので、筆頭著者はハーバード大学地球惑星科学部に所属している。 この論文では、ディープラーニング技術をどのように活用して余震を予測できるかを説明しています。研究者らは、余震の場所を予測する上で、ニューラルネットワークの使用は従来の方法よりも正確であると指摘した。 しかしすぐに、この方法はディープラーニングの専門家から疑問視されるようになりました。データサイエンティストのラジブ・シャー氏は、論文で使用されたモデリング方法にはいくつか根本的な問題があり、実験結果の正確性には疑問が残ると述べた。データ科学者は厳格な精神で、実験検証後に原著者とNatureに連絡を取ったが、肯定的な返答は得られなかった。 そこで、ラジブ・シャー氏は論文の著者らが公開したコードを半年かけて研究し、その後、論文の根本的な欠陥とネイチャーの怠慢を暴露する記事をMediumに投稿した。その後、この事件はRedditで大きな議論を巻き起こした。 ネイチャーを批判するだけでなく、ディープラーニングやAI技術の乱用についても懸念が表明された。機械学習が徐々に人気の高いテーマになるにつれ、他の分野の学者も新しい方法を使って問題を解決するようになりました。良い結果を達成した人もいれば、実験方法やデータ方法が不正確だったために不正確な結果に至った人もいます。 さらに心配なのは、時には欠陥のある研究が受け入れられてしまうことだ。 余震予測に関するこのディープラーニング論文は『ネイチャー』誌に掲載され、TensorFlow 2.0の新バージョンの宣伝記事でも取り上げられたが、機械学習コミュニティの実践者からは批判された。 ジャーナルの内容が捏造されたと言えるのでしょうか?しかし、今回は人工知能の研究者たちは本当にどうしようもなかった。 参考文献: https://techxplore.com/news/2019-07-machine-learning-algorithms-uncover-hidden-scientific.html https://www.nature.com/articles/s41586-019-1335-8 https://www.zhihu.com/question/333317064/answer/738462156 |
<<: AIがPythonの記述を手助けし、インストールはたった5ステップで完了し、自由に調整できます。
>>: AIの過去と現在を理解するのに役立つ、60年間の技術の簡単な歴史
7月9日から7月11日まで、2020年世界人工知能会議クラウドサミットが上海で閉幕しました。「イン...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[400577]] AS(5): RSA-PSSアルゴリズムの紹介2018 年にリリースされた T...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
近年、自動化プロセスの導入は世界中で加速しています。生産効率の大幅な向上により、低技能労働者の代わり...
この化粧品大手は、視覚障害者が簡単に化粧を行えるよう、AIと拡張現実(AR)技術を活用した音声対応の...
機械知能、現実と仮想の境界線の曖昧化、そしてインターネットの継続的な進化は、私たちの生活に根本的な影...
なぜこれほど多くの AI プロジェクトが失敗するのでしょうか。そして、ビジネス リーダーはどうすれば...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[422090]]オックスフォード大学の研究によると、機械学習モデルは従来の物理ソルバーに比べて物...
[[187107]]人工知能技術は飛躍的に進歩していますが、人工知能間のコミュニケーションの問題は...