AI研究者の邢波氏：機械学習には明確な理論的枠組みが欠けており、評価の目標と方法を再定義する必要がある

[[426278]]

2021年1月、コンピュータサイエンスと人工知能分野のトップ学者であるエリック・P・シン教授が、世界初の人工知能大学であるMBZUAIの初代学長に正式に就任しました。彼は最近、Machine Heartとの独占インタビューに応じた。 4時間以上に及んだインタビューの中で、邢波教授は学術研究と学校運営に対する自身のアプローチについて語ってくれました。記事の長さを考慮して、インタビューは2部構成で掲載します。

第一部は機械学習と人工知能分野の現状と発展についての見解であり、第二部はMBZUAIの公式創設会長としての邢波教授の学術管理とリーダーシップ、研究趣向、そしてより現代に合った新しいAI科学研究教育環境の模索と創造についての考えです。

近年、人工知能は急速に発展しているが、この分野では商業主義の雰囲気がますます強くなっている。企業や大学が設備、人材、さらには研究の言説権力をめぐって競争する中、AIの研究と教育はますます市場と資本の影響を受けている。

「教授」であることの報酬と名誉、そして自由な探求の場は、もはや以前とは違っています。研究者たちは、単に時代の流れに従って学術的影響力を持つ人物になるか、それともスパムでランキングを氾濫させ、チャートを不正に操作していわゆる多作な学者になるかというジレンマに直面しています。なぜなら、限られたリソース、システム、その他の要因により、落ち着いて本当に価値のある問題を掘り下げることが贅沢になっているケースが増えているからです。

「今日の学校における科学研究環境では、多くの学者が不満を感じており、学生たちは混乱しています。このことについては誰もが非常によく理解していると思います」。2021年3月、カーネギーメロン大学（CMU）コンピューターサイエンス学部の教授であり、MBZUAIの新任会長であるエリック・P・シン教授は、マシンハートとの独占インタビューでそう語った。

MBZUAIは、モハメッド・ビン・ザイード人工知能大学の略称。2019年末にアラブ首長国連邦のアブダビに設立された。人工知能に特化した世界初の大学で、大学院課程のみ提供しており、研究機関としての特性を重視している。当初は、1985年にオックスフォード大学にロボティクス研究グループ（現在のオックスフォード・ロボティクス研究所の前身）を設立した画像解析分野の先駆者であるサー・J・マイケル・ブレイディが暫定学長を務めていた。

MBZUAIの正式会長に任命された際、邢波教授は、MBZUAIは人工知能の教育と研究の卓越性を追求することに注力していると述べた。教授は、この新しいプラットフォームで基本的なAIリテラシーを備えた新世代のリーダーシップ人材を育成し、学術研究と産業応用を通じて人工知能の潜在能力をフルに活用し、同時にMBZUAIがUAEの経済と社会の発展にプラスの影響を与えることを望んでいる。

コンピューターサイエンスと人工知能の分野で世界トップクラスの学者であり、AIの実用化に精通した優れたビジネスリーダーでもある邢波教授は、自分が直面している課題をよく理解しています。 MBZUAIの正式な創立会長を務めることは、彼が自らに課した目標です。彼はこの機会を利用して、ゼロからスタートし、現代の要件にさらに適合した新しい科学研究、教育、技術変革環境を模索して構築し、この環境を通じてAIの発展に十分な貢献をしたいと考えています。

AI のトップ学者、邢波氏：「機械学習には明確な理論的枠組みが欠けており、評価の目標と方法を再定義する必要がある」">

コンピュータサイエンスの分野で権威あるランキングであるCSランキングによると、2011年から2021年まで、人工知能、機械学習、システム、理論、学際分野を含むコンピュータサイエンスの総合的な研究において、CMUは世界で最も高品質な研究を生み出した機関であり、Xing Bo教授はCMUで最も高品質な研究を生み出した学者です。出典: csrankings.org

1993年、邢波教授は清華大学物理学科を卒業し、その後ラトガース大学に入学し、分子生物学と生化学の博士号を取得しました。 1999年に博士号を取得した後、カリフォルニア大学バークレー校に入学し、コンピューターサイエンスの博士号取得を目指し、チューリング賞受賞者のリチャード・カープ氏や、今日のAIコミュニティではお馴染みのマイケル・I・ジョーダン氏、スチュアート・ラッセル氏に師事しました。

2 つの博士号を持つ Xing Bo 教授は、2004 年に CMU のコンピュータサイエンス学部に加わり、助教授としてキャリアをスタートし、2011 年に終身在職権を取得し、2014 年に教授の称号を得るまで、世界をリードするコンピュータサイエンスの研究および教育環境で働いてきました。 2015年以降、彼はCMUとピッツバーグ大学医療センターが共同で設立した機械学習と健康センターの創設ディレクターを務めるなど、より重要な学術管理責任を引き受けており、2016年7月からはCMUコンピューターサイエンス学部の機械学習部門の研究副ディレクターに昇進しています。

同じく 2016 年に、Xing Bo 教授は、人工知能と機械学習の基本的なエンジニアリングフレームワークの提供に特化した会社 Petuum を設立しました。パラメーターサーバーにおけるこれまでの先駆的な取り組みに基づき、同社のビジョンは、AI と機械学習のソリューションをレゴブロックのようにモジュール化、分解、自由に組み合わせられるようにすることです。 Petuumは、世界のAIスタートアップトップ100社「AI 100」に同年と翌年と2年連続で選出され、2018年にはダボス経済フォーラムの「テクノロジーパイオニア」に選出されました。

数学の美しさを称賛し、「すべては数である」という原理を追求するすべての科学者と同様に、邢波教授は、物理世界の法則が数学の言語で表現できるのと同じように、人工知能も理解されるべきだと考えています。 2019年以来、彼はチームを率いて損失関数の観点から出発し、さまざまな機械学習アルゴリズムとモデル間の共通点を発見し、形式的な観点から機械学習を統一的に理解するための理論的枠組みを構築し、人工知能の将来のエンジニアリング実現可能性の基礎を築きました。

AI のトップ学者、邢波氏：「機械学習には明確な理論的枠組みが欠けており、評価の目標と方法を再定義する必要がある」">

邢波教授のチームは、損失、最適化ソルバー、モデルアーキテクチャなどの側面から出発し、経験ベースおよびタスクベースの機械学習手法のための統一された数式（標準方程式）を提供しました。彼らは、教師あり学習と教師なし学習は数学的には同様または同一の方法で表現できることを発見しました。出典: Eric Xing & Zhiting Hu、「標準化され構成可能な機械学習の青写真」、Petuum & Carnegie Mellon、2020 年。

「科学」と「工学」をスケールの両端に置く従来の比較とは異なり、邢波教授は、工学は科学に続く発展段階であると考えています。パラメータ調整や試行錯誤は「エンジニアリング」ではなく、AI分野における本当のエンジニアリング作業はまだ始まっていないと指摘した。

以下のインタビュー要約では、Xing Bo 教授が機械学習と人工知能の分野の現状と発展についての考えをさらに共有しています。

1. 機械学習の現状：明確な理論的・工学的枠組みの欠如

Synced:あなたの最近のビデオスピーチをいくつか見ましたが、その中で、すべての機械学習パラダイムやモデルを統一し、レゴブロックのように構成できるようにすることを目的とした標準方程式を提案していましたね。これは機械学習の発展に関するあなたの理解から生まれたものなのでしょうか?このような統一された表現方式を提案することで、現場にどのようなインスピレーションをもたらすことができるのでしょうか。

邢波教授：これは確かに非常に重大な問題であり、また非常に難しい問題でもあります。私たちがこの仕事をしていたとき、統一のために統一を求めていたわけではありません。実際、この段階に至ったのは自然な進化でした。過去10年間の機械学習と人工知能の急速な発展は、大小さまざまな成果を生み出してきましたが、基本的にはまだ学術的な探求、試行錯誤、蓄積の段階にあり、完全な体系を形成していません。厳密な形式規範、理論的根拠、評価方法さえもまとめられておらず、物理学や数学におけるゲッティンゲン学派やコペンハーゲン学派のような、何らかの核心理論、方法論、思考ロジック、さらには科学的研究スタイルに基づいた学派は存在しません。したがって、現在の結果のほとんどは、プロジェクトの実施とビジョンの実現という点では明確ではありません。しかし、国民や社会は人工知能に大きな期待を抱いており、できるだけ早く実装されることを望んでいます。

これにより、さまざまな結果が互換性があるか、組み合わせることができるか、重複はないか、冗長性はないかなど、現在の混沌とした拡張状況につながっています。これらの質問は時間内に回答されませんでした。

以前の研究では、私の個人的な関心は、比較的明確で、簡潔で、実用的で、理論的に厳密な論理と完全な物語を備えた解決策を期待することでした。

したがって、私は、この分野全体における現在の混乱した開発状況について、いくらかの懸念、あるいはいくらかの留保さえも持っています。ですから、それらを整理し、何が起こっているのかを確認する仕事が必要だと思います。

そして、エンジニアリングにおいても、これに対する客観的なニーズがあります。多くの人々、特に科学者は、実は工学に対して多少偏った理解を持っています。実際、多くの大学院生や教授はエンジニアリングの仕事を見下したり、軽蔑したりしています。私は科学者だと思いますが、それは工学的な問題です。彼らは、プログラミング、パラメータ調整、システムの最適化、ハッキングや試行錯誤の方法、さらには標準化やモジュール化の作業までもエンジニアリングとみなしているため、見下した態度や軽蔑的な態度、さらには侮蔑的な見方をする傾向があります。

しかし、私のエンジニアリングに対する理解は実はかなり異なります。ある分野が「エンジニアリング可能な」段階にアップグレードされた場合、それは実際にその分野の成熟度を表していると思います。つまり、エンジニアリングは科学よりも高いのです。科学的原理を明確にし、再現性や標準化などの問題を解決して初めて、実際のプロジェクトを開始できます。人工知能科学のエンジニアリングと実装に対する一般の需要はまだ満たされていないと思います。科学は標準化と統一の作業をさらに一歩進める必要があります。

たとえば、土木工学、化学工学、生物工学などは、実際には最初に工学が生まれ、その後に科学が生まれたわけではなく、力学、化学、生物学の後に生まれたものであることがわかります。

人工知能においては、人々はこの順序を理解していないように思います。パラメータ調整や試行錯誤としてのエンジニアリングを軽視し、科学を高く評価しすぎています。その結果、いわゆる「科学」は、整理や吸収を止めずに、あまりにも速く進んでしまいます。ですから、AI 分野でのエンジニアリング作業はまだ本格的には始まっていないと思います。

今回、胡志庭博士と私が標準方程式に対して行った作業は、既存の AI 作業を整理し、将来のエンジニアリングの可能性への道を開くことでした。エンジニアリングは、先ほどお話しした組み合わせ可能なレゴスタイルの組み立てを具体化したものです。これが目標であることに気づくでしょうが、この目標を達成するための手段は、標準化、セキュリティ、説明可能性、数学的単純さの要件をすでにカバーしています。

要約すると、私たちの仕事は統一のためではありません。それは非常に自然な節目に達しており、非常に大きな必要性があります。さらに、私たちは現在非常に多くの資料を蓄積しています。私たちはたまたまこの仕事を行うのに非常に良い時期にいます。

要約すると、標準方程式は、従来の最大尤度教師あり学習と教師なし学習、ベイズ学習、強化学習、能動学習、敵対的生成学習など、さまざまな機械学習パラダイムを表現するために普遍的な公式を使用します。現在、それらはすべて独自の狭い、あるいは独占的な数学的形式と計算方法を持っています。各地域では、毎年大量の結果が発表され、非常に大きなアルゴリズムの「野生の公園」を形成し、毎年1000以上の「新しいアルゴリズム」が追加されています。通常、学習パラダイムを定義または開発する場合、目的方程式、モデルアーキテクチャ、アルゴリズムの 3 つの側面からソリューションを提供する必要があります。通常、客観的な方程式が支配的であり、パラダイムの基本的な数学的本質を定義します。他の方程式は従属的であり、特定の特性と計算方法を提供します。現在、さまざまな深層モデル構造、確率的グラフィカルモデル、カーネル関数などのモデルアーキテクチャ、およびさまざまな勾配導関数、モンテカルロ、最適化とランダムランジュバン法などのさまざまなアルゴリズムに多数の成果が集中しています。

私たちが提案した標準的な機械学習方程式には、経験関数、発散関数、不確実性関数の 3 つの項が含まれています。各関数の特定のインスタンスを選択することで、ほぼすべての既知の機械学習パラダイムを復元できることがわかりました。標準方程式インスタンスが与えられれば、任意のモデルアーキテクチャとアルゴリズムを自由に呼び出すことができます。

機械学習の標準方程式に関する私たちの研究は、現在のところ、対象方程式の統一的な処理を提供することに限定されています。将来的には、汎用アルゴリズム（いわゆるマスターアルゴリズム）や汎用モデル（BERTのようないわゆる汎用モデルなど）が提案される可能性も否定できません。

ターゲット方程式とは、機械学習モデルをトレーニングする際に、モデルの良し悪しを判断し、ターゲットを絞って方程式を最適化できることを指します。さらに、トレーニングモデルで使用されるさまざまな情報原材料を紹介するためのトラックも必要です。これを、あらゆる経験から学ぶことと呼びます。

簡単な例: 通常、人を訓練する場合、例を使用したり、1,000 枚の画像を見せたり、さまざまな英語の単語を何百回も言ったり、無数のサンプルを見せたりすることが 1 つの方法です。これは 1 つの方法です。しかし、人々は他の多くの経験を通して学ぶことができます。たとえば、1+1=2、2+2=4、…と言う代わりに、x+x=2xと言うなど、ルールを直接伝えることができます。それがルールです。

ルールを直接要約したり抽出したりすることもできます。たとえば、ガウスが足し算をしているのを見ると、誰もがガウスは天才だと言います。ガウスは 9 歳のとき、1 から 100 までの 100 個の整数の合計を計算する等差数列の加算法を発明しました。1+100、2+99 を加算して 101 を得て、それを 50 倍しました。これは単なる数字の足し算ではなく、パターンです。これは、生のデータではなくルールに重点を置いた学習方法です。

泳いだり、手足の位置を学んだりするなど、人間が行う実験や体験もあります。しかし、教科書の理論を読むだけでは習得できません。この姿勢で体が浮くのか、泳げるのかを体験するには、自分で水に飛び込んで泳ぐ必要があります。これは概念的には強化学習に近い別のアプローチであり、システムと環境間の相互作用、探索、フィードバックを重視しています。

模倣学習もあります。たとえば、ピアノを習うとき、50グラムの力で鍵盤を押し、特定の音に合わせて弾くように指示されることがあります。これは最も極端なルールベースの教授法です。また、いわゆる「教師あり学習」を実現するために、教師が生徒に対して同じ音符や楽曲をさまざまな速度、音色、強さで何百回も演奏し、トレーニングデータセットとして使用することも考えられます。教師が楽譜だけを渡すか、楽譜なしで音楽を一度演奏し、その後は生徒に真似をさせたり、自分で演奏させたりして、いわゆる「教師なし学習」を達成することも考えられます。すべてが信じられないし、信頼できないように聞こえますか?マスタークラスには、マスターが傍らで見ているように頼み、曲を演奏する、そして、マスターが直接曲を演奏し、一緒に学ぶように頼むという指導方法もあります。これは学習時の模倣であり、模倣を可能にしますが、教師あり学習でも教師なし学習でもありません。実際には新しいモデルです。

現在の敵対的生成タイプに似たタイプのトレーニングと学習もあります。これは、例を生成し、その例が私を「騙す」ことができるかどうかを確認することができる、挑戦的なゲームスタイルのトレーニングと学習方法です。これらはすべて学習方法です。

現在の機械学習では、各手法は独自のパラダイムを使用します。これは一般に「アルゴリズム」と呼ばれることもありますが、実際にはモデリング、ターゲット方程式、最終的な最適化アルゴリズムが含まれており、これらはすべて異なります。ご想像のとおり、方法論は数多くあり、複雑です。あらゆる異なる経験、あらゆる異なる種類のデータ、あらゆる異なるトレーニング情報ソースは、異なる方法を使用して取得されます。

標準方程式に取り組んでいたとき、私たちはこれらのさまざまな方法を 1 つのトラックに統合するか、一連の方程式を使用して記述しようとしました。こうすれば、少なくとも誰もがまずは私が何をしているか理解できます。方程式として書き表すと、私が行う 2 つのことは同じことかもしれません。それほど違いはないかもしれません。

したがって、トレーニングプロセス全体を理解することは非常に実用的です。

たとえば、最大尤度学習、ベイズ学習、強化学習は、実際には類似した、または完全に統一された数学的形式を持ち、ポリシー勾配やそのより強力な導関数アルゴリズムなど、以前は排他的に使用されていた多くの効率的な最適化アルゴリズムを共有することもできます。

もともと特定のトレーニングプラットフォーム向けに考案されたアルゴリズムは、実際には別の場所でも使用できます。最適化アルゴリズムの適用範囲が広がり、汎用性が高まります。これも、この組み合わせの利便性を実現できるもう 1 つのメリットです。なぜなら、統合のために新しいデータプラットフォームを再発明しなくても、さまざまなエクスペリエンスを統合できる場合があるからです。

人々があらゆることを学ぶのに同じ脳を使うのと同じです。大学のように専攻を分けたり、人文科学を学ぶ人もいれば、理科を学ぶ人もいて、さらに異なる学習方法に応じて学習を細分化しなければならないわけではありません。同じ人が文系と理系の両方であり、異なることを学ぶこともできます。これは実際に、機械学習で達成したいと願っている結果です。

つまり、実践的な目標を掲げ、これまでの成果と経験を整理し、最終的に正確かつ簡潔な表現で現在の成果を網羅し、将来の学習と実装を効果的に簡素化し、より一般的な理論分析を促進します。これは、機械学習の標準的な方程式がどのように機能するかについての基本的な概要です。

私は19世紀の物理学の状態についての講義で例を使いました。当時、電気、磁気、光学、力学はすべて別々であり、誰もがそれぞれ異なる分野であると考えていました。一見無関係に思える多くの研究が行われ、非常に大きな成果が生み出されました。学生にとって、これらの科目を学ぶには多くの時間がかかり、パターンを把握してさらに進歩することはさらに困難です。実際、これは悲惨なことだ。

しかし、マクスウェルが電磁気学を統一した後、この2つの一見異なる自然現象（磁気ローターによる発電など）の相互因果関係と対称変換の理解と応用、さらには光の波動粒子二重性の物理的性質のその後の理解につながり、量子力学と電磁気学の統一フレームワークに思想的インスピレーションを与えました。その後、光の定数（光速、プランク定数など）などの物理的測定値は、統一された理論的議論を通じて見ることができ、何が欠けているかを確認し、より明確な理解を得ることができることが発見されました。実際に、イノベーションをさらに推進します。

電磁気学の統一後、楊振寧とミルズのゲージ場が発展しました。現在、物理学では、電気から磁気、弱い力から強い力まで、4つすべてが統一されており、重力だけが統一されていません。

この統一は、一方では自然哲学の美しさを包含し、他方では多くのことを応用し普遍化することを可能にします。例えば、電磁気学の統一後、人々は電磁相互作用についてより深く理解するようになり、発電機が開発され、電気時代が到来しました。当時、科学的な先見性が大きな役割を果たしました。

また、AI において理論的に明確なフレームワークを形成し、将来のイノベーションがより良い基盤の上に成り立つようにし、実装のためのより優れたエンジニアリングフレームワークを提供し、新しい作業により良い方向性を与えることを目指しています。

Synced: AI、あるいは少なくとも機械学習の分野には、そのような統一されたフレームワークが存在するとお考えだと理解してよろしいでしょうか?

邢波教授：それは難しいと思います。まず第一に、「統一」という言葉自体が曖昧であるため、その本質的な意味は議論の余地がある。統一とは必ずしも 1 つの式を使用してすべての結果を網羅することを意味するわけではないと思います。同じ原理（ただし見た目は異なる）であるはずのものを遡って説明する必要があると思うだけです。

それは統一のための統一ではなく、本来の統一性や一貫性を明らかにすることです。たとえば、重力と電磁力は同じかどうかは明らかではありません。それらは異なるかもしれないし、同じかもしれない、答えを出す必要がある。だから最終的な形は予測できないんですが、この作品自体は必要なんだと思います。

Synced:現在の標準的な方程式に基づくと、強化学習、ディープラーニング、生成的敵対学習などの形式を問わず、多くの機械学習手法は本質的に同じであると思われますか? その通りですか?

邢波教授：この質問には、単純に「はい」か「いいえ」で答えるのは難しいです。同じものであることを保証できないからです。

Synced:先ほど、多くの物事はさまざまな結果をもたらすように見えますが、実際には同じであるとおっしゃいました。では、本質を抽出してみましょう。

邢波教授：この質問はかなり複雑です。いわゆる「同じ」にもさまざまな定義があります。一つは形式（記号的）において同じであり、もう一つは物理的（物理的）において同じであり、もう一つは工学的実現（実現/実装）において同じです。これらは実際には異なるレベルにあります。

標準方程式は形式的なものを提供するだけであり、物理的に同じものではなく、私たちはまだその質問に答えようとはしていません。たとえば、標準方程式の最初の項である経験関数には、環境とのやり取りから得られるデータ経験と報酬経験の両方を埋め込むことができます。前者は最大尤度学習に相当し、後者は強化学習に相当します。しかし、標準的な公式におけるこれら 2 種類の学習の形式的な一貫性は、同じことを学習していることを意味するものではありません。前者は静的モデルの隠れた変数とモデルパラメータであり、後者はポリシーと呼ばれるもので、システム状態（隠れた変数）とアクション（通常は測定可能な変数）間のマッピング関数です。したがって、標準方程式のこれら 2 つのインスタンス化は、物理学の内容における 2 つの異なるタイプの学習に対応します。自然言語とコンピュータービジョンのアルゴリズムと同様に、数式は同じに見えますが、明らかに異なっていると言えます。

これは、2 つのものの形式は一貫しているが、実際の物理的内容は異なることを意味します。したがって、それは依然として使用シナリオと特定の問題に依存します。しかし、この形式の一貫性により、研究者は想像力と操作の余地をより大きく広げることができます。たとえば、「データの経験」と「報酬の経験」を一緒に追加したり、さらに多くの経験（敵対的経験など）を追加したりすることもできます。最終的にトレーニングされたシステムは何でしょうか。その理論的な特徴は何ですか?さまざまな経験の相対的な影響は何でしょうか?非線形に結合することは可能ですか?トレーニングにはどのようなアルゴリズムが使用されますか? ...これらはすべて、標準方程式がきっかけとなることを期待している新しい研究テーマであり、非常に興味深いものです。

私がまだ深く研究していないより広い領域があります。機械学習には通常、目的方程式、最適化アルゴリズム（つまり、最適化のための数学的ツールの使用）、およびモデル自体が含まれます。数学では、モデルはpまたはfに置き換えられますが、すべてをカバーします。ディープラーニング革命全体の成果の大部分は、モデルを 1 層から 100 層に増やし、さまざまな方法で内部構造を改良するなど、モデルの革新に基づいています。

現在の共注意モデル、トランスフォーマー、LSTM などのいくつかの大規模なディープラーニングモデルは、実際にはモデル空間における革新です。生成的敵対モデル (GAN モデル) は別のレベルにあり、ターゲット方程式に革新をもたらします。

講義をするときは、こうしたことを整理して、革新がどこにあるのかを誰もがわかるようにするつもりです。しかし現在、一般大衆の間でも、あるいはコミュニティの特定のレベル内でも、これらの意味は混在しています。

したがって、私の現在の仕事の目標の 1 つは、これらを整理して、誰もがイノベーションの方向性や、現在の結果をどのように評価して対処するかを把握できるようにすることです。

もちろん、アルゴリズムにはさまざまな革新があります。先ほどお話しした勾配は最大のアルゴリズムです。バックプロパゲーションは実際には勾配の特殊なケースにすぎず、EM も勾配の特殊なケースです。

勾配に加えて、他のアルゴリズムもあります。たとえば、遺伝的アルゴリズムは勾配アルゴリズムではなく、モンテカルロも同様です。ゼロ次、一次、二次などと言うこともありますが、これは実際にはアルゴリズムレベルでの一般的な方向性を要約したものです。しかし、この分野ではやるべき仕事もまだたくさんあります。たとえば、私たちの最近の研究の 1 つはブラックボックス最適化と呼ばれ、学習するための学習をサポートするために使用され、メタ学習のタスクです。最適化の対象自体は、特定の形式化された方程式のパラメータではなく、機械学習アルゴリズムまたはモデル構造であるため、区別できず、テスト (クエリ) のみが可能です。各クエリは非常に高価です (各クエリが特定のハイパーパラメータ設定で BERT をトレーニングすることに相当すると想像してください)。最速のトレーニング速度と最高のトレーニング結果を達成するために、最小限の試行で最適なハイパーパラメータを見つけるにはどうすればよいでしょうか。これらはすべて非常に興味深い質問です。標準モデルの枠組みの中で、このような研究はより優れた理論的および応用的可能性を持つことになります。

標準モデルの下では、上記のすべての作業は直接的に普遍性と互換性を獲得し、1つの例から本当に推論を導き出すことができます。強化学習用に設計されたアルゴリズムは、通常の最大尤度学習で直接使用してデータ拡張の効果を実現できます。シーケンシャルデータ用に設計されたディープモデルは、ポリシーを表現するために使用できます。教師あり学習の境界堅牢性分析は、他の学習パラダイムをカバーする可能性があります。

最近の多くのイノベーションには正確な位置づけが欠けているように思います。具体的な作業は多次元であり、前述の対象方程式、モデル、アルゴリズムを含みます。対象方程式には、経験関数、距離関数、不確実性関数が含まれます。経験関数には、データ、ルール、報酬などが含まれる場合があり、距離関数には、KL ダイバージェンス、JS ダイバージェンス、クロスエントロピーなどが含まれる場合があります。通常、イノベーションを行うとき、またはイノベーションを定義したり、イノベーションや結果を評価するときには、不変の次元を定数として設定し、イノベーションの次元を変数として使用して結果を評価し、再び回転させる必要がある。しかし、目的方程式、モデル、アルゴリズムをすべて一度に変更して最終的に新しい結果を得た場合、どのイノベーションが最良の結果を達成したかを自分自身や他の人によってコピーしたり説明したりすることは実際には非常に困難です。

これは、飛行機の製造など、エンジニアリング製品をアップグレードするときに、エンジンのパワーをテストしたい場合は、通常、航空機の負荷容量や形状、流体力学など、他のすべてを修正する理由でもあります。その後、エンジンを調整またはアップグレードすることで、結果がどうなるかを確認できます。

しかし、翼の更新を検討したい場合、他の側面では定数を使用できない場合は、形状からパワー、材料まで機体全体を一度に変更し、最終的にこの機体の方が良いと結論付けます。しかし、何がそんなに良いのでしょうか?なぜ良いのでしょうか？これは不明です。こうしたより厳密な研究アプローチをさらに推進していきたいと考えています。イノベーションのペースは遅くなるかもしれませんが、結果を蓄積したり、理解したりすることが容易になる可能性があります。

2. 機械学習の評価方法と目標を確認する: リーダーボードの欠点は何ですか?

Synced:機械学習アルゴリズムやモデルの品質を測定する方法は、特定のイノベーションポイントを正確に特定することだと考えています。これは正しいですか?以前、業界は現在、実際とは異なるパフォーマンスやランキングに惑わされており、誰もがそうした改善に重点を置いているとおっしゃっていましたね。また、機械学習モデルを評価する新しい方法を試しています。

Xing Bo教授：これは非常に良い質問です。「2つのポイントを修正して3番目のポイントの影響を確認する」ことについて私が言ったことは、実際には評価方法ではなく、評価方法です。この目標を設定する必要があります。あなたの質問は、実際にどのような目標を評価する必要があるかを尋ねました。

最初に評価方法について話しましょう。どちらの目標を目指しても、他の固定ディメンションを常に決定し、変数ディメンションを明確にする必要があります。そうすれば、イノベーションディメンションの値または効果を次元ごとに正確に評価できるようにする必要があります。

もちろん、2つの次元を同時に実行することもできますが、それらすべてを変更すると、交絡と混乱が発生します。または、これらの次元または他の未知の要因との相関関係が互いに影響を与え、間違った判断を引き起こします。

ここで、評価方法が正しいと仮定して、どのターゲットを評価する必要がありますか？この問題は実際には業界で物議を醸すものであるか、深く考える価値があります。

現在、業界の機械学習には基本的に2つの評価目標があります。 1つは、モデル方程式のトレーニングデータの辺縁または完全な可能性など、いわゆる数学的習慣目標です。もう1つは外生的な目標であり、純粋に人間の判断に基づいて物事を成し遂げることです。これらはおそらく2つのポイントです。

狭い意味では、後者は、基本的にいわゆるリストを定義する手動ラベルによって純粋に定義されたエラー率です。私たちはしばしば「ランキング操作」について話しています。

これらの2つの方法のうち、最初の方法は数学的に自己整合的であり、理論の完全性には絶対に有用です。これは、いわゆる一貫性と収束を証明できるためです。しかし、その価値はこれにのみあります。なぜなら、組み込みの目標の最適化が外部の機能目標と一致しているという保証はないからです。

したがって、2番目のタイプの外因性ターゲットを使用します。その中で最も単純なターゲットは人間の注釈です。これについては、2つのレベルで説明します。

最初にこの問題を解決しましょう。人々の注釈が完全に価値があると仮定すると、このリストに載るために一生懸命働く価値があります。非常に高いスコアを達成したら、それを成功と考えることができますか？まだ十分ではないと思います。人々の目標が正しく、客観的な機能が正しいと仮定すると、機械学習の規律の発展にはまだ十分ではありません。

プロジェクトの品質には、他の多くの側面が含まれます。最初のポイントは、安全性とコスト、環境保護などです。これらは注釈にほとんどまたはまったくありません。

たとえば、飛行機や車の安全性を達成するための数は驚異的です。車が運輸省によって販売のために承認されたい場合、基本的には1億キロメートルごとに犠牲者なしで安全を達成する必要があります。これは理にかなっています。航空機の飛行が許可されている場合、1つまたは2つのゼロを追加する必要があります。つまり、100億キロメートルあたりの死傷者や事故はないはずです。この事故率は-9または-10の電力に対する10です。これは、1000分の1または1万分の100分の1の写真認識精度とはまったく異なります。まず、写真認識率は10-9または-10に達しません。

航空機の部品で非常に低いエラー率を達成する方法は、事故が発生するかどうかを確認するために実際に数万回飛行機を飛行することではありません。最終的にはそのように行われるかもしれませんが、最初は確かにそのように行われず、実際にはすべての部分をテストしていました。エラーグラフ、またはエラーツリーがあります。これは、エラーの伝播を拡大または削減できるグラフのセットであり、グラフで表されます。次に、エンジン、翼、および着陸装置をテストし、各エラーが次のレベルにどのように送信されるか、それが増幅されるか、これを十分に理解しているかを判断することができます。

したがって、最後のボーイング737maxインシデントの後、特定のセンサーコンポーネントのデータ識別と動作に戻りました。ダウン。問題を発見した後、インジケータをリセットすると問題を解決し、同様の事故が再び起こらないようにすることができます。

人工知能では、現在、そのような方法論やアイデアはありません。基本的に、最終結論が良好かどうかに依存し、パラメーターの調整を開始します。これはセグメンテーションや組み合わせではありませんでした。また、関連するハードウェアモジュールとの関係に進むために、フェイス認識や自動車認識アルゴリズムを別の自動制御ソフトウェアと組み合わせることができたことを考えたことはありません。これは私たちがそれをテストする方法ではありません。

そのため、リーダーボードの不足は、リーダーボード自体が正しく定義されているか正しい目標で定義されているかだけでなく、プロジェクトと製品全体の構造と安全性の人々の評価を基本的に抑制することに限定されることを提案したいと思います。この値はまだ議論されていません。

したがって、その欠点は、実際には間違った設計上の問題を引き起こすだけでなく、人々のメンタリティとエンジニアリングの価値にも影響を与えます。ノードがなく、ブラックボックスであるため、多くの人はそれを行うことができません。しかし、化学工学と土木工学では、人生のリンクが明確に分割されていることがわかります。

そのため、規制を行うときはスムーズではありません。それは遅くなるので、誰もがルールを嫌っています。ただし、エンジニアリングの標準化では、そのレベルを標準化するだけで、その損傷または衝撃の程度が制御できます。そのため、焦点を非常に迅速に集中できます。

AIでは、標準化は今やこのデータを楽しむことができません。その理由は、このことが分割されていないからです。研究者自身の思考方法と業界全体で使用される通常の方法は、実際に考慮する必要があると思います。

ハートオブマシン：少し前に規制を行っていなかったチームを覚えています。また、画像の分類と認識でSOTAパフォーマンスを達成しました。誰もがエンドツーエンドを追求しています。

Xing Bo教授：実際、私はそれについて留保しています。最先端は、表面的な数やスコアを指していません。実際、理論的な厳しさ、安定性、品質、コストなど。

評価に戻ると、製品の実装と評価標準化の実装だけでなく、コストも評価されるべきだと思います。 GPT-3のトレーニングは1200万ドルであると報告されているとは思わなかったかもしれませんが、これは非常に高価です。これは多くの結果を引き起こします。それは排他的な楽しみであり、普通の人々にとっては手頃な価格ではありません。また、何も使用されていないほど、それを適切にテストする方法がなく、安全性が低いため、非常に不安があります。いわゆる「エンドツーエンド」は、しばしばギミックになるはずですが、特に深く練習していないが大きな声を持っている多くの実践者の間で、R＆Dを導く方法論と見なされています。

トピックに戻りましょう。実際、リーダーボードのスコアが正しく決定されるかどうかは大きな問題でもあります。結果の品質をどのように評価しますか？たとえば、画像注釈が数パーセントに達することができる場合、これはそれ自体が意味がありますか？自然なイメージにはさまざまな背景があります。オブジェクトが存在するかどうかにかかわらず、オブジェクトが存在するかどうかなど、単純な判断だけでなく、非常に乱雑な自然なイメージで判断を下すことができます。絵画に基づいてさまざまな関連する物語を直接伝える映画はありますか？そして、機械学習はこれを行うことはできません。したがって、現在の評価リーダーボードが高すぎると、実際にこの分野のイノベーションを抑制します。

どんな問題を解決していますか？この側面は実際には非常に限られており、解決された問題は非常に狭く、つまり、監視された学習と表現学習の2つの例です。リストに勝つことができず、記事や投稿を投稿できないため、より多くの学習タスクは注目を集めていません。そのため、誰もそれらを読まないため、比較的不健康な雰囲気を形成しました。特に若い学生にとっては、機会コストが高すぎて、注意を払わずに数年間落ち着いてそれを行うには多くの時間がかかるため、彼らは基本的に本当の挑戦的な問題に興味がないと思います。今、これらの仕事をしたいと思っている人は多くありません。

ハートオブマシン：これらの特に難しい質問のいくつかの例を挙げていただけますか？

Xing Bo教授：たくさん。今日、監視された学習、監視されていない学習、強化された学習、さらには対立学習など、機械学習に大きな役割を果たしたタスク。学習は誇張です。メモリは次の関数を生成します。たとえば、GPT-3モデルは実際に世界のすべてのデータを1つの脳に配置するか、ひねりでコピーできます。

たとえば、シェークスピアの通過を生み出すことができ、シェークスピアのように読むことができる記事を書いたり、別の作家のように読むことができます。ゴッホの作品のように見える絵を作りましょう。これらのことは基本的にメモリに基づいています。しかし、あなたはレポートも見てきました、そして、たとえば、太陽が2つの目を持っている場合、いくつかの人々がいくつかの質問をします。ゼブラには6本の足がありますか？または、追加を尋ねるだけで、1+1 = 2を実行できます。2+2 = 4を実行してから、1億ポイントを追加しますが、それは行いません。この例を見たことがないので、ルールを学ぶのはあまり得意ではありません。

太陽とゼブラの問題は今、常識の推論、常識の推論でした。常識は、人間の生活環境または情報環境での背景知識です。実際、太陽が2つの目を持っているのを見たことがなく、この例を見たことがありません。しかし、私たちは、太陽が動物ではないことを知って、自分で何かを読んだことがあるかもしれません。要するに、私たちがそのような推論を行うことを可能にするような背景知識を持つことです。

これは、機械学習ができないことです。ビッグデータトレーニングに基づいているため、この側面を研究する人はほとんどいません。 Judea Pearlは、事実に反して、反事実と呼ばれる、さらに進んだ一連の質問を提起しました。

彼はこの興味深い例を示しました：オズワルドがケネディ大統領を暗殺しなかった場合、後者はまだ生きていますか？この質問は興味深いものですが、その結果が何であるかはわかりませんが、一連の推論を作成できます。オズワルドが暗殺しなかった場合、ケネディ大統領自身が彼の年齢のために亡くなったかもしれない、またはケネディはおそらく暗殺されていない別の人がいるでしょう...賢い人である必要がない人は誰でも、これらの物語を思いつき、解釈することができます。しかし、これらのコンピューターモデルを説明するのが難しいようです。

Counteractualの考え方は機械学習モデルでは不可能ですが、日常生活や行動では、人々は自然にさまざまな思考状態に切り替え、それを行うためにさまざまな方法を使用します。したがって、この質問は貴重で挑戦的です。実際、モデル自体の表現手段、モデル構造の数学的表現、情報とルールの導入、および最終評価方法に影響を与えます。

もう少し難しいので、誰かが私にそのような学習システムを開発するように頼みました。PDF形式で10の大学の物理学の教科書を読んでから、大学量子物理学試験に合格しますか？実際、今日のスーパーモデルは非常に無能であるため、上記の同じ主題の10個の教科書と同じように、同じ定理のいくつかの異なる表現を与えることさえできます。新しい定理を発見し、提案し、新しい定理を証明することは言うまでもなく。

そのため、イノベーションの余地はたくさんありますが、まだ主流ではありません。もちろん、それは主流ではなく良いことであり、開発の余地が増えるでしょう。私はただ例を挙げているだけです、これはかなり難しいことです。

連邦学習、共同学習など、別の質問があります。実際には非常に現実的な問題をターゲットにしています。データを集中的に収集することはできません。たとえば、各研究室または病院には独自のデータポリシーまたは運用ポリシーがあり、処理のために患者データまたは生物学的または物理的実験をセンターに送信することはできません。

では、どうすれば知識と1つの知識を形成できますか？これは、現在の機械学習で定義する共同学習と同じではありません。しかし、私がちょうど話したのは、より深い操作であり、実際には知識交換と最終統一の問題です。

これは、人間の思考プロセスで非常に一般的な方法です。数学者が定理を証明したとき、彼はそのような分散した結果を多く収集し、合成を行い、さらには通信してから反復することがよくあります。ことわざがあります：問題を解決するために、それはしばしば村を取ることができます。村を取り、それはどういう意味ですか？相互作用を通じて独立して自分自身を構築するのは誰でもありますが、彼らは共通の目標に向けて自分の目標を形成していますか？時にはそうではありません、時にはそうではありません。しかし、一部の人々は、この方法を使用して分布した部分溶液を取得し、合成を行い、繰り返します。この学習方法は、機械学習の分野でまだ深く理解されていない部分でもあります。

私の研究チームは最近、少なくとも理論的には共同学習最適化アルゴリズムを確立し、ベイジアン後方推論の計算方法である作業を行いました。純粋なアルゴリズムの問題の観点から、現在の共同学習方法がモデル設計とトレーニングの問題、システムの互換性の問題、またはアルゴリズムの最適化と効率強化の問題であるかどうかを調べます。この種の質問は非常に興味深いと思います。

学習する自動学習を実装するためのブラックボックスの最適化を開発する前述の方法など、他にも多くの例があります。私たちが機械学習や人工知能を行うことに多くのリソースと努力を費やした問題は、実際にはすべての問題のほんの一部であり、同様の注意を払っていない多くの問題がまだあると言いたいと思います。

ハートオブマシン：現在、それらの多くはアルゴリズムモデルに集中していると言っていましたが、多くの場合、実際の生活ではデータのプロパティからソリューションを見つける必要があります。

Xing Bo教授：データがモデルに移動するのか、モデルがコンピューティングレベルでデータに移動するかを意味する可能性があることを知っています。実際には、オプションが必要であり、モデルはデータに向かって移動する必要があります。データが発生しない場合はどうなりますか？それは何もすることではありません。誰もがAppleの電話を使用しているときと同じように、一部の人はiCloudをオフにし、データをアップロードしません。まだ学習したい場合は、ユーザーのためにパーソナライズしたい場合は、モデルをユーザーに配置する必要があります。これは現実的な要件だと思います。

人工知能がデータ中心であるべきかどうかについては、これは完全に別の質問であり、純粋に物理的な（物理的な）中心的な問題ではありません。あなたの質問は、実際に他の質問を開発する方法論的な方法論です。

人間の観点からは、多くの学習があり、必ずしも例に合う必要はないので、データが中心にあるに違いないと思います。ビッグデータは単なる方法であるか、愚かな方法でさえあります。これは、マシンに非常に適しています。しかし、マシンでさえ、必ずしも毎日自宅で遊ぶとは限らず、アウェイゲームの要件に適応しなければなりません。人々のニーズに合わせて、人々の家庭環境に入る必要があるかもしれません。当時、ルールがより重要である可能性があり、おそらく事前知識がより重要であるか、あるいはいくつかの特別な機能がより重要だったかもしれません。たとえば、私は非常に環境に優しいソリューションを作成して、大量の電気を使用して多くの冷却水を使用することができないようにしたいと考えていますが、結果が必要です。当時、私はこれらのことをデータに犠牲にしなければなりませんでした。なぜなら、私はそれをできなかったと完全にあきらめることができなかったと言うことができなかったからです。

したがって、私は、単極の治療方法またはスタイルを定義することは、実際にはそれほど健康ではない、または生産性の低い計画であると思います。

3.人工知能分野の発展を見てください：規律の活力または価値を定義することは、それが新しい才能を生み出し、新しい研究の方向性を開くかどうかに依存することがあります。

ハートオブマシン：次に、人工知能の開発について尋ねます。過去数年間、2012年の深い学習波から、または2016年に公共の目に入ることから、この期間中の最も重要な開発やブレークスルーは何だと思いますか？どのような作業を深遠で実質的に呼ぶことができますか？

Xing Bo教授：あなたの質問は実際に私を盗んだ。まず第一に、私は限られた数の記事を読んでいますが、私はすべての結果を読むことができません。一方、これは非常に主観的な判断でもあります。すべての記事を読んだ後でも、公正な評価をすることは困難です。

最初にこのコンテキストについて話した後、私はそれが最も重要であるか価値があるとは言えない作品についていくつかの言葉に言及することができますが、私はそれが非常に興味深いと感じるか、さらに時間をかけることを喜んでいます。

過去3〜5年で、私に多くの感銘を受けた仕事の1つは、タンパク質構造を予測するために深い学習を使用して、深い態度の最近の仕事です。技術革新ではなく、いくつかのイデオロギー革新があると思います。

通常、この構造を予測するとき、またはさまざまな予測を行うとき、ドットを前方に接続するという考えを使用します。これは、前方と線形ロジックを推定することです。たとえば、原因と結果から、たとえば、原子組成、ソート、タンパク質配列、および各原子タンパク質配列の化学的特性を知ることは、それを使用して化学結合を計算し、最小エネルギーを計算して、1次元配列から2次元構造、4次元構造まで、安定した構造を計算することができます。物理学は実際に第一原則である第一原則を使用していることを知っています。最初、次に最小エネルギー、次に安定した状態、そしてタンパク質構造はそのようなものでなければなりません。

私の知る限り、Alphafoldと呼ばれるこの仕事は、最初の原則に基づいて作られていませんでした。間接的で、少し広く使用し、非常に間接的なソリューションです。最初にすべての一致、つまり、各原子と分子ペアの間の距離、核磁気共鳴、およびさまざまな物理的および化学的実験を介して行うことができます。

これにより、実際には、分子のすべての第2度相関情報（元々は1次元シーケンス）、つまりポイントとポイント間の物理的距離が提供されます。また、タンパク質の多数の既知の3次元構造を収集し、深い学習を使用して、両方の入出力のブラックボックスマッピングを行います。

最初に、1次元シーケンスから2次元ペアワイズ距離マトリックスにモデルを作成しました。ペアワイズ距離マトリックスの利点は、通常の2D画像と同じように、すべてのn×nペアワイズ距離がグラフに表示されるため、タンパク質の2Dグローバルビューを取得することです。次に、ペアワイズ距離を介してタンパク質全体の構造のブラックボックス予測、および監督された深い学習を通じて予測されました。

そのアイデアは、最小エネルギー値を計算することにより、または物理的な計算とシミュレーションを通じて、最良のソリューションを生成するための最初の原則をバイパスします。 AlphaFoldはグローバルに直接使用し、構造によって生成されたペアワイズ距離関数を使用して逆プッシュを反転させます。この構造は、そのような距離関数を生成できます。この方法は非常に興味深いです。旅行に行くとき、次の目標を知りませんが、次の目標に到達した後の次の目標を知っているので、次の目標、つまりアイデアを逆転させます。

これは、深い学習の利点を完全に適用します。マシンはAからBまで学習するのが得意ではありませんが、AからCまで学ぶことができます。人々がAからCを学ぶことは容易ではありませんが、機械学習がこの部分を学ぶのは簡単です。次に、CからBに戻ります。これは、機械学習が学ぶことができるものでもあります。そのため、ステップa全体をbに渡します。

このアイデアは非常に興味深いと思います、なぜですか？ AからBまでの一次計算と局所的な計算は、隣接する原子分子の相互作用を段階的に段階的にねじ込む必要があります。糸がゆっくりと折りたたまれるのと同じように、段階的に折りたたまれています。しかし、Cでは、グローバル情報を備えたペアワイズ距離関数になりました。各3次元構造を予測する場合、実際には2次元ペアワイズ距離全体を通して予測を行います。グローバルからローカル予測まで、深い学習方法を通じて達成されます。

この思考方法は、特に奇妙です。人間の計算の過程で、計算が大きすぎてこれを行うことができないため、グローバルな予測を行うことは困難です。それがはっきりと説明されているかどうかはわかりませんが、そのアイデアは突破口だと思います。

ハートオブマシン： Alphagoに似たチェスをプレイできますか？これらの固定パターンは以前に人間によって予想されておらず、それらのいくつかは以前に人間によって発明されたものよりも優れていました。これを比較できますか？

Xing Bo教授：これは異なります。 Alphagoもイノベーションですが、コンピューティングパワー、多くのコンピューティングパワー、継続的なシミュレーションをより多く使用していると思います。タンパク質構造の予測に関する研究は現在、多くのコンピューティング能力を使用していませんでした。実際には、新しい思考状態を反映しています。

Alphafoldは、ローカルからグローバルへ、そしてローカルに戻る予測です。これは一般的な考え方ではありません。

ハートオブマシン：それはすべての構造とすべての距離を知っており、それから戻ってそれを単独で押します。

Xing Bo教授：データが大きくないので、それはわかりません。それは実際にはデータの形式であり、データの視点は非常に興味深いものです。深い学習モデルを使用して、人々に新しい視点を提供し、ポスト構造の結果を確認し、ポスト構造の結果から構造を推測し、一歩前進してから振り返ります。これは私の理解であり、私はこれまでこの考えについて考えたことがありません。

ハートオブマシン：これがモデルの力、またはモデルを設計する人々の理解だと思いますか？

Xing Bo教授：それは人間の理解です。多くの人々の設計要因があると思いますが、このデザインは非常に興味深いものです。ですから、人々は多くの仕事をしているので、それは突破口だと思います。そして、明らかに非常に独創的で賢い思考方法があり、武器競技のために激しく戦うだけでなく、そのようなパイプラインを設計します。

ハートオブザマシン： GPT-3はどうですか？

Xing Bo教授： GPT-3もイノベーションだと思いますが、そのブレークスルーにとっては特に印象的ではありません。それはその前にいくつかのステップがあり、段階的なものです。近年の深い学習の分野で最も重要な仕事は、いわゆる注意モデルだと思います。異なる表現を整列させ、対応を生成できるためです。

注意モデルに基づいて、トランスに発展しています。トランスは注意ヘッドを呼び出してから、複雑な概念や比較的大きな領域に展開できるようにします。 GPT-3は、多数のデザインを採用しています。これは、多数のメモリ要素を使用してスーパーコレクションを形成していますが、メモリ要素の接続はGPT-3にも実装されています。

もちろん、それがより大きくなった後、それはエンジニアリングのトレーニングを行うことができますか？これらのことは技術的に重要なタスクです。しかし、私はそれを完全に独創的な作品とは見ていませんでした。 GPT-2、BERT、およびGPT-3全体には、ハードウェアが開発され、データが増加するにつれて明らかな段階的なルートがあるため、突然変異やブレークスルーとして分類することはできません。

基本的に、GPT-4が2年で現れると予測できます。また、非常に重要なアイデアであるアイデアを使用し、自己教師のトレーニングと呼ばれる前任者からの多くの経験を利用しています。たとえば、多くの人がこれらのテクニックと概念を常に構築しているため、この単語を予測して、後半を予測するか、これらの方法を使用することができます。

したがって、GPT-3はマスターだと思いますが、原則、デザイン、またはアルゴリズムの巨大なオリジナルのブレークスルーを形成していません。

ハートオブマシン：研究の質を評価するとき、エンジニアリングの実装よりも、オリジナルのアイデアや考え方にもっと注意を払います。このように理解できますか？

Xing Bo教授：必ずしもそうではありません。私は誰が良いのか、誰が悪いのかを判断しませんでした。それらは異なっており、さまざまなニーズに応じて行われます。独創性自体は独創性のためではなく、すべてニーズによるものです。この作業では、それが行われるべきことを行うので、GPT-3はまだ驚くべきエンジニアリングマイルストーンだと思います。私はそれが受けた注意が問題だとは思わない、それは非常に適切な仕事であるべきだ。私はそれをオリジナルと呼ぶことはできないと言った。 「オリジナル」は、私の定義の中立的な言葉であり、肯定的な言葉や否定的な言葉ではありません。

また、最近の成果をより適切にカバーできるように、ジョブを追加したいと思います。システムと機械学習に注意を払う価値のある方向があると思います。近年の深い学習と機械学習の動きにおけるもう1つの重要な新しいブレークスルーポイントかもしれません。そのブレークスルーポイントは、特定の成果には反映されていませんが、この分野が生まれ、新しい分野が作成されました。

SYSMLは、実際に元のオペレーティングシステムフィールドと機械学習を組み合わせています。我个人认为这是一个很重要的新突破，因为原来计算机科学家是有明确分工的，做算法的人或者建模的人是不去碰机器的，不去问机器里面的卡怎么来插，或者带宽如何来控制，通讯如何来控制，程序如何编译，这些都不理会。就像我们在做computer vision 的时候，我们对照相机或者像素编码方法，比如对于JEPG take for granted。有时我跟人说Computer Vision 整个领域其实是定义在我们对于影像的编码上面，我把编码变的话，也有可能会导致全领域接着改变。因为人类视网膜看到的图也许和机器看到的图不一样。

一直以来机器学习是有它的边界的，边界就定义在数据和数学上，但是没有达到硬件和计算环境里面。但是，SysML 第一次把边界给打破了，它使系统和机器学习结合在一起，当成一个题目来做。这有突破性的意义，有点像把火车的设计和铁轨的设计结合在一起，而不是两边分别各做各的。

这里边就问出了很多新的问题。一开始的时候是认为系统达不到训练的要求，要重新设计系统，所以出现了像参数服务器这样的工作。我以前的工作也组成了SysML 领域早期成果的一部分，包括参数服务器的架构、理论和原型系统，特别是我们第一次对于不同通讯原则作出了严格的理论分析，提出了数据并行和模型并行两种范式，给出有限异步通讯在这两种范式上的收敛性的理论证明，以及建造实际系统上的可扩展性。2012 年、2013 年的时候出了一批理论、工程和系统上的新突破，那时候的目标是希望能够设计出新的通用系统，能够适应机器学习的需要。

再过了几年以后就发觉新的系统太局限，机器学习算法发展得太快，跟不上，以致出来了专门为特定算法或模型来服务的系统。然后就是在这个基础上既优化系统，又优化算法，互为优化，这是第二个波——codesign。也持续有若干个paper 是做这种codesign。我们组Pengtao Xie 博士的Orpheus paper 就是其中的例子，提出了sufficient factor broadcast 这个概念。

到了最近几年发现这条路可能也很难走，因为codesign 太昂贵太小众，要既懂系统，也懂算法，还懂数学，这样的人太少了，能玩这个东西的人特别有限，所以做不大。

最后再回归，还是来做通用系统。但这个通用系统不是单一系统，还有可能是一个系统库。比如说我把所有系统都放在库里边，然后根据不同的算法或者模型需要来选择不同的通信协议，比如可以做parameter server，也可以做allreduce，也可以做sufficient factor broadcast。然后在通讯里面可以是同步，也可以是异步，也可以是半同步，可以提供这么一个选项。这个系统全面丰富，也许可以满足各种需要，这是最近的方向之一。我们组Hao Zhang 博士的AutoSync 系统就属于其中之一。

然后可能又有一个新的问题：能不能形成自适应系统？因为虽然库都放在那里了，但是选择用哪个，用多少，用多久，还是需要很多专业知识。能不能让系统本身是智能的，等于是用智能的系统来训练智能的模型，两边都来智能。它可以自己来调节需要，包括在schedule 里边，包括在通讯里面，都可以来做adaptive 的操作。这也是最近的一个新的方向。我们组Aurick Qiao 博士最近在OSDI 获得最佳论文奖的AdaptDL 系统就属于这个方面的一个突出成果。

更新的方向还有多维的并行。我们也可以把并行进行拓宽，从数据并行到模型并行到pipeline 并行都可以来同时做，现在可能叫「三维并行」，也是个时髦流行叫法。

SysML 这个方向孕育出很多新的问题和新亮点，都是原来没有被碰过的。所以从技术角度，还有从工程角度，至少是创造了很多岗位可以去干活。但是从学科、从理论本身其实也提出很多问题，因为每一步这样的工程创新都对原来的数学模型是一个reduction，都是一个削减，是凿了一个窟窿，使之前的模型不再正确完备。然后我们就要证明它是不是有数学上的正确性，提出了这种理论上的问题。这个方向最后能通到哪去，还很难预测，但我觉得它是一个相当丰富的方向，可以引发出来很多新的题目。

作为一个新学科来说，SysML 是过去几年蛮重要的一个新生事物。原来没有被这么关注，现在有一批年轻的学者开始崭露头角，文武兼备，他们既会算法也会系统。这批新的人才的产生就是这股发展潮流的结果。これは今まで見たことのないものです。

机器之心：做框架的或者做编译器的，算属于这一批人吗？

邢波教授：广义上也可以算。其实这个群体里边包含了各种各样的人，有出身框架（architecture）的人，但他们的服务目的是为了AI，他们就进入这个圈了。框架可以服务于数据库，也可以服务于存储，或者cryptography 来做隐私，这也是系统里边的需要。也包括了做编译器的人，因为机器学习代码的编译质量，实际上也影响了它的人工编码成本和程序的performance。还包含了做算法的人，如果他很有兴趣去研究系统或者是infrastructure 对performance 的影响的话，他们也包含在其中。

另外有一批甚至是更稀缺的，对这几个领域都懂跨界人才。例如最近CMU 大力延揽的陈天奇博士就是在系统和AI 上都有相当好的成果的年轻学者。这样的人现在出来了一批，比如刚才提到的Aurick Qiao 博士，Hao Zhang 博士，以及更早一些的Matei Zaharia 教授，Qirong Ho 博士，Mu Li 博士都是其中突出的代表。

我通常定义一个学科的活力或者是价值，有时就看它是否产生了一种新的人才，提出了新的问题，我觉得SysML 是有这样的特质的。

这里我要提一下，我们的公司Petuum 就是在这个业态变化中成长起来的。它一开始基于我们在参数服务器上的创新，后来我们一直在这里边加入了不同的元素，包含了比如说自动调参，机器学习建模这种乐高一样的组合性，自适应底层架构等等。我觉得在这个赛道里面，会孕育出来下一代真正的新型创新公司。很高兴地看到，刚才提到的SysML 领域最近涌现的新锐之一，Aurick Qiao 博士能秉承持续创新，并担当起落地发展的重任，已经成长为Petuum 新一代CEO。作为他的博士导师，我深感骄傲。

<<: 「深く」「鮮明に」見る - 画像の超高精細化におけるディープラーニングの応用

>>: ロンドン警察は大量の顔認識技術を購入している