機械学習研究の10年

機械学習研究の10年

[[271167]]

10年前のMSRAの夏、私が初めて機械学習の研究に挑戦したとき、科学研究における大きな不確実性に直面し、最も感じたのは混乱と当惑でした。 10年後、私たちは次のステップに進もうとしています。未来はまだ不確実ですが、私たちはさらなる期待を抱いています。こうした変化には、過去 10 年間の経験の影も残っています。

はじめに:科学的研究とは何でしょうか?

私は大学3年生の時に交通大学のAPEX研究室に入り、先輩の戴文元と一緒に機械学習に取り組む栄誉に恵まれました。当時、「機械学習」という名前はとても高尚な響きだと思ったので、この方向を選びました。しかし、1年間働いてもまだ混乱していました。科学研究​​をして自主的に論文を書きたいと思っていましたが、どこから始めればいいのかいつもわかりませんでした。私が研究室に入った1年後に文源さんは百度に入社しました。当時はまだ先輩から本当の教えを受けておらず、大学4年生から修士2年にかけては科学研究の第一段階をスタートしました。この時期は「科学研究とは何か」という問いを常に持ちながら、独学で模索していました。

授業の課題とは異なり、学術研究には特定の質問、特定の方法、特定の答えはありません。文源が去ったことで、私は突然何をしたらよいか分からなくなりました。その時の私の考えは非常にシンプルで、すぐに具体的な方向性を見つけて論文を完成させるというものでした。 ACM の授業で機会が与えられたため、夏休み中に MSRA で短期インターンシップをしました。多くのことを学びましたが、答えは得られませんでした。 MSRAから戻った後、研究室のXue教授の提案で、今では正しいが間違っていると思われる方向、つまりディープラーニングを選択しました。それは AlexNet が登場する 2 年前のことで、ディープラーニングの主流は教師なし学習と制限付きボルツマン マシンでした。私は指導者の指導もツールもなしに、研究室の 2 枚のグラフィック カードと自分で書いた CUDA コードを頼りに、2 年半にわたってディープラーニングに取り組み始めました。研究室の先輩が私に何をするつもりかと尋ねました。私は「畳み込みRBMを使ってImageNetの分類効率を上げます」と答えました。この答えから、図書館と研究室で数え切れないほどの昼夜が始まりました。研究室の古いマシンにハイパワーのグラフィックカードを追加するため、マシンのケースを開けて、外部に外部電源を差し込みました。私の生活は、パラメータ調整の連続です。重み付けされた画像を視覚化すると、顔のように見えますが、精度が十分ではないので、もう一度試します。グラフィック カードのコードをハッキングする最初の興奮から、1 年後の不安、回転不変モデルを追加する方法を考えようと木の下を時々歩き回ることまで、私は学部 4 年目から修士課程の 1 年半までのすべての時間をこの方向に費やしましたが、結局何も得られませんでした。今となっては、当時私が犯した非常に明白な間違いのように思えます。一般的な科学研究は、「ImageNet 分類問題をどのように解決するか」などの問題主導か、「RBM は何に使用できるか」などの方法主導のいずれかです。当時は、解決すべき問題とその解決策の両方に目が釘付けになっていたので、当然ながら成功する可能性は高くありませんでした。当時、分野全体のさまざまなアイデア、たとえば Lecun がすでに非常に早い段階でエンドツーエンドに取り組んでいたという事実などをもっと詳しく調べていたら、結果は違っていたかもしれません。

もちろん、もしということはありません。2年半を賭けた後、私に残っているのは、いつ論文を発表できるかという不安だけです。不安になり、方向転換を計画し始めました。当時、RBM をレコメンデーション システムに適用した古典的な記事があったので、レコメンデーション システムと kddcup に触れ始めました。幸いなことに、今回は RBM を唯一の方法として採用したわけではなく、レコメンデーション システムにおける行列分解アルゴリズムをより広く検討し、より一般的な行列分解システムを研究室で構築しました。推薦制度への取り組みが徐々に実を結び、2年間にわたるKDDCup11で好成績を収めることができました。 KDD12 が北京で開催されました。私は旧正月の休暇を返上し、特徴ベースの分散行列分解に関する最初の論文を完成させ、興奮しながら KDD に提出しました。 4月末に、私たちはKDDから早期却下通知を受け取りました。論文は最初の審査ラウンドさえ通過しませんでした。これは私がほぼ独力で完成させた最初の論文だったので、却下通知を受け取ったとき、私は非常に落ち込みました。転機は5月にKDDCup12がチャートのトップに立ち、最初のトラックチャンピオンシップを獲得したときでした。KDDCup12チャンピオンシップで優勝した瞬間を今でも覚えています。修士課程でのもやが全て吹き飛んだかのように、とても子供っぽい気持ちでエクスカリバーをプレイしました。当時はまだ科学研究がどういうものなのかよくわかっていませんでしたが、漠然とこれからも挑戦してみようという気持ちがありました。

ゼロ年: 何をすべきか

科学研究に対する私の考え方に最初の転機が訪れたのは、修士課程を卒業する頃でした。 Li Hang教授が私たちの研究室に来て、機械学習と情報検索についての報告とディスカッションをしました。レポートを書いている間、私は非常に興奮し、時々飛び上がりたいほどでした。なぜなら、非常に多くの興味深い問題を解く方法を知っているようだと気づいたからです。しかし、これまでこれらの問題を解けるとは思ってもいませんでした。李航先生と連絡を取った後、その年の夏、私は香港に行き、李航先生と楊強先生のもとでインターンシップをする栄誉に恵まれました。研究室の先輩の多くは香港に行き、楊強教授のもとで研究をしてきました。帰国後、彼らは啓発され、科学研究が急速に進歩したようです。香港に行ってから、研究の観点からその理由が分かり始めました。数年間のトレーニングを経て、既存の問題を解決する方法はわかっていたかもしれませんが、新しい研究問題を選択する方法、結果が満足のいくものでない場合に方向転換して新たな突破口を見つける方法、分野全体の問題間の関係を知る方法など、他の必要なスキルが欠けていました。 「香港から帰ってきてからレベルアップした?」――あるヒーローの一言。これはおそらく、香港での 3 か月間のインターンシップを最もよくまとめたものです。香港でのインターンシップの終わりに、私は初めて正式な第一著者として会議論文を発表しました(その年の ICML で)。 KDDCup のおかげで、私は現在の博士課程の指導教官であるカルロスのポスドクであるダニーと出会い、ダニーは私をカルロス (UW) とアレックス (CMU) に紹介してくれました。幸運なことに、私は応募したときに UW と CMU からオファーをもらいました。 CMUを訪問したとき、伝説の先輩であるLi Muに会いました。彼は私に、今はビッグデータがとても人気があるが、私たちが卒業する頃には時代がどうなっているか分からないと嘆いていました。しかし、その一方で、私たちはいつでももっと重要なことをすることができます。今でもこの会話のことを思い出すとため息が出ます。私は最終的に、6年間の博士課程生活を始めるためにUWを選びました。

博士課程に入る前にAPEX Labsと香港で経験したおかげで、博士課程を始めたときに何ができるかについて心配することはなくなったようです。

1年目: 予想外に何が得られるでしょうか?

もし私がUWでの最初の年にテーマを与えるとしたら、それはおそらく「事故」でしょう。交通大学にいた頃、私は興味があったため、確率過程やマルコフ連鎖について議論するために、システム生物学研究者のアオ・ピン教授のグループミーティングによく参加していました。 UW での最初の学期に、偶然、サンプリングに Lagevin プロセスを使用する方法について説明した記事を見ました。これは前回のグループ ミーティングで話し合ったことだと思いました。これらの方法は機械学習でも使用できることがわかりました。私は、元の交通大学協会から知識を直接借りて、効率的なサンプリング HMC に関する最初の記事を完成させました。私はこの方向で研究を続けませんでしたが、グループの別の後輩がこの方向に基づいて博士論文を完成させました。

同じ年に、私とメンターは「ディープラーニングに疑問を持ち始め」ました。つまり、他の機械学習モデルが十分なモデル容量とデータを持っている場合、ディープラーニングと同じ結果を達成できるのだろうか、ということです。当時、カルロスはカーネル法に楽観的だったので、私は過去の経験に基づいてツリーブースティングを試してみることにしました。結局、視野内の畳み込みネットワークに負けて挑戦は失敗に終わりましたが、この仮説に挑戦するために効率的な Tree Boosting を実装したシステムは、友人の提案によりオープンソース化され、後に XGBoost となりました。

1年生の夏休みの終わりに、偶然、クォンタイルスケッチアルゴリズムに興味を持ちました。ここでの主な問題は、分位数を見つけるための近似的でマージ可能なデータ構造をどのように設計するかということです。この方向への古典的な解決策として GK スケッチ ペーパーがありますが、これはデータ ポイントに重みがない状況しか解決できません。 1、2 日推論した後、私はついに山登り中に重みのあるケースに結論を拡張しました。興味深いのは、新しい証明が元の証明よりもはるかに単純に見えることです。この結論は個別には公開されていませんでしたが、後に分散 XGBoost アルゴリズムで予想外に使用され、その証明も XGboost の記事の付録に含まれています。

研究は一朝一夕でできるものではありません。やりたいことをやって、それをうまくやることです。最初は興味本位かもしれませんが、数年後にはさまざまな場所で予想外の成果が得られるでしょう。この感覚はとても良いものです。

2年目と3年目: 何をするかを選択する

新入生パーティーで、カルロスは私に、すでに論文を発表しているので、次のステップは落ち着いて大きな成果を上げることだ、「最高の論文レベルの研究だけをしろ」と言いました。多くの優しい家庭教師とは異なり、カルロスは生徒に対して非常に厳しく、非常に直接的で「厳しい」言葉で話します。多くの教師は、どんな考えであっても、まず私たちの考えを肯定してくれました。しかし、カルロスは直接的に質問を投げかけました。最初はとても居心地が悪く、自信を失ったように感じましたが、徐々に慣れてきて、このスタイルに慣れ始めました。これまでのところ、正直なフィードバックこそが私にとって最も有益なものなのです。博士課程に入って1年が経った頃、私が考えていた主な疑問は、どのような問題が私の徹底的な研究に値し、堅実で影響力のある研究を行うことができるのかということでした。

博士課程の 3 年目に、Carlos は私に XGBoost を論文として書くことを提案しました。彼の言葉を借りれば、「読者が何かを学べるような記事を書いてください」ということです。従来の執筆方法とは異なり、各章で提示された視点を検証するために、記事の各章に実験結果を挿入しました。彼の描画アプローチは今では私の習慣になっており、読者の読みの負担を軽減するためにグラフに直接矢印の注釈を挿入しています。何度かの修正を経て、ようやく私たちが望んでいた通りの紙が完成しました。

博士号取得前のディープラーニングに対する後悔から、私は徐々にディープラーニングに再び注目するようになりました。このとき、私はもう一人で戦うのはやめることにしました。博士課程の2年目と3年目に、プロジェクトに興味を持っていた友人たちと協力し、一緒にMXNetプロジェクトを立ち上げました。このプロジェクトはゼロから始まり、わずか 1 年で完全なアーキテクチャが完成しました。みんなで協力すると何ができるのかを初めて知りました。研究の喜びは、論文を発表することだけではなく、他の人に何をもたらすことができるか、もっと大胆に言えば、どのように一緒に世界を変えることができるかということにあります。

博士課程 2 年目の夏休みに、友人の紹介で、イアン・グッドフェローの指導の下、Google Brain でインターンシップをしました。当時、GAN の論文が発表されたばかりで、私は幸運にもイアンの最初のインターンになることができました。インターンシップの開始時に、私たちは対処する必要のある問題について話し合い、イアンと私は可能性のあるプロジェクトのリスクとリターンの曲線を描き、私に選択するように頼みました。最終的に、私はこの曲線の中で最もリスクが高く、最もリターンの高い、自分で提案したトピックを選択しました。私はずっと、生涯学習の機械学習システムを構築し、その中で発生する可能性のある問題を解決するという理想を抱いてきました。この理想はあまりにも漠然としていますが、私たちはその中で、知識の移転という実現可能な小さな目標を考え出そうとしています。機械学習システムがその寿命を通じて学習するには、継続的にデータを収集した後、より広く、より深く学習するためにモデルのサイズを拡大する必要があります。現在の慣行では、モデルが変更された後に元のモデルを放棄して再トレーニングすることしかできず、明らかに十分な効率性がありません。すでに訓練されたネットワークから知識を転送する方法があるかどうかは重要な問題になります。私は最初、知識の蒸留というより明白な方法を試して 1 か月半を費やしましたが、良い結果は得られませんでした。先月、私は考えが変わりました。インターンシップが終了する 1 週間前に、私は Tensorborard に関する最近の一連の実験の結果を開きました。実験では、新しいアイデアが良い効果をもたらしたことが示されました。最後の数ステップでの幸運のおかげで、私のこの冒険は比較的成功した結果に終わりました。この論文は最終的に ICLR で公開され、私のお気に入りの成果の 1 つとなりました。

博士課程の 3 年目に、同僚と私は、線形複雑度よりも低い複雑度でより深いモデルをトレーニングできる、メモリ最適化アルゴリズムを開発しました。私はとても興奮して、その結果を書き留めて、原稿を指導教員に見せました。彼は私にこう言いました。「うーん、この結果を NeurIPS に提出すればポスター賞を受賞するかもしれないが、特に興味深いものではないね。」私が黙っていると、彼はこう付け加えました。「論文は多ければ多いほど良い。逆に、論文の中で最も質の低いものを最適化するように努めた方が良いかもしれません。」結局、私たちは論文を Arxiv に投稿しました。 Carlos の発言は少々極端かもしれませんが (この論文はその後の多くの研究に影響を与えました)、確かに正しいです。Li Mu が以前に述べたことと合わせて要約すると、各論文の品質がほぼ単調に向上することを保証することは、すでに困難なことですが、追求する価値はあります。

何をするかを選択するビジョンは、良い結果を生み出す能力と同じくらい重要です。ビジョンは仕事の影響の上限を決定し、能力はその上限に到達できるかどうかを決定します。私が交通大学にいた頃、アオ・ピン教授は私に、簡単な仕事をするのにも難しい仕事をするのにも、実際には同じだけの時間がかかるのだ、と教えてくれました。なぜなら、最も単純な質問でさえ、些細な側面がたくさんあるからです。何かを得るということは、何かを諦めることを意味します。この場合、常に自分の快適ゾーンから飛び出して、最もワクワクする問題を選ぶようにしてみてはいかがでしょうか。

4年目以降:継続すべきこと

博士課程の3年目に、私は友人たちとGTCに参加しました。パーティーの後、私はラオ・ファンのパーティーの片隅で一人ぼんやりしていました。ディープラーニングフレームワークの開発は計画通り進みましたが、次に何をすればいいのか分からず困惑してしまいました。大学3年生の夏休み、私はインターンシップには行かず、代わりに学校で頭に浮かんだ抽象的な概念「ディープラーニング中間表現」を発展させようと決めました。夏休み明けには、ディープラーニングシステムにおける計算グラフのメモリ最適化を柔軟にサポートできる最初のバージョンを完成させました。しかし、私は常に何かが欠けていると感じています。システムのボトルネックは、依然として最下層に近いオペレータ実装にあります。夏休みが終わってカリフォルニアに向かう飛行機の中で、私は行列の乗算を最適化するために可能なループ変換を紙に描いてみました。帰国後、私たちはより大胆なプロジェクト、つまり自動コンパイルと生成によって機械学習の基礎となるコードを最適化するプロジェクトを進めることにしました。

以前からこのプロジェクトについていくつかアイデアはありましたが、思い切って実行に移す勇気はありませんでした。その理由は、ゼロからスタートし、複数の分野にまたがるという2つの特徴にあります。低レベルのコードを生成し、新しいハードウェアをサポートする必要があるため、既存のオペレーティング システムとドライバーによって以前は隠されていた多くの問題を再解決する必要があります。これは、何もない無人島に城を再建するようなものです。これには、システム、プログラミング言語、アーキテクチャ、機械学習などの分野も含まれます。これは、ACM クラスでコンパイラと MIPS プロセッサをゼロから再構築し、それらを接続した経験を思い出させます。問題を解決するためにさまざまな分野に挑戦することが面白いと感じたのも、この経験のおかげです。この経験から私が受けた2番目の印象は、協力と継承の重要性を理解したということです。このコースは、各コースの講師が前クラスの先輩であるという伝統に基づいて設計されています。各クラスの生徒は、前回のクラスに基づいて改善を図ります。私もこのコースに少し貢献しました。コースが進化するにつれ、単純な防御からオンライン評価付きの OJ へと進化しました。このコースは私たちの協力によって形作られました。新しい機械学習システムを推進し、このコースを形成するには、さまざまなチームの学生間のコラボレーション、十分な時間と忍耐強い注意、そして継続的な改善が必要です。

私の協力者たちもこのプロジェクトに「引き込まれて」いきました。私の建築協力者たちは、常に新しい AI ハードウェアを設計したいと考えており、プロトタイプが完成した後、新しいハードウェアを共同で設計する方法について多くの時間をかけて議論しました。私たちは、オンチップメモリ​​の管理方法、命令セットをより簡単に生成する方法、さらにはメモリの読み取りと書き込み、計算を並行してスケジュールする方法などについて議論し始めました。ある日、私は共同作業者に、メモリの読み取りと書き込みのオーバーヘッドを隠すために仮想スレッドの概念を導入する必要があると話しました。すると彼はすぐに、これがアーキテクチャにおける古典的なハイパースレッディング技術であり、発明者は私たちの部門長である Hank だと教えてくれました。また、私たちは古典的な問題に対する解決策を新しいシナリオに適用することを常に再発見しており、最高のアーキテクチャコースを受講したような気分になっています。

過去 2 年間、重要な技術的問題における多くのブレークスルーが興味深い時期に起こりました。シアトル美術館の無限鏡展の列に並んでいる間に、アクセラレータ メモリ コピーでサポートされた最初のシナリオをスターバックスのナプキンに書きました。その後、プログラミング言語を専攻する学生も参加し続けました。私たちが最も議論しているのは、関数型言語と古典的な計算グラフのバランスをどのように取って、誰もが理解できる中間表現を作るかということであり、この議論は現在も続いています。全員の努力の結果、プロジェクト開始から2年後にようやくTVMの最初の論文が出版されました。 2年間で、プロジェクトに参加する学生の数は2人からチーム、そして新しい研究室とコミュニティへと増えていきました。この2年間は、私にとっても博士課程で最も充実した2年間でした。

私は「国境を越えた」仕事を多くしているので、どの分野に属しているかとよく聞かれます。私は過去6か月間、さまざまな場所でレポートを行ってきました。レポートは次のように始まります。「アルゴリズムのブレークスルー、データの爆発的増加、コンピューティングハードウェアの改善が機械学習の変革を支えており、機械学習システムはこれら3つを統合したものです。」これが私が機械学習システムを構築したい理由です。ある教授が私にこう尋ねたことがあります。「明日、機械学習に革命をもたらすかもしれない新しい化学反応プロセスが生まれたら、あなたはどうしますか?」私はこう答えました。「この化学プロセスの研究と調査に専念します。」遠い将来に何が必要になるかはわかりませんが、それがシステムなのか、アルゴリズムなのか、化学なのか、問題から始めて、あらゆる方法を使って機械学習の問題を最適に解決する、これが私が貫きたい研究スタイルです。

要約する

この要約を書いているとき、心の中ではたくさんの後悔がありました。ディープラーニングに不安を感じていたときに、もっとオープンマインドでいたらどうなっていただろう、インターンシップの最後に実験を完了していなかったらどうなっていただろう、とよく考えます。しかし、現在では、多くの困難や無力感はランダムな変動の一部であるように思われます。十分な時間と忍耐があれば、ランダムなプロセスは、努力に応じて常に安定した状態に収束します。

研究の道は人それぞれ異なり、私の経験はおそらく何百万通りもある道のうちの 1 つに過ぎません。博士課程での経験は、5年以上を自分自身に投資し、自分自身を突破し、不可能だと思っていたことを実現するためのチップとして使うようなものです。どれほど困難で曲がりくねった道であっても、それは人生においてかけがえのないものです。

科学研究は決して一人で行うものではありません。これは特に私にとって当てはまります。交通大学にいた頃、私は若いクラスメートのグループと協力し、推奨システムのアルゴリズムを研究していました。博士課程で私が構築したすべてのシステムは、多くの協力者の努力によって実現しました。現在の成果をもたらしたのも、皆様の共同の努力の賜物です。私自身、この10年間、先生方、同級生、家族からたくさんの励ましと助けをいただきました。この貴重な10年間を与えていただいたことに感謝申し上げます。

<<:  今日の生活における人工知能(AI)の実際的な意義

>>:  95 年以降の DAMO アカデミーのインターン生がマイクロソフトに勝ち、最も難しい NLP タスクの世界記録を更新

ブログ    
ブログ    

推薦する

画像解析アプリケーション向けの大規模サンプルフィルタリングソリューション

画像解析アプリケーションでは、大量の画像サンプルを効果的かつ自動的にフィルタリングすることが重要な基...

キッシンジャー:今やAIは人間が世界を理解するための第3の方法となっている

2023年、ChatGPTは人工知能に対する世界的な注目を集めました。科学界、知識人界、産業界は、A...

2021年に自動運転はどのように発展するのでしょうか?

EEtimesより翻訳2021年に自動運転車はどうなるでしょうか。自動運転業界の昨年の業績は平凡で...

レノボとブラジルのイノベーションセンターCESARは、聴覚障害者が手話を理解できるように人工知能を活用している。

レノボとブラジルのレシフェにある先端研究システムセンター(CESAR)は、聴覚障害者向けに手話を「翻...

クアルコム:米国は自動運転技術の標準化で中国に遅れをとる可能性

[[272354]]画像: この Uber の自動運転車は、米国サンフランシスコでテスト中に信号待ち...

...

AI医薬品製造の全体像を理解するための1つの記事:年間売上高300億元、明確な3つの階層

次々と資金調達を行っているAI医薬品製造は、どれほど人気が​​あるのでしょうか?海外からの最高受注額...

...

中国科学院コンピューティング技術研究所の孫暁明氏:多項式レベルの加速の実現、量子探索アルゴリズムの利点と課題

4月20日、Syncedは「量子コンピューティング」に関するオンライン円卓会議イベントに、中国科学院...

ドキュメントの分類が複雑すぎますか? MITとIBMは協力してこの問題を解決した

[[286340]] 【画像出典:venturebeat オーナー:venturebeat 】この記...

人工知能のコミュニケーション:コンテキストは業界マネージャーにとって成功への道

SymphonyAI のマーケティング責任者として、私は企業における人工知能 (AI) のあらゆるア...

2017 年に注目すべき人工知能の 7 つのホットなトレンド

海外メディアの報道によると、今年の人工知能(AI)の注目トレンドは何でしょうか?業界アナリストの意見...

バイナリ検索アルゴリズムと時間計算量について簡単に説明し、バイナリ検索アルゴリズムを実装する

[[432404]]バイナリ検索は、バイナリ検索アルゴリズムとも呼ばれ、シンプルで理解しやすい高速検...

企業にとって重要なAI技術のトレンド

[[428061]]マッキンゼー・アンド・カンパニーが2020年に実施した人工知能に関する世界的な調...

【WOT2018】不正防止、電力、医療分野におけるAI技術の最先端実践

[51CTO.comより引用] 2018年11月30日から12月1日まで、WOT2018グローバル人...