この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 大規模なデータを効率的にトレーニングする方法は、機械学習システムが直面する重要な課題です。 今日のインターネット時代では、何十億ものユーザーが毎日何百億ものデータを生成しています。 AI 錬金術の根底にある燃料として、これらの膨大な量のデータは非常に重要です。ただし、トレーニング データとモデルのサイズが大きくなるにつれて、マシン間の通信コストが高くなり、機械学習システムではレイテンシが高くなり、負荷が低くなることがよくあります。 2004年にGoogleは、大規模データをネットワーク上の各ノードに分散することで1TBを超える計算能力を実現する並列アルゴリズムMapreduceを初めて提案しました。その後、AI 科学者の Li Mu 氏は、非同期かつスケーラブルなパラメータ サーバー アルゴリズムを提案し、大規模データの分散トレーニングの問題を基本的に解決しました。 しかし近年、BERTに代表される事前学習モデルのサイズは限界を突破し続けています。数百万、あるいは数億ものパラメータを持つ超大規模モデルでは、従来の分散型機械学習システムを効率的に運用することがますます困難になっています。これを踏まえて、業界では一般的に、分散型トレーニング方法が次の「最適なソリューション」になると考えています。 陸宇成氏はAI Technology Reviewに対し、機械学習の応用がますます多様化するにつれ、「中央ノードへの過度の負荷」「フォールトトレランスの低さ」「データセキュリティ」などの問題など、集中型分散システムの限界がますます明らかになるだろうと語った。ノード間のプロトコルが適切に設計されていれば、分散型アルゴリズムによってシステムの堅牢性が大幅に向上します。 Yucheng Lu 氏はコーネル大学のコンピューターサイエンスの博士課程の学生で、ランダム化アルゴリズムと並列アルゴリズムに重点を置いた大規模な機械学習システムを研究しています。最近、彼が発表した「分散型トレーニングにおける最適な複雑性」と題した研究論文が、ICML 2021 優秀論文佳作賞を受賞しました。 この論文では、主に分散型アルゴリズムの理論的限界について研究しました。D-PSGD(ロチェスター大学のJi Liuチームが提案)やSGP(Facebook AI Labが提案)などの古典的なアルゴリズムを体系的に分析することで、ランダムな非凸環境における反復複雑度の最適な下限を導き出し、さらにDeTAGアルゴリズムを提案して、理論的な下限が達成可能であることを証明しました。 ICML組織委員会は、この研究成果が分散機械学習システムの理論レベルでの開発を促進したことに満場一致で同意しました。 1 分散化: 機械学習システムの最適なソリューション 「メディアではNLPなどの人気分野ほど有名ではありませんが、『大規模モデルの改良』というトレンドに後押しされて、分散化は機械学習システムの分野で注目の研究方向になっています。」陸宇成は言った。 分散化は新しい概念ではありません。金融、モバイルインターネット、クラウドコンピューティングなどの分野では長い間広く使用されてきました。人工知能の分野では、ここ 5 年間で徐々に導入されてきました。たとえば、金融サービスで使用されるブロックチェーン技術は分散化の概念を採用しており、コンピュータネットワークの負荷と容量を最適化するために使用されるピアツーピアトポロジも分散化の考え方に依存しています。 機械学習システムでは、集中化とは、1 つのノードがすべてのコンピューター マシン間のデータのやり取りと同期を管理することを意味します。一方、分散化では、すべてのノードが平等であることを強調し、いずれかのノードを中心に集中型の設計は行いません。実験では、異なるノード間の情報相互作用により、集中型の相互作用と同様の効果が得られ、ロスレスのグローバル モデルをトレーニングできることが示されています。 2017 年に Google がリリースした FedAvg アルゴリズムは、典型的な分散型連合学習アーキテクチャです。中央ノードをサーバーとして使用し、各ブランチ ノードをローカル クライアントとして使用します。その動作モードは、ローカル データを使用して各ブランチ ノードでモデルをトレーニングし、トレーニングされたモデルを中央ノードにマージして、より優れたグローバル モデルを取得することです。 ユーザーが情報を外部に送信する必要なくモバイル データをローカルでトレーニングすることは、データ レイヤーの分散化の典型的なアプリケーションです。分散型機械学習システムは、データ、アプリケーション、プロトコル、ネットワーク トポロジなどのさまざまなレイヤーで構成されるスタック構造として考えることができます。 これらのレイヤーは、さまざまな分散設計を通じてさまざまなアプリケーション シナリオに適応できます。 D-PSGD は、拡張確率的勾配降下法 (SGD) の最も基本的なアルゴリズムの 1 つであり、プロトコル層に適用される典型的な分散型アルゴリズムでもあり、線形並列加速を実現できます。 学術界では成熟した分散型アルゴリズムがいくつか存在しますが、産業レベルの分散型システムの実装はまだ初期段階にあります。 Facebook の Pytorch、Google の TensorFlow、Amazon の MXNet などの従来の機械学習フレームワークでは、依然として Parameter Server や AllReduce などの集中型ソリューションが使用されていますが、Openmined などの一部のスタートアップでは、すでに機械学習システムの一部として分散化を取り入れています。 Lu Yucheng 氏は、今後数年間で、さまざまなレイヤーでの分散設計が、さまざまなシナリオでの機械学習/ディープラーニングの応用を拡大する上で重要な要素になると考えています。これには3つの理由があります。 1. データセンターおよびクラスターモデルのトレーニングでは、分散設計により優れたフォールトトレランスと堅牢性が提供され、異なるマシン間の帯域幅要件が削減されます。 2. 分散化により、より多くのシナリオで AI が可能になります。たとえば、近年開発が進んでいる端末デバイス学習は、アプリケーション層の分散化の典型的な設計です。 3. 分散化では、分散システムの分野におけるプロトコル層とセキュリティに関する研究が盛んに行われており、機械学習の分野での発展の理論的基礎が築かれています。 既存の研究結果から判断すると、Lu Yucheng 氏は、D-PSGD に類似した多くの分散アルゴリズムは、特にランダムな非凸環境において、収束速度に関して理論的なギャップがまだ残っており、反復複雑度の限界は依然として不明であると考えています。この問題に関する彼の議論は、ICML 2021 優秀論文賞にノミネートされ、機械学習システムの理論的発展に貢献しました。 2 理論上の下限: 反復複雑性の限界 論文アドレス: https://arxiv.org/abs/2006.08085 この論文では、Lu Yucheng 氏のチームが、分散型分散システムの最適な理論上の下限値を提示し、その下限値が DeTAG アルゴリズムと DeFacto アルゴリズムによって達成可能であることを証明しました。 通信の複雑さとネットワークの遅延は、トレーニング中の機械学習モデルの効率を測定するための重要な指標です。これらは、動作中の分散システム内の各ノードの反復回数と収束速度を示します。下限は、この反復複雑さの理論上の限界、つまり、分散システムが任意のタスクを処理するために必要な反復の最小回数を表します。 Lu Yucheng 氏の見解では、あらゆる最適なアルゴリズムの設計には理論的な下限値のガイダンスが必要です。 「下限の指針がなければ、既存のアルゴリズムの改善の余地がどこにあるのかは実際にはわかりません。限界を明確に定義し、それに絶えず近づくことによってのみ、最適に近いアルゴリズムを設計することができます。」このため、この研究論文では、機械学習システムの最適化における理論的な革新に重点を置いています。 DeTAG アルゴリズムは、アプリケーション層、プロトコル層、ネットワーク トポロジ層を含むスタック構造です。 Lu Yucheng 氏は、アルゴリズム設計プロセスで、勾配追跡、段階的通信、加速ゴシップ プロトコルなどの一般的な分散化技術を使用したと紹介しました。 これらの技術に基づく最大の貢献は、最適な理論的下限の発見と、分散アルゴリズムの複雑さを分析するための理論的枠組みの提案です。 実験により、DeTAG アルゴリズムは理論上の下限に到達するために 1 つの対数区間のみが必要であることが示されています。論文では、Lu Yucheng 氏のチームが、画像分類タスクにおいて DeTAG を D-PSGD、D2、DSGT、DeTAG などの他の分散アルゴリズムと比較しました。その結果、特に異種データとスパース ネットワークでは、DeTAG の収束速度がベースライン アルゴリズムよりも速いことがわかりました。 1. 異種データの収束 多くのアプリケーション シナリオでは、ノード間のデータは同じ分布に従わないことがよくあります。実験では、異なるノード間のデータが完全に均質な場合、D-PSGD の収束速度がわずかに遅いことを除いて、他のアルゴリズムはほぼ同じでした。異なるノード間のデータの均質性が 50% ~ 25% の場合、DeTAG アルゴリズムが最も速く収束しますが、D-PSGD はハイパーパラメータを微調整しても収束できません。データの均質性がゼロの場合、DSGT は D2 よりも安定したパフォーマンスを実現します。 注: 0%、25%、50%、100% は、それぞれ異なる均質性の度合いを表します。 2. 異なるスパース性を持つ通信ネットワークにおける収束 ベースラインと比較すると、DeTAG はさまざまな制御パラメータ (κ = 1、0.1、0.05、0.01) でより速い収束速度を示します。さらに、ネットワークがスパースになると、つまりパラメータ K が減少すると、DeTAG はより堅牢な収束を示します。 Lu Yucheng氏は、DeTAGアルゴリズムは、異なるノード間の通信プロセスを最適化することで、ある程度の負荷分散を実現し、システムの耐障害性を向上させると述べました。同時に、分散型機械学習システムの最適化における分散型アルゴリズムの可能性も検証します。機械学習の範囲はクラウドや大規模クラスターに限定されなくなり、より広範囲のより多くの端末データに適合できるようになります。 3 ICML受賞者 Lu Yucheng さんは、コーネル大学コンピューターサイエンス学部の 3 年目の博士課程の学生で、Chris De Sa 教授の指導を受けています。主な研究は、システムパフォーマンス、通信圧縮、分散化、サンプリングアルゴリズムなどに焦点を当て、分散機械学習システムを最適化する方法です。 博士課程在学中にトップクラスの学術会議、特に ICML、CVPR、ACL などの主流の会議で賞を受賞することは、学生にとって稀なことです。機械学習分野で最も人気のあるトップカンファレンスである ICML 2021 には、合計 5,513 件の有効な投稿があり、そのうち 1,184 件が採択されましたが、採択率はわずか 21.48% でした。 この会議では、優秀論文賞 1 件と優秀論文佳作賞 4 件が授与され、その中で Lu Yucheng 氏 (第一著者) が中国人博士課程学生として唯一この賞を受賞しました。この賞を受賞したもう一人の中国人学者は、FacebookのAI科学者である田元東氏だ。 陸宇本は上海交通大学で学士号を取得し、その後コーネル大学に進学して博士号を取得しました。博士号を取得した後、彼の研究は分散型アルゴリズムに焦点を当て始め、より挑戦的で影響力のあるトピックに取り組み始めました。マイクロソフトと AWS AI ラボでのインターンシップ中、彼はサンプリングと通信圧縮の観点から分散トレーニングアルゴリズムを最適化する方法を探りました。 一般的に、博士研究は、科学的研究への自信を養い、その後の研究のための経験を徐々に積み重ねるために、小さく具体的なテーマから始めるのが適しています。最初に人気の分散型アルゴリズムを選んだ理由について、Lu Yucheng氏は、個人的な観点から、自信をつけるために、最初の論文をシンプルで作成しやすい研究から始めることが非常に必要であるが、同時に、意識的に研究の難易度を段階的に上げ、問題の主流を拡大する必要があると述べました。 さらに、コンピューター ビジョン、自然言語処理、その他の業界志向の研究とは異なり、最適化アルゴリズムの分野での研究は通常、基礎理論に重点を置いています。産業界と学術界の研究ニーズは異なります。理論的なレベルに加えて、いくつかのトピックは非アルゴリズム的な観点からも検討できます。 |
>>: ドローンによる空中撮影は野生の人々に迷惑をかけている、問題解決の鍵はここにある
かつて Computer World 誌は、「プログラミングは 1960 年までに消滅する」という記...
[[322374]]人間の認知能力のあらゆる特性を見てみましょう。まず、Fleishman の 21...
人工知能 (AI) は今日の産業情勢を変えています。 エンタープライズ ソフトウェアから機械の自動化...
ハイパースケーラーとクラウド プロバイダーがインフラストラクチャの計画を検討する場合、まず全体的な動...
最近では、HBase ベースの製品の読み取り速度と書き込み速度に対する要件がますます高まっています。...
人工知能 (AI) と機械学習 (ML) は成長サイクルのピークにあるかもしれませんが、だからといっ...
2020年、ピーター・スコット・モーガン博士はインターネットで話題になりました。人気の検索タイトル...
数日前、NeurIPS 2023 は受賞論文を発表し、その中で 10 年前の NeurIPS 論文「...
顔認識技術の賛否は議論の余地がある。多くの利害関係者は利点を強調したが、批評家は欠点も指摘した。顔認...
顔認識、音声認識、自動運転などが注目されるようになり、人工知能(AI)と社会や人間の生活の融合が急速...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
上海市は7月に「史上最も厳しいゴミ分別措置」を実施し始めて以来、ゴミ分別は多くの人々の日常生活におけ...