組合せ最適化問題の背景組み合わせ最適化は、NP 困難な制約付き最適化問題を解決することを目的とした、数学とコンピュータ サイエンスの交差点にある実用的な分野です。 NP 困難問題の課題は、NP 困難問題に対する解決策を徹底的に探すことは現代のコンピュータの限界を超えているため、大規模な NP 困難問題を最適に解決することは不可能であるということです。 なぜこの問題に関心を持つべきなのでしょうか?一般的な問題に対する堅牢で信頼性の高い近似アルゴリズムは、実用上の大きな価値があり、現代産業のバックボーンでもあるからです。たとえば、巡回セールスマン問題 (TSP) は最も一般的な組み合わせ最適化問題 (COP) であり、物流やスケジューリングからゲノミクスやシステム生物学に至るまで、さまざまなアプリケーションで発生します。 巡回セールスマン問題は非常に有名、または非常に難しいため、独自の xkcd コミックさえあります。 TSPとルーティングの問題TSP はルーティング問題の典型的な例でもあります。ルーティング問題とは、一連の制約を満たしたり、一連の変数を最適化したりしながら、一連のノード (都市など) またはエッジ (都市間の道路など) を特定の順序で通過する必要がある COP の一種です。 TSP では、すべてのノードが 1 回訪問されることを保証する順序でエッジのセットを走査する必要があります。アルゴリズムの観点から見ると、営業担当者にとって最適な「移動」ルートは、ハミルトン閉路の最小距離または時間を満たす選択されたエッジのシーケンスです。図 1 を参照してください。 図 1: TSP は次の問題を提起します: 都市のリストと各都市間の距離が与えられた場合、営業担当者が各都市を訪問して出発都市に戻るための最短ルートは何でしょうか? (出典: MathGifs) 現実世界の実際のシナリオでは、ルーティング問題や車両ルーティング問題 (VRP) には、通常の TSP を超える困難な制約が伴う場合があります。たとえば、TSP with Time Windows (TSPTW) は、TSP グラフ内のノードに「時間ウィンドウ」制約を追加します。つまり、特定のノードには一定の時間間隔でのみアクセスできます。もう 1 つのバリエーションである容量制限付き車両ルーティング問題 (CVRP) は、各車両に最大積載量を持たせ、一連の顧客 (都市) を訪問する車両群 (複数の営業担当者) の最適なルートを見つけることを目的としています。 図 2: TSP および関連する車両ルーティング問題のカテゴリ。 VRP の制約は TSP の制約とは異なりますが、この図では比較的よく研究されている制約を示しています。現実の世界では、より複雑で非標準的な制約を伴う VRP のような問題が発生する可能性があります。 (出典:ベンスリマネとベナダダ、2014年より改変) ディープラーニングでルーティング問題を解決するルーティング問題に対する信頼性の高いアルゴリズムとソルバーを開発するには、多くの専門家の直感と何年もの試行錯誤が必要です。たとえば、線形計画法、切断面アルゴリズム、分岐限定問題のための最先端の TSP ソルバーである Concorde は、開発に 50 年以上かかりました。こちらに、その歴史に関する感動的なビデオがあります。 Concorde は最大数万のノードに対して最適解を見つけることができますが、実行時間は非常に長くなります。読者が想像できるように、複雑な VRP のアルゴリズムの設計は、特に混合容量や時間枠の問題などの現実世界の制約の下では、より困難で時間がかかる可能性があります。 その結果、機械学習コミュニティは次の問題に焦点を当て始めました。 ディープラーニングを使用して、COP を解決するために必要な専門家の直感プロセスを自動化したり、専門家の直感を強化したりすることはできますか?より詳しい動機については、Mila によるこのすばらしい調査をご覧ください: https://arxiv.org/abs/1811.06128 ニューラル組み合わせ最適化COP 問題を釘に例えると、ニューラル組み合わせ最適化は、ディープラーニング手法を使用して問題を解決しようとするハンマーであると言えます。トレーニング後、ニューラル ネットワークは問題インスタンス自体から直接学習し、COP のおおよそのソリューションを生成できます。この研究は、Google Brain の画期的な Seq2seq ポインター ネットワークと、ニューラルの組み合わせ最適化に強化学習を使用する論文から始まりました。今日では、グラフ ニューラル ネットワークは、これらの問題に関連するグラフ構造を活用するため、ディープラーニング駆動型ソルバーのコア アーキテクチャの選択肢となることがよくあります。 ニューラル組み合わせ最適化は、以下の方法で従来の COP ソルバーを改善することを目指しています。
ニューラル組み合わせ最適化の手順TSP を典型的な例として、いくつかのルーティング問題に対する最新のディープラーニング主導のアプローチを特徴付けるために使用できる一般的なニューラル組み合わせ最適化手順を提案します。 最先端の TSP メソッドは、都市の元の座標を入力として受け取り、GNN または Transformer を従来のグラフ検索アルゴリズムと組み合わせて使用し、近似ソリューションを建設的に構築します。そのアーキテクチャは、大まかに次の2つに分けられます。(1)段階的にソリューションセットを構築する自己回帰モデル、(2)一度にすべてのソリューションを生成する非自己回帰モデル。モデルは、教師あり学習を通じて、または強化学習を通じて TSP トラバーサルの長さを最小化することによって、最適なソルバーを模倣するようにトレーニングできます。図3: ニューラル組み合わせ最適化の手順(出典: Joshi et al.、2021)。 2021 年に Joshi らによって提案された 5 段階のアプローチでは、主要なモデル アーキテクチャと学習パラダイムを統一されたフレームワークに統合します。このステップにより、ルーティング問題に対するディープラーニングの最近の進展を詳細に分析し、将来の研究を刺激する新たな方向性を提供できるようになります。 最初のステップはグラフを通して問題を定義することです図 4: 問題の定義: TSP は、都市/ノードの完全接続グラフによって定義され、さらにスパース化することができます。 TSP は、ノードが都市に対応し、エッジが都市間の道路を表す完全に接続されたグラフによって定義されます。グラフは、k-nn 最近傍アルゴリズムなどのヒューリスティック アルゴリズムを使用してスパース化できます。これにより、すべてのノードのペアワイズ計算が手に負えない大規模なインスタンスにモデルを拡張したり [Khalil et al., 2017]、検索空間を縮小してより高速に学習したりすることが可能になります [Joshi et al., 2019]。 ステップ2: グラフノードとエッジの潜在空間埋め込みを取得する図 5: グラフ埋め込み: 各グラフ ノードの埋め込みは、各ノードの隣接ノードから特徴を再帰的に集約してローカル構造特徴を構築するグラフ ニューラル ネットワーク エンコーダーを使用して取得されます。 GNN または Transformer エンコーダーは、TSP グラフ内の各ノードとエッジ、またはその 2 つを入力として受け取り、潜在空間表現または埋め込み機能を計算します。各レイヤーでは、ノードは隣接するノードから特徴を収集し、再帰的なメッセージ パッシングを通じてローカル グラフ構造を表します。 L 層を積み重ねた後、ネットワークは L ホップの近傍から各ノードの特徴を構築できます。 Transformers [Deudon et al., 2018、Kool et al., 2019]やGated Graph ConvNets [Joshi et al., 2019]などの異方性および注意ベースのGNNは、エンコーディングルーティング問題のデフォルトの選択肢となっています。近傍集約中の注目メカニズムは、各ノードが、手元のタスクを解決するための相対的な重要性に応じて近傍ノードに重み付けできるようにするため、非常に重要です。 重要なのは、Transformer エンコーダーは、完全に接続されたグラフ、つまり Graph Attention Network (GAT) 上の注意 GNN として見ることができることです。直感的な説明については、このブログ投稿をご覧ください。 ステップ3と4: 埋め込みを離散解に変換する図 5: デコードと検索: 各ノードまたはエッジにソリューション セットに属する確率を割り当て (ここで、MLP は各エッジの予測を行ってエッジ確率の「ヒート マップ」を取得します)、その後、貪欲検索やビーム検索などの離散的意思決定のための従来のグラフ検索手法に変換します。 グラフのノードとエッジが潜在空間表現にエンコードされたら、それらを離散 TSP ソリューションにデコードする必要があります。具体的には、これは 2 段階のプロセスで実行できます。まず、各ノードまたはエッジに確率が割り当てられ、そのノードまたはエッジがソリューション セットに追加されます。これは、独立して (つまり、非自己回帰デコード)、またはグラフ トラバーサルを通じて条件付きで (つまり、自己回帰デコード) 行われます。次に、予測された確率は、確率予測によって導かれる貪欲検索やビーム検索などの従来のグラフ検索手法によって個別の決定に変換されます (グラフ検索については、後で最近の傾向と将来の方向性について説明するときに詳しく説明します)。 デコーダーの選択には、データ効率と実装効率のトレードオフが必要です。自己回帰デコーダー [Kool et al., 2019] は、TSP を Seq2Seq モデルに変換します。つまり、順序付けられていない都市ノードのセットが与えられた場合の順序付けられた観光ルートの言語翻訳タスクです。一度に 1 つのノードを選択することにより、ルーティング問題の順次的な誘導バイアスを明示的にモデル化します。一方、非自己回帰デコーダー[Joshi et al., 2019]は、TSPを周辺確率ヒートマップを生成するタスクとして扱います。 NAR アプローチは、段階的にではなく一度に予測を生成するため、大幅に高速で、リアルタイム推論に適しています。しかし、NARアプローチはTSPの順次性を無視しており、ARデコードに比べてトレーニングの効率が低い可能性があります[Joshi et al.、2021]。 ステップ5: モデルのトレーニング最後に、エンコーダー/デコーダー モデル全体が、コンピューター ビジョンや自然言語処理のディープラーニング モデルと同様に、エンドツーエンド方式でトレーニングされます。最も単純なケースでは、最適なソルバーを模倣することによって(つまり、教師あり学習を通じて)、モデルをトレーニングして、ほぼ最適なソリューションを生成することができます。 TSP の場合、Concrode ソルバーを使用して、何百万ものランダムなインスタンスの最適な移動ルートのラベル付きトレーニング データセットを生成します。 ARデコーダーを備えたモデルは、最適なツアーシーケンスのノードを出力するように教師強制方式でトレーニングされます[Vinyals et al., 2015]。一方、NARデコーダーを備えたモデルは、ツアー中に通過したエッジを未通過のエッジのセットから識別するようにトレーニングされます[Joshi et al., 2019]。 ただし、教師あり学習用のラベル付きデータセットを作成するのは、コストがかかり、時間のかかるプロセスです。特に、大規模な問題インスタンスの場合、最適なソルバーの精度保証が維持されなくなり、教師ありトレーニングのソリューションが不正確になる可能性があります。実践的かつ理論的な観点から見ると、これは理想からは程遠いものです[Yehuda et al., 2020]。 強化学習は、標準的な解決策が不足している、あまり研究されていない問題に対する優れた代替手段となることがよくあります。ルーティング問題では通常、問題固有のコスト関数 (TSP の場合は旅行の長さなど) を最小化するための連続的な決定が必要となるため、報酬関数 (損失関数の負) を最大化するようにエージェントをトレーニングする RL フレームワークに適しています。AR デコーダーを備えたモデルは、標準的なポリシー勾配アルゴリズム [Kool ら、2019] または Q 学習 [Khalil ら、2017] を介してトレーニングできます。 各ステージの成果の簡単な紹介TSP のディープラーニングにおける優れた結果は、5 段階のプロセスで説明できます。手順には(1)問題の定義→(2)グラフの埋め込み→(3)デコード→(4)解の探索→(5)ポリシーの学習が含まれることを思い出してください。以下の表は、Oriol Vinyals 氏とその協力者によって発表されたポインター ネットワークの論文から始まります。赤で強調表示されている部分は、この論文に大きな革新と貢献があることを示しています。 最近の進歩と今後の取り組み統一された 5 段階の手順を使用して、次に、ディープラーニング ルーティング問題における最近の進歩と傾向に焦点を当てます。また、大規模かつ現実世界の例への一般化能力をどのように向上させるかに焦点を当てた、将来の研究の方向性も示します。 等分散と対称性の使用最も影響力のある初期の研究の1つである自己回帰注意モデル[Kool et al.、2019]は、TSPをSeq2Seqで解決できる言語翻訳問題として扱い、TSPの移動シーケンスを都市配置として構築します。この定式化の直接的な欠点は、ルーティング問題の根本的な対称性を考慮していないことです。図 6: 一般に、TSP には一意の最適解 (L) があります。しかし、自己回帰定式化では、解がノードのシーケンスとして表される場合、最適な順列 (R) が複数存在します。 (出典:クォン他、2020年) POMO: 多重最適解による政策最適化 [Kwon et al., 2020] は、建設的な自己回帰定式化において開始都市の不変性を活用することを提案しています。彼らは以前と同じ注意モデルをトレーニングしましたが、違いは、複数の最適なツアー順列を活用する新しい強化学習アルゴリズム (上記の手順のステップ 5) を使用したことです。図 7: 都市座標のユークリッド対称群の TSP ソリューションは、回転、反射、および平行移動後も変化しません。これらの対称性をモデルに組み込むことは、大規模な TSP を解決するための原理的なアプローチとなる可能性があります。 同様に、Ouyangら(2021)は、入力都市座標の回転、反射、および平行移動の不変性(つまり、ユークリッド対称群)を考慮するように注意モデルをアップグレードしました。彼らは、問題定義フェーズ(ステップ 1)でデータ拡張を同時に実行し、グラフ エンコーディング(ステップ 2)中に相対座標を使用することで不変性を保証する自己回帰アプローチを提案しました。 TSPLib データセット上のランダムインスタンスから現実世界へのゼロショット一般化実験では、彼らのモデルが良好な結果をもたらすことが示されています。 今後の取り組みでは、建築設計における Geometric Deep Learning (GDL) の青写真が採用される可能性があります。 GDL では、データまたは問題の対称性と帰納的バイアスを明示的に考慮し、それらを組み合わせるように指示されています。ルーティング問題はユークリッド座標に埋め込む必要があり、ルーティングは循環的であるため、これらの制約をモデル アーキテクチャまたは学習パラダイムに直接組み込むことは、トレーニング中に使用されるものよりも大きな例への一般化を改善するための原則的なアプローチとなる可能性があります。 グラフ検索アルゴリズムの改善もう一つの影響力のある研究方向は、ワンショット非自己回帰グラフ畳み込みネットワーク法です[Joshi et al.、2019]。最近のいくつかの論文では、同じゲート付きGCNエンコーダー(ステップ2)を維持しながら、ビーム検索コンポーネント(ステップ4)を、動的プログラミング[Kool et al.、2021]やモンテカルロツリー検索(MCTS)[Fu et al.、2020]などのより強力で柔軟なグラフ検索アルゴリズムに置き換えることが提案されています。図8: ゲート付きGCNエンコーダー[Joshi et al., 2019]は、TSP、CVRP、TSPTW(透明な赤)のエッジ予測「ヒートマップ」を生成するために使用できます。これらは DP または MCTS によってさらに処理され、ルート (実線) を出力します。 GCN は本質的に、すべての可能なルートを検索するときに処理が困難になる可能性のある複雑な検索アルゴリズムのソリューション検索スペースを削減します。 (出典:クール他、2021年) Fu らが提案した GCN + MCTS フレームワークには、小さな TSP 問題でモデルを効果的にトレーニングし、学習したポリシーをゼロショット方式でより大きなグラフに正常に転送できる非常に興味深いアプローチがあります (Joshi らが最初に検討した GCN + ビーム検索アプローチに似ています)。問題定義を更新することで (ステップ 1)、TSP が小規模から大規模にスケールするときに GCN エンコーダーの予測が適切に一般化されることを保証します。つまり、より大きな問題インスタンスは、GCN トレーニング グラフと同じサイズの多数の小さなサブグラフとして表現され、その後、MCTS を実行する前に GCN のサイド予測がマージされます。図9:GCN + MCTSフレームワーク[Fu et al., 2020]は、大規模なTSP問題を、トレーニングに使用されるGCNグラフと同じサイズの小さなサブグラフのセットとして表現します。 GCN によって予測されたサブグラフのエッジ ヒート マップをマージすることで、元の画像のヒート マップを取得できます。この分割統治アプローチにより、GCN の埋め込みと予測が、より小さなインスタンスからより大きなインスタンスまで適切に一般化されることが保証されます。 (出典:Fu et al.、2020) この分割統治戦略は、もともと Nowak らによって 2018 年に提案されたもので、GNN の埋め込みと予測が小規模な TSP インスタンスから大規模な TSP インスタンス (最大 10,000 ノード) まで適切に一般化されることを保証するものです。 GNN、分割統治法、検索戦略を組み合わせて、最大 3,000 ノードの大規模な CVRP 問題を処理することも可能です。 [Li et al., 2021]。 全体として、この研究は、モデルのニューロンの設計とシンボリック/検索コンポーネント間のより強い結合が、分布外一般化にとって重要であることを示唆しています[Lamb et al.、2020]。ただし、GPU でのグラフ検索の実装は高度にカスタマイズ可能で並列化されており、新しい問題ごとに課題となる可能性があることにも留意する必要があります。 最適ではない解決策を改善する方法を学ぶ最近では、2019 年の Chen らの研究や 2021 年の Wu らの研究を皮切りに、多くの論文で、(最適ではない)ソリューション学習の反復的な改善や局所探索学習など、構成的 AR および NAR ソリューションの代替案が検討されています。その他の注目すべき論文としては、Cappart et al., 2021、da Costa et al., 2020、Ma et al., 2021、Xin et al., 2021、Hudson et al., 2021 などがあります。図 10: ローカル検索アルゴリズムで決定を導くことによって、最適ではない TSP ソリューションを改善するように学習するアーキテクチャ。 (a) オリジナルのTransformerエンコーダー/デコーダーアーキテクチャ[Wu et al., 2021]。正弦波位置エンコーディングを使用して、現在の次善のツアー配置を表します。(b) Ma et al., 2021は、対称性の問題をさらに改善し、TSPツアーの周期的な性質を捉えることができる学習可能な位置エンコーディングを備えた2エンドTransformerエンコーダー/デコーダーです。(c) 正弦波および周期的な位置エンコーディングの視覚化。 これらすべての研究において、ディープラーニングは古典的なローカル検索アルゴリズム(問題のサイズに関係なく機能するように設計されている)での決定を導くために使用されているため、このアプローチは、構成的な方法と比較して、より大きな問題インスタンスへのより優れたゼロショット一般化を暗黙的につながります。実際には、非常に大規模な TSP インスタンスや現実世界の TSP インスタンスでのトレーニングは扱いにくい場合があるため、これは非常に望ましい特性です。 特に、NeuroLKH [Xin et al., 2021]は、GNNによって生成されたエッジ確率ヒートマップを使用して、古典的なLin-Kernighan-Helsgaunアルゴリズムを改良し、5000ノードのTSPとTSPLibデータセットのインスタンス全体で強力なゼロショット一般化機能を実証しています。 この研究の限界の 1 つは、事前に手作業で設計されたローカル検索アルゴリズムが必要であり、新しい問題や十分に研究されていない問題には不十分な可能性があることです。一方、構成的アプローチは、デコードおよび検索プロセス中に制約を強制することにより、新しい問題に対してより適応性が高くなると言えます。 一般化を促進する学習パラダイム今後の研究では、教師あり学習や強化学習を超えた一般化に明示的に焦点を当てた新しい学習パラダイム (ステップ 5) を検討することができます。たとえば、Hottaung ら (2020) は、ルーティング問題に対するソリューションの連続空間を学習するためのオートエンコーダの目的を調査し、Geisler ら (2021) は、敵対的摂動に対して堅牢になるようにニューラル ソルバーをトレーニングしました。 現在、ほとんどの論文では、非常に小さなランダム TSP でモデルを効率的にトレーニングし、学習したポリシーをゼロショット方式でより大きなグラフや実際のインスタンスに転送することを提案しています。論理的に次のステップは、少数の問題固有のインスタンスでモデルを微調整することです。 Hottung et al., 2021 は、アクティブ検索を通じて特定の問題インスタンスごとにモデルパラメータのサブセットを微調整することを提案することで、2021 年に最初の一歩を踏み出しました。今後の研究では、新しいデータ分布や問題に素早く適応できるモデルパラメータをトレーニングすることを目標としたメタ学習問題として微調整を探求することが興味深いかもしれません。 探求できるもう 1 つの興味深い方向性は、TSP や CVPR などの一般的なルーティング問題に対するマルチタスク事前トレーニングと、それに続く問題固有の微調整によって、困難な制約を伴う十分に研究されていないルーティング問題を解決することです。自然言語処理における事前トレーニングの目標としての言語モデリングと同様に、ルーティングの事前トレーニングの目標は、新しいルーティング問題にうまく移行できる、一般的に有用な潜在的表現を学習することです。 改善された評価プロトコルアルゴリズムの革新に加えて、コミュニティは、現実世界のルーティング問題と産業実装の進歩を推進できる、より現実的な評価プロトコルを繰り返し求めてきました[Francois et al.、2019、Yehuda et al.、2020]。最近、Accorsi et al., 2021 は、実験設計と従来のオペレーションズリサーチ (OR) 手法との比較に関する権威あるガイドラインのセットを提供しました。彼らは、標準化されたベンチマークによる公正かつ厳密な比較が、ディープラーニング技術を産業用ルーティングソルバーに統合するための第一歩となることを期待しています。 全体的に、最近の論文では、小さなランダム TSP インスタンスでわずかなパフォーマンスの向上が示されているだけでなく、TSPLib や CVPRLib などの実際のベンチマーク データセットも採用されていることは喜ばしいことです。このルーティング問題のコレクションには、世界中の都市や道路網のグラフとその正確な解が含まれており、OR コミュニティの新しいソルバーの標準的なテストベッドとなっています。 同時に、他の論文で使用されている上位 n 個の TSPLib または CVPRLib インスタンスに「過剰適合」してはなりません。したがって、より優れた合成データセットは公平なベンチマークの進歩と密接に関連しています。たとえば、Queiroga et al.、2021 (https://openreview.net/forum?id=yHiMXKN6nTl) は最近、10,000 個の合成 CVPR テスト例の新しいライブラリを提案しました。 図 11: ML4CO などのコミュニティ コンペティションをフォローすることは、研究の進捗状況を追跡する効果的な方法です。 (出典: ML4CO ウェブサイト) NeurIPS 2021 の ML4CO コンペティションや IJCAI 2021 の AI4TSP など、新たに構築された現実世界のデータセットでの定期的なコンペティションも、ディープラーニングとルーティング問題の交差点における進捗状況を追跡する効果的な手段です。 ML4CO、NeurIPS 2021 の貴重なパネルディスカッションや講演を YouTube で公開することを強くお勧めします。 要約するこのブログ記事では、ディープラーニングに関する最近の論文を 1 つのフレームワークに統合する一連のニューラル組み合わせ最適化手順を紹介します。次に、このフレームワークを通して、最近の研究の進歩を分析・分析し、将来の研究の方向性を予測します。 最後に、ニューラル組み合わせ最適化の根本的な動機は、十分に研究されたルーティング問題において従来の方法よりも優れたパフォーマンスを発揮することではないかもしれません。ニューラル ネットワークは、これまで遭遇したことのない NP 困難な問題、特にヒューリスティック アルゴリズムの設計が容易ではない問題を解決するための一般的なツールとして使用できます。私たちは、コンピュータ チップの設計、通信ネットワークの最適化、ゲノム再構築におけるニューラル組み合わせ最適化の最近の応用を高く評価しており、将来さらに価値ある応用が生まれることを期待しています。 |
<<: 時間ステップを100倍短縮すると、従来のニューラルネットワークと同等の精度を実現:上海交通大学などがANN-SNN変換フレームワークSpikeConverterを提案
>>: 機械学習の再考: 人工知能はどのようにして「記憶を失う」ことを学ぶのか?
最近、Amazon One の研究者は、生成された画像を明示的に制御できる GAN をトレーニングす...
「新インフラ」の7つの主要分野の一つとして、人工知能は政策推進と産業成熟度の大幅な向上の恩恵を受け、...
年を追うごとに、機械学習用のライブラリはより高速かつ使いやすくなっています。 Python は長い間...
Googleアシスタントは生成AIへの変革を遂げる写真社内メールでは、Google が ChatG...
BGR によれば、注射針に対する恐怖は人口の少なくとも 10% を悩ませており、あらゆる種類のワクチ...
この記事を通じて、ML でよく使用されるアルゴリズムについて常識的に理解することができます。コードや...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工知能と機械学習は長い間私たちの世界を変えてきましたが、2020年のコロナウイルスのパンデミックは...