アリババ、世界初のバッチおよびストリーミング統合機械学習プラットフォーム「Alink」をオープンソース化。Blinkの機能はすべてFlinkに提供

11月28日、北京国家会議センターでFlink Forward Asia 2019が開催されました。この会議で、アリババはFlinkバージョン1.10の機能のプレビューを公開し、Flinkに基づく機械学習アルゴリズムプラットフォームであるAlinkが正式にオープンソース化されたことを発表しました。これは世界初のバッチとストリームを統合したアルゴリズムプラットフォームでもあり、アルゴリズム開発の敷居を下げ、開発者が機械学習のライフサイクル全体を習得できるようにすることを目指しています。昨年のFlink Forward China Summitで、アリババはFlinkの内部ブランチであるBlinkをオープンソース化し、アリババの内部Flink最適化作業のすべてをオープンソースコミュニティに公開すると発表し、期待と疑念が入り混じる業界で白熱した議論を巻き起こしました。 1年経った今、アリババは昨年の約束を果たしたのだろうか？ Blink の合併はどのように進んでいますか?新しくオープンソース化された Alink アルゴリズムプラットフォームの独自の機能は何ですか? AI Frontは、カンファレンスで、アリババのシニア技術専門家であり、リアルタイムコンピューティングの責任者である王鋒（愛称はモ・ウェン）氏に独占インタビューを行いました。Flinkの最新の変更点と、アリババがFlinkに基づいて達成した新しい仕事の成果を見てみましょう。

アリババは2019年1月以降、社内でメンテナンスしていたBlinkを徐々にFlinkオープンソースコミュニティに提供しており、提供されたコード数は現在100万行を超えています。テンセント、バイドゥ、バイトダンスなどの国内企業、Uber、Lyft、Netflixなどの海外企業もすべてFlinkのユーザーです。

今年8月にリリースされたFlink 1.9.0は、アリババの社内バージョンであるBlinkがFlinkに統合されてからリリースされた最初のバージョンです。本日のFlink Forward 2019カンファレンスで、アリババはFlink 1.10の機能のプレビューを公開しました。正式版は2020年1月にリリースされる予定です。

Flink 1.10 機能プレビュー: Blink のすべての機能が Flink に搭載されました

Flink 1.10 は、比較的重要なマイルストーンバージョンとみなすことができると報告されています。この時点で、Blink のより重要な設計と一般的な最適化を含め、すべての Blink 機能が Flink に組み込まれています。以下は、このバージョンに含まれる主な機能と技術的なハイライトのプレビューです。

Blink/Flinkの完全な統合

1. より強力なBlinkクエリプロセッサ

テーブル作成ステートメントで計算列とウォーターマークの定義をサポートする DDL 拡張機能
生産レベルのバッチサポート、TPC-HおよびTPC-DSテストセットを完全にサポート。TPC-DS 10TのパフォーマンスはHive3.0の7倍です。

2. より柔軟なバッチスケジューリング戦略をサポートするためにスケジューラの再構築を完了する

3. より完全で、きめ細かく、柔軟なリソース管理

TaskExecutor のメモリモデルは、RockDB メモリの構成と制御の難しさや、TM 起動前後のメモリ計算の不一致など、長年の課題を解決するために整理されました。
メモリ計算ロジックの簡素化と構成の難しさの軽減
オペレータレベルのリソース使用をより高度に管理することで、オペレータリソースの過剰使用によって生じるパフォーマンスと安定性の問題を解決し、リソース利用効率を向上します。

Hive互換製品が利用可能

メタ互換、Hiveカタログの直接読み取りをサポート、バージョンは1.x、2.xから3.xまでをカバー
データ形式の互換性: Hive テーブルの直接読み取りと Hive テーブル形式への書き込みをサポート
UDF 互換性、Flink SQL で Hive UDF、UDTF、UDAF を直接呼び出すことをサポート

より強力なPythonサポート

NativePython UDFのサポートが追加され、ユーザーはPythonで独自のビジネスロジックを開発できるようになりました。
Python ライブラリの依存関係管理を非常によくサポートします。Python ユーザーは、Python UDF をカスタマイズできるだけでなく、他の既存の Python ライブラリと統合することもできます。
アーキテクチャには BeamPortability Framework が導入されました。Flink と Beam コミュニティが共同で、便利な機能と優れたパフォーマンスを備えた Python UDF サポートフレームワークを作成しました。
Flinkリソース管理フレームワークと統合して、Python UDFリソースの管理と制御を実装します。

ネイティブK8S統合をサポート

ネイティブリソース管理は、外部システムやコンポーネントに依存せずに、ジョブのリソース要件に基づいてTaskManagerに動的に適用できます。
タスクの送信がより便利になり、kubectlなどのツールをインストールする必要がなくなり、Yarnと同様のエクスペリエンスを実現できます。

複数の主流の機械学習アルゴリズムライブラリを追加

ロジスティック回帰、ランダムフォレスト、KMeans などを含みます。

AI Frontline: バージョン 1.10 では、Blink のすべての機能が Flink に統合されました。これは、Blink が Flink に組み込まれた最初のバージョンリリースでもあった前回のリリース 1.9 からわずか 3 か月後のことです。また、昨年 Alibaba が Blink をオープンソース化すると発表してから、わずか 1 年が経過しました。 Blink の Merge の進行がなぜこんなに速いのでしょうか?プロセス中にどのような問題が発生しましたか?どうやって解決しましたか？

Mo Wen: これを実現するために、数十人の技術者を含む多くのリソースを投入しました。並列度も比較的高いため、比較的短期間で最大 150 万行のコードを提供することができました。

AI フロントライン: プロセス全体を通して、難しい問題に遭遇しましたか?

Mo Wen: コミュニティは比較的オープンで透明性のある場所です。自分のプロジェクトのように自由に変更できるものではありません。コミュニティでの議論、全員の承認、コードの品質の確保など、民主的なプロセスを経る必要があります。コミュニティに対する品質と公平性を確保しながら迅速に前進する必要がありますが、これは大きな課題です。

AI Frontline: では、この 2 つのバランスをどのように取るのでしょうか?

Mo Wen: Flink コミュニティ全体の協力モデルは比較的効率的です。コミュニティ内のさまざまなモジュールの責任者が毎週ビデオ会議を開催し、さまざまな国のコミュニティの議論が行われることもあります。これらは非常に効率的に行われ、プロジェクト管理も非常にうまく行われています。このメカニズムの保証により、反復の速度を確保しながらコードをすばやく入力できます。実際、これはエンジニアリング効率の向上にとっても大きな課題です。率直に言うと、私たちはこれを実現するために多くの技術者を投入してきましたが、量だけを見ているわけではありません。私たちが投資した人の多くは、単なるエンジニアではなく、Apache プロジェクトの PMC やコミッターです。これらの人は、Apache プロジェクトの動作メカニズムやプロセスに精通しており、その効率性や運用能力は 1 人で測ることはできません。これがコミュニティの本質です。人数の問題ではなく、適切な人材も必要です。

AI Front: 今朝のスピーチで、Flink が真の統合エンジンになりつつあるとおっしゃっていましたね。興味深いことに、最近、さまざまなコンピューティングエンジンから同様の発言が何度も聞かれます。たとえば、Spark のコアコンセプトは「統合データ分析プラットフォーム」になることです。Flink の設計コンセプトについてお話しいただけますか?両者の統一における類似点と相違点は何でしょうか?

Mo Wen: 私たちは Flink のコアコンセプトを何度も強調してきました。その本質的なコンピューティングのアイデアは、ストリーム処理の核心です。ストリーム処理の核心は、すべてがストリームに基づいて処理され、バッチは有限のストリームとみなせることです。今日言及したオンラインステートフル関数と同様に、これもイベント駆動型です。すべてのイベントは継続的に関数計算に入り、オンラインステートフル計算を実行し、結果をユーザーに提供し、継続的に反復します。実際、オンラインサービスも無制限であり、処理が停止することはありません。常に人々がアクセスして処理していることになります。 Flink のコアはストリームコンピューティングに基づいており、オフラインとオンラインの両方をカバーしているため、Spark とは異なります。 Spark ではすべてがバッチに基づいていると考えられていますが、ストリームは無数のバッチがまとめられたものであり、これは少し異なります。

しかし、誰もが抱くマクロビジョンは似ており、それは、一連のコンピューティングエンジン技術やビッグデータ処理技術を使用して、できるだけ多くのシナリオを解決することです。これにより、学習コストが削減され、開発効率が向上し、ユーザーの観点からは運用および保守コストが削減されます。つまり、全員の目標やアイデアは同じですが、その目標を達成するための方法の選択は異なります。

AI Frontline: 以前、Databricks のエンジニアに次のような質問をしましたが、今日もお聞きしたいことがあります。私が統合プラットフォームを構築したいと思っていて、あなたも統合プラットフォームを構築したい場合、最終的に誰が誰を本当に統合できるのかという疑問が生じますか?

モー・ウェン：私たちが何をしても、必ずしも成功や良い結果につながるとは思いません。私の個人的な見解としては、テクノロジーには、お互いに学び合えるよう、ある程度の健全な競争がまだ必要です。同時に、すべての道はローマに通ずるもので、どれか 1 つの道が絶対的に正しいという保証はありません。シナリオが異なれば、特定の領域で好みやニーズが異なり、異なるシナリオに適応することもあります。データベース分野でMySQLやPostgreSQLなどがあるように、似たような問題を解決するために2～3社が共存するのは健全です。オンラインサービスでも同様です。少なくとも2社以上の大企業が一緒に競争する方が適切です。しかし、結局のところ、どちらが優れているかは、自分の理論を極限まで推し進めることができるかどうかによって決まります。理論は理論なので、あなたの理論と私の理論は異なって聞こえるかもしれませんが、最終的に誰が勝つかは、ユーザーエクスペリエンスを含む詳細によって決まります。重要なのは、全員が同じ考えを持っていて違いがないかどうかではなく、正しい方法で実行しているかどうか、細部が十分に行われているかどうかです。群集生態学の詳細と発展と進歩が重要です。

オープンソースの Alink: Flink 機械学習の進歩は?

機械学習分野におけるFlinkの進歩は、常に多くの開発者の注目を集めてきました。今年、Flinkは小さなマイルストーンを迎えました。機械学習アルゴリズムプラットフォームAlinkがオープンソース化され、Flinkが正式にAI分野に参入したことも発表されました。

Alink オープンソースプロジェクトリンク: https://github.com/alibaba/Alink

Alinkは、リアルタイムコンピューティングエンジンFlinkをベースに、2017年からアリババの機械学習アルゴリズムチームによって開発された新世代の機械学習アルゴリズムプラットフォームです。豊富なアルゴリズムコンポーネントライブラリと便利な操作フレームワークを提供します。開発者は、データ処理、特徴エンジニアリング、モデルトレーニング、モデル予測を含むアルゴリズムモデル開発プロセス全体をワンクリックで構築できます。バッチアルゴリズムとストリーミングアルゴリズムの両方をサポートする業界初の機械学習プラットフォームである Alink は、Python インターフェイスを提供し、開発者が Flink の技術的な背景がなくてもアルゴリズムモデルを簡単に構築できるようにします。 Alink という名前は、関連する名前 (Alibaba、Algorithm、AI、Flink、Blink) の共通部分から取られています。

Alinkは、検索、レコメンデーション、広告など、アリババのコアリアルタイムオンラインビジネスで広く使用されていると報告されています。先日終了した天猫双十一では、1日のデータの処理量は970PBに達し、ピーク時のデータ処理速度は1秒あたり25億アイテムに達しました。 Alink は、超大規模リアルタイムデータトレーニングのテストに成功し、CTR (商品クリック率) を 4% 向上させることに貢献しました。

AI Frontline: まず、FlinkML と Alink の概要と、両者の関係性について紹介していただけますか?

Mo Wen: FlinkML は、Flink コミュニティの既存の機械学習アルゴリズムライブラリのセットです。このアルゴリズムライブラリは長い間存在しており、比較的ゆっくりと更新されています。 Alink は新世代の Flink に基づいており、完全に書き直されています。FlinkML とのコード関係はありません。 Alink は Alibaba のビッグデータチームによって開発され、Alibaba 内で使用されていました。現在、正式にオープンソース化されています。

将来的には、Alink のアルゴリズムが徐々に FlinkML のアルゴリズムに取って代わることを期待しています。おそらく Alink は FlinkML の次世代バージョンになるでしょう。もちろん、置き換えには比較的長いプロセスがかかります。 Alink には多くの機械学習アルゴリズムが含まれており、Flink に寄与または公開する際には比較的大きな帯域幅が必要になります。全体のプロセスに時間がかかることが懸念されるため、まずは Alink を別途オープンソース化します。必要な場合は、まずはそれを使用することができます。貢献が順調に進めば、Alink は FlinkML に完全に統合され、つまり Flink エコシステムのバックボーンに直接組み込まれるはずです。これが Alink にとって最適な行き先です。この時点で、FlinkML は SparkML と完全に互換性を持つことができます。

AI Frontline: Alink に加えて、Flink は現在機械学習の分野でどのような進歩を遂げていますか?他のコンピューティングエンジンと比較して、機械学習と AI の分野における Flink の現在の取り組みをどのように評価しますか? 十分な競争力がありますか?

Mo Wen: 実のところ、まだ進行中の作業がたくさんあります。機械学習の中核は反復コンピューティングです。機械学習のトレーニングとは、継続的に反復的にデータをトレーニングし、モデルをトレーニングして、それをオンラインにすることです。 Flink はコアトレーニングに基づいて、新しい反復コンピューティングを設計しています。Flink はストリーミングコンピューティングに基づいているため、反復コンピューティングをミニバッチ反復コンピューティングに変換できます。データエントリの数またはデータセグメントの期間に基づいて、ストリーム上に多数のきめ細かいデータセグメントを生成できます。

Flink の利点は、純粋にストリーミングであり、セグメントに分割しても問題がないため、ストリーム上にきめ細かいデータセグメントを作成する実現可能性に問題がないことです。 Spark の反復処理は、データセットを 1 回反復処理し、その後もう一度反復処理することです。このデータセットを非常に細かい部分に分割することは困難です。部分を切り出すことはタスクを実行することを意味し、細分化の課題は比較的大きくなります。 Flink の利点は、粒度を非常に細かく分割できるため、元の反復計算を再構築できることです。

Flink の最も初期の反復コンピューティングは Spark と同じで、バッチ反復または行単位の反復のいずれかであり、これらは完全に両極端です。これを抽象化して、反復のバッチサイズを時間とサイズに応じて設定できるようにしたいと考えています。これは Flink ウィンドウの概念に似ており、ネストされた反復、増分反復などをサポートできます。ストリームベースの反復技術をエンジンレベルで実装すると、機械学習のトレーニング全体が大幅に加速されます。アルゴリズム自体の効果は同じかもしれませんが、操作のパフォーマンスと速度は異なります。

同時に、オンライントレーニングの問題も解決できます。たとえば、インターネットのログストリームとユーザーの行動は継続的に生成されます。Flinkストリーミング反復は、ユーザーが生成したリアルタイムデータを継続的に処理し、オンラインで反復更新できます。モデルは5分ごとに、または1分ごとに更新できます。このようにして、そのモデルは 7×24 時間サイクルでオンラインで更新されます。このようなオンライン学習システムは、ユーザーに大きな変化をもたらします。この変化は、単純な 30% の改善やエンジニアリングの最適化ではなく、機械学習を使用するという概念の最適化です。

これは現在私たちが取り組んでいることであり、コミュニティではすでに議論が始まっています。これは、Flink の次の 1 ～ 2 バージョンで焦点となる可能性があります。このように考えることができます。Flink は昨年は統合エンジンでしたが、今年は AI を採用し始めました。2019 年、私たちの仕事の多くは SQL の最適化でした。来年は AI、つまり FlinkML と AI シナリオにさらに重点を置く予定です。

AI 最前線: Alibaba が Alink をオープンソース化することを決定したのはいつですか?

Mo Wen: 昨年 Blink がオープンソース化されたとき、私たちは Alink もオープンソース化するかどうかを検討していました。しかし、後になって、最初のオープンソース化がまだできていないと感じたので、一度に大きな一歩を踏み出す勇気はありませんでした。一歩ずつ進んでいく必要がありました。また、Blink のオープンソース化には多くの準備が必要でした。当時は、2つの大きなプロジェクトを同時にオープンソース化することはできなかったため、まずはBlinkをオープンソース化することにしました。

Blink がオープンソースになった後、私たちは Alink のアルゴリズムを Flink にプッシュすることを検討しました。しかし、コミュニティに貢献することは確かに複雑なプロセスであることがわかりました。Blink は宣伝された時点ですでに多くの帯域幅を占有しており、コミュニティの帯域幅には限りがあるため、同時に複数のことを行うことは不可能です。コミュニティがそれを消費するのにも時間がかかるため、まずは Blink を消費することにしました。寄付が完了してコミュニティが利用できるようになったら、徐々に Alink をコミュニティに還元していきます。これはスキップできないプロセスです。

オープンソースは非常に慎重なプロセスであり、いつでも好きなときに公開できるわけではありません。子供を産んだら育てないなんてことはできません。何かをリリースしたいなら、長期的な計画と責任が必要です。これは長期的な計画であり、オープンソースにリリースしたら終わりではないことを、全員に明確に伝える必要があります。将来、リリースした後も面倒を見てくれるのかと聞いてくるユーザーが必ず出てくるでしょう。これらの問題について考えなければ、ユーザーにとって逆効果になります。明確なシグナルが与えられていないと感じ、ユーザーはあえて使用しなくなるでしょう。

AI Frontline: SparkML と比較して、Alink のハイライトは何ですか?開発者にとって、どのような点がより魅力的になるでしょうか?

Mo Wen: Alink はまず、Flink コンピューティングエンジンレイヤーに依存しています。次に、Flink フレームワークには UDF 演算子があります。Alink 自体は、通信、データアクセス、反復データ処理プロセスなどのアルゴリズム実装の詳細な最適化を含む、アルゴリズムの多くの最適化を行っています。これらの最適化に基づいて、アルゴリズムはより効率的に実行できます。同時に、使いやすさを向上させるための多くのサポートツールも開発しました。同時に、Alink には、当然のことながらオンライン学習を目的とした多くの FTRL アルゴリズムを開発するというコア技術もあります。オンライン学習には、高速かつ高頻度で更新される反復アルゴリズムが必要です。この場合、Alink は当然有利です。Toutiao や Weibo などの情報フローは、このようなオンラインシナリオに頻繁に遭遇します。

[[284093]]

Alink と SparkML は、オフライン学習では基本的に同じです。エンジニアリングが十分に優れている限り、オフライン学習で世代間のギャップが生じることはありません。本当の世代間のギャップは、設計コンセプトの違いにあるに違いありません。デザイン、製品形態、技術形態が異なる場合にのみ、世代間の明らかな利点が生まれます。

SparkML と比較した場合、バッチアルゴリズムは機能やパフォーマンスを含め、基本的に同じである点が当社の特長です。Alink は、クラスタリング、分類、回帰、データ分析、特徴エンジニアリングなど、アルゴリズムエンジニアが一般的に使用するすべてのアルゴリズムをサポートできます。これらのタイプのアルゴリズムは、アルゴリズムエンジニアが一般的に使用します。オープンソース化する前に、SparkML のすべてのアルゴリズムをベンチマークし、100% のベンチマークを達成しました。さらに、Alink の最大のハイライトは、独自のストリーミングアルゴリズムとオンライン学習です。これにより、ユーザーにとっての欠点がなく、同時に利点も明らかになります。

Alinkがサポートする機械学習アルゴリズム

その後の計画と将来の展望

AI Frontline: 今後、Flink はどのくらいの頻度でバージョンを更新する予定ですか?今後、Flink に期待できる新機能や機能について教えてください。

Mo Wen: 3～4 か月です。基本的には四半期ごとにバージョンが更新されます。たとえば、1.10 は 2020 年 1 月にリリースされ、1.11 は 4 月にリリースされます。バージョン 2.0 がいつリリースされるかはまだ不明ですが、2.0 は非常に画期的なバージョンになります。現在、Flink コミュニティは、AI や機械学習だけでなく、本日の基調講演で Stephan Ewen 氏が言及したステートフル機能など、非常に有望な点を多く見ることができます。実際、オンラインシナリオではまだ探求すべき有望な点が多くあり、サーバーレス (Faas) も Flink の将来の方向性です。 Flink コミュニティには、非常に良い点が 1 つあります。バージョン 1.x に進化したばかりで、まだ改善の余地がたくさんあります。コミュニティの活力とステータスは非常に良好で、誰もがコミュニティに投入するアイデアをたくさん持っています。

AI 最前線: 今後、ビッグデータの分野でより重要になる新しい技術の方向性やトレンドは何でしょうか?

墨文氏：ビッグデータとAIの融合は良いチャンスかもしれません。今では誰もが基本的にあらゆる種類のビッグデータを試しており、さまざまなプロジェクトが次々と登場しています。 AIも多様性に富んだ分野ですが、実はユーザーが求めているのはAIだけではありません。データはどこにあるのでしょうか? AIはデータなしでどのように機能するのでしょうか?特徴とサンプルを適切に計算することによってのみ、優れたモデルをトレーニングできます。このモデルは、継続的な反復的なフィードバックを通じてのみ改善されます。このプロセスでは、データ処理とデータ分析が非常に重要です。完全なフィードバックシステムがなければ、ビッグデータと AI のリンクは機能しません。エンジンがどれだけ優れていても、クローズドループのコンピューティングパスがなければ、真の意味での生産やビジネス成果を達成することはできません。

したがって、ビッグデータ + AI 処理のセット全体を、誰もが最も必要としている、非常に使いやすく実用的なソリューションにする必要があります。今では誰もがいくつかの散発的なポイントを達成しており、多くのものに対応するオープンソースプロジェクトが見つかりますが、すべてのテクノロジを接続するための全体的なプラットフォームが必要です。

AI Frontline: Flink もある程度はこれをやりたいのでしょうか?

Mo Wen: 来年、私たちは新しいプロジェクト AI Flow をオープンソース化する予定ですが、まだ準備ができていません。AI Flow が、モデルのトレーニング、モデルの管理、モデルの起動、動的な更新、更新後のフィードバックの取得方法、フィードバック後のプロセスの逆最適化、システム全体の接続など、ワークフローを通じてデータの処理と前処理を実行できるようになることを期待しています。各リンクは、異なるエンジンを使用して実装できます。Flink または Spark のどちらを使用してもかまいません。最終的にはどちらがより適切に機能するかによって異なります。たとえば、ビッグデータ処理には Flink、ディープラーニングのトレーニングには TensorFlow、ストリーミングトレーニングには FlinkML を使用できます。これらすべてを接続すると、エンドツーエンドのソリューションがユーザーに提供されます。これは非常に有望なプロジェクトです。

AI Frontline: これは Databricks の MLflow に似ていますか?

Mo Wen: AI Flow は MLflow よりも規模が大きいです。MLflow はデータ形式のみを定義しているからです。AI Flow は Kubeflow に似ているかもしれません。AI Flow はワークフローに重点を置いていますが、MLflow はデータ形式に重点を置いており、特に完全なワークフローをカバーしているわけではありません。ただし、MLflow が将来的にどんどん大きくなる可能性は否定できません。

なぜこれをやりたいのでしょうか?アリババは、検索、推奨、広告のコアシステムがどのように機能するか、そしてそれを段階的に合理化して頭脳を形成し、検索トラフィック、推奨トラフィック、広告トラフィックまで、トラフィック全体を制御して、ビジネストラフィックとキャッシュフローの間で戦う方法を熟知しています。これは、全体の商業化のコアシステムです。このシステムはビッグデータ+ AIソリューションに基づいており、このソリューションは、ワークフロー、データ形式の定義、およびさまざまなコンピューティングエンジンのコラボレーションと切り離せないものです。これは、より大きな概念です。来年はこの分野にさらに多くのリソースを投入し、他の企業とも協力していきます。

<<: Zookeeper の選出アルゴリズムとスプリットブレイン問題の詳細な説明

>>: AIに勝てずイ・セドルが引退を発表