人工知能をより賢くするにはどうすればいいでしょうか?オープンソースプラットフォームが必要です

[[332916]]

ニーダーザクセン州オスナブリュック、2020年6月19日：メラニー・プロッパ先生が教室で小学生に教えている。新しいクラウン隔離規制の制限により、学校は現在、特別な衛生管理措置を講じる必要があります。さらに、教室内の生徒数も制御されます。

COVID-19の流行が本格的に始まった後、多くの学生が自宅でオンライン授業を受けるようになりましたが、この遠隔教育法は確かに通常の授業とは比べものにならないことが判明しました。また、問題を直接伝え、アイデアを議論し、チームの課題を明確にし、グループとして目標を達成するというプロセス全体が、より良い学習成果につながることも一般的に認識されています。まさにそうです。そうでなければ、学校は何のために必要なのでしょうか?

しかし、同じ相互接続性と相互運用性のあるテクノロジーは、データ駆動型の人工知能 (AI) 知識ベースやソフトウェア駆動型の分析エンジンを構築する際に、コンピューターがより優れた「学習」結果を達成するのにも役立つのでしょうか?

機械学習のオープン性

最近、業界では多くのオープン AI ユースケースが登場しています。たとえば、今年 6 月、Databricks はオープンソースの機械学習の成果に基づいて Linux Foundation に正式に加盟しました。 Databricks は、エンドツーエンドのプロセスの形で機械学習機能を提供するという基本的な位置付けを反映して、このプロジェクトを MLflow と名付け、このプロジェクトが開発ライフサイクル全体にわたって実行されることを期待しています。

機械学習の分野では、エンドツーエンドは、開発ライフサイクルの端から端までのソフトウェアツールの包括的なカバレッジを強調する、かなり一般的な表現です。

用語の観点から見ると、エンドツーエンドでは、データ処理全体に対して、準備（データ解析と重複排除を含む）、実験フェーズ、コードを「繰り返し可能な」形式にパッケージ化すること（インテリジェントモジュールの形式でオペレーティングシステムで自由に組み合わせることができ、対応する機能のプラグアンドプレイを実現できます）、そして最後に、柔軟に共有および共同作業できる AI モデルを入力することが必要です。

最も重要な部分は「コラボレーション」の部分であり、オープン（本質的にはオープンソース）プラットフォームとチャネルコミュニティを通じて、AI および ML データセット、処理エンジン、さらにはその他のディープラーニングツールの共有機能を実現することです。現在、業界では一般的に、これが機械学習を実装するためのより生産的で自然な方法であると考えています。

Databricks の MLflow プロジェクトには 2 年の歴史があり、200 人を超える貢献者がいます。これを Linux Foundation に引き渡すことで、プロジェクト自体が特定のメーカーから独立した開発パスを形成すると同時に、採用とコミュニティへの貢献を拡大するためのオープンガバナンスモデルを選択することになります。

Databricks は、MLflow を作成した当初の目的は、機械学習モデルの開発プロセスにおける「固有の複雑性要因」に対処することだったと説明しました。この分野の経験を持つ友人なら誰でも、マシンモデルの構築、トレーニング、チューニング、展開、管理を伴うこのようなプロセスが、実に頭の痛い作業であることを実感できると思います。

「コミュニティの参加が着実に増加していることは、データチームが将来の機械学習プラットフォームの構築に注力する必要があることを示しています」と、Linux Foundation の戦略イニシアチブ担当副社長 Michael Dolan 氏は述べています。「採用の増加は、機械学習のライフサイクルを標準化するためにオープンソースアプローチを採用する必要があることも意味します。世界最高のオープンソースプロジェクトの多くでの経験から、オープンガバナンスモデルは、幅広い業界の貢献とコンセンサスを通じてイノベーションと採用を加速できることがわかりました。」

デジタルインテリジェンスの普及促進

オープンソースコードの開発は、ある程度、デジタルインテリジェンスの普及を効果的に促進することもできます。 2020 年 6 月、Abbyy は機械学習モデルの構築、トレーニング、展開に特化した NeoML オープンソースコードライブラリをリリースしました。シリコンバレー、ロシア、ヨーロッパ、極東で事業を展開する同社は、これまで常に文書のキャプチャと管理を専門としてきたが、最近の事業拡大に伴い、企業顧客向けにデジタルインテリジェンス技術ソリューションの提供を開始した。

NeoML のソースコードは GitHub から簡単に入手できるようになり、ディープラーニングと従来の機械学習アルゴリズムの両方をサポートしています。クロスプラットフォームフレームワークとして、クラウド環境、デスクトップ、モバイルデバイス上で実行されるさまざまなアプリケーションをインテリジェントに最適化できます。

前述の Databricks オープンインテリジェントテクノロジーは、主にビッグデータ処理とクラウドコンピューティングの「クラスター」管理に使用されますが、Abbyy の機械学習モデルは画像処理タスクに特化して最適化されており、あらゆるデバイスで実行される事前トレーニング済みモデルに優れた推論パフォーマンスを提供することを目指しています。 2 つのプロジェクトはそれぞれ異なる技術的ユースケースを対象としており、インテリジェンスのレベルも異なりますが、その主な魅力は、オープンコミュニティの貢献者の力を最大限に活用し、貢献者に還元することです。

Abbyy 氏は、IT マネージャーの 95% が、オープンソースを中核ミッションソフトウェア開発の主要な方向性と見なしており、この戦略的トレンドに注目し始めていると述べました。 Abbyy はオープンソースを通じて機械学習フレームワークの急速な開発も推進し、AI の継続的な改善をサポートします。現在、ソフトウェア開発者は NeoML を直接使用してさまざまなモデルを構築、トレーニング、展開し、オブジェクト認識、分類、セマンティックセグメンテーション、検証、予測などのさまざまなビジネス目標に対応するモデルソリューションを実現できます。

Abbyy の AI エバンジェリストである Ivan Yamshchikov 氏は、より具体的な使用例も発表しました。銀行はこの技術を使用して、信用リスクを管理し、顧客離れを予測するモデルを開発できます。通信会社は、マーケティングキャンペーンの具体的な効果を分析するためにこの技術を使用できます。また、小売業や日用消費財 (FMCG) 企業は、顔認識機能やデータ検証機能を含むリモート顧客タグ付けソリューションを確立できます。

「当社のフレームワークをオープンソースコミュニティと共有することで、開発者は推論の高速化、クロスプラットフォーム機能を実現し、モバイルデバイスのコンピューティング能力を最大限に活用できます。また、開発者からのフィードバックと貢献により、当社のコードベースは継続的に改善され、強化されます」と Yamshchikov 氏は述べています。「AI テクノロジーの全体的な進歩を嬉しく思っており、機械学習をより価値があり、影響力のあるユースケースにするために全力を尽くします。」

心を開いて

しかし、オープンソースは本当に優れた AI インテリジェンスを実現する唯一の方法なのでしょうか? テクノロジーの分野では、粗野なポピュリズムは許されません。機械学習テクノロジーの分野では、閉鎖的なプロプライエタリサークルも重要かつ生産的な領域です。学習とコミュニケーションの範囲を継続的に拡大し、さらに具体的な学習モデルを直接共有することによってのみ、AI技術の真の普及を実現することができます。

Abbyy が作成した NeoML プロジェクトを例に挙げてみましょう。このテクノロジーは、相互運用可能な機械学習モデルのグローバルなオープンエコシステムである Open Neural Network Exchange (ONNX) をサポートしています。このプロジェクトの目的は、さまざまなツール間の互換性を改善し、ソフトウェア開発者が適切なツールの組み合わせを簡単に使用して期待される機能を実現できるようにすることです。 ONNXオープンソース標準には、MicrosoftやFacebookなど多くのパートナーが参加しています。オープンAIインテリジェンスは今後ますます一般的になると思います。

よく言われる「心を開きなさい」というのは、こういうことなのかもしれません。

<<: ロボット研究助手が人間の1,000倍の速さで研究を行うために登場

>>: スタンフォード大学の研究者がAIを活用してCOVID-19の治療薬の発見を加速