AI STUDIO - AI機能を実現するためのハードルゼロ

AI技術の発展により、人類社会は熱い知能革命の真っ只中にあります。技術革命の波に素早く適応できる者が、将来のチャンスを掴むことができるでしょう。 AI Studio は、中小企業や開発者が AI 機能を実現するのに役立つツールの 1 つです。

現在、AIの能力は生活のあらゆる分野に浸透し、音声、画像、NLPの分野で画期的な進歩と成果を達成しています。これにより、AI技術に対する信頼がさらに強化され、より伝統的な業界にまで普及し、さまざまな業界の発展に貢献しています。 AI テクノロジーは、人間の精神力と肉体力をさらに解放し、人間の創造性がより必要とされる分野で役割を果たすことができます。他のことはすべて AI に任せましょう。信じてください、AI は人間よりも優れた能力を発揮します。

大手インターネット企業の場合、AI 機能の開発には資金と人材を投資するだけで済みます。しかし、中小企業が自力で AI 機能を構築するには、人材の採用、設備の購入、モデルの開発、システムの維持など、膨大な労力が必要になります。その結果、AWS (有料)、Azure (有料)、Alibaba Cloud (有料) など、多数のクラウドコンピューティングおよびモデリングプラットフォームが登場しました。 Baidu は All in AI 戦略を確立した後、最新のBaidu AI Studio ワンストップ開発プラットフォームを含む多くの基本的で堅実な作業を行ってきました。これは、AI チュートリアル、コード環境、アルゴリズムの計算能力、データセットを含み、無料のオンラインクラウドコンピューティングを提供する統合プログラミング環境です。ここでは、ユーザーは複雑な環境構成や拡張パッケージの面倒な検索を心配する必要はありません。コンピューター、インターネット接続、ディープラーニングを学びたいという願望があれば、ブラウザーを開いて aistudio.baidu.com と入力するだけで、AI Studio でディープラーニングの旅を始めることができます。次に、本稿では、AI Studio について、機能紹介、実践的なモデリング、AI 機能の応用の観点から解説します。

諺にあるように、魚を与えるよりも魚の釣り方を教える方が良い。 BaiduのAll in AI戦略において、fishは音声技術、画像技術、ビデオ技術、ナレッジグラフ、NLP技術に基づく人工知能製品とサービスを指し、fishingはAI Studioを指し、個人の開発者や中小企業が独自の製品やサービスを開発するのに役立ちます。AI Studioを使用すると、開発者はハードウェアコスト、運用・保守コスト、人件費を考慮することなく、カスタマイズされたAIモデリング機能を実装できます。 Google Cloud や AWS などのクラウドプラットフォームでモデルを実行するためにコンピューティングリソースとストレージスペースを購入するためにお金を費やすのに比べて、AI Studio は完全な無料サービスセット (無料のコンピューティングリソース、無料のスペースリソース、無料のプロジェクトホスティング、無料のビデオチュートリアル) を提供します。 AI Studioは、教育、応用、エンジニアリングの面でAIの民主化を総合的に推進し、AI技術への参入障壁を大幅に下げたと言えます。

1. 機能紹介

初めてホームページに入ったとき、これはKaggleのようなデータコンペプラットフォームだと感じました。しかし、よく見ると、AI Studioはエンジニアリングプロジェクトの概念を強化しています。ハイライトはAI学習プロジェクトセクションで、多数の実際のエンジニアリングプロジェクト（画像認識、感情分析、パーソナライズされた推奨など）が含まれています。もう1つの重要な要素はコンペです。誰もが知っているように、生産、学習、研究コミュニティの好循環を構築することは、業界の発展の重要な部分です。ただし、AI Studioが主催するコンペはまだ初期段階です。今後、より多くのコンペが開催され、誰もがここで知識を学び、友達を作ることができることを願っています。最も重要なのは、学びながら小遣いを稼ぐことができることです（笑〜）。

図1 AI Studioの機能

AI Studio の主な機能には、プロジェクトホール、プロジェクト作成、サンプルプロジェクト、共有プロジェクトの 4 つの部分があります。データサイエンスコンテスト、さまざまなクラシックデータセットとカスタムデータセット、詳細な機械学習とディープラーニングのチュートリアル、ビデオ公開クラスなどがあります。以下に簡単な紹介をします。

図2 AI Studioの主な機能

1.1. メニューバー

1.1.1. プロジェクトホール

AI Studioのホームページとして、Baiduが蓄積した古典的なAI学習プロジェクト、自己プロジェクト管理、共有プロジェクトリストを統合します。プラットフォーム全体はプロジェクト中心であり、AI Studio の位置付けも強調されています。AI Studio は、個々の開発者や中小企業が AI 機能を迅速に獲得し、テクノロジーとリソースの出力を通じて自社のビジネスをより良くサポートできるように支援します。

1.1.2. データセット

データセットには、MNIST、IMDB、CIFAR10、Penn Treebank、MovieLens などの古典的な公開データセットがいくつか含まれており、また、オープン Baidu データ (中国語の短いテキストコーパス、情報抽出データ) もいくつか含まれています。しかし、Kaggleの1万近くのデータセットと比較すると、まだ発展の余地は大きいですが、AI StudioのデータセットはTianchiのものよりはるかに規則的であると個人的に感じています。もちろん、ユーザーはモデル開発のためにカスタムデータをアップロードすることもできます。

1.1.3. コンテスト

このモジュールは、データを扱うすべての人にとって最も興味深いものになるはずです。私は以前、Kaggle のいくつかのプロジェクトに参加したことがあります。一般的に言えば、Kaggle はコンペティションで非常に良い仕事をしています。コンペティションのシステムは明確で、コミュニティは充実しています。コンペティションに参加するたびに、大きな進歩を遂げることができます。 Kaggleと比較すると、AI Studioはコンテストが少ないですが、上記の機能はすべて備えています。さらに、AI Studioはクラウドトレーニングプラットフォームを提供しているため、全員の武器が比較的バランスが取れており、より公平に競争することができます。

図3 AI Studioコンペティションページ

1.2. プロジェクトを作成する

AI Studioはプロジェクトベースで開発されます。プロジェクトを作成し、データセットを追加して開発環境 (ノートブックカーネル) を実行すると、開発および本番環境用の独自のモデルの構築を開始できます。現在、この環境では Python 2.7 のみがサポートされています (Python 3、R など、他の環境もサポートされる予定です)。アルゴリズムフレームワークには、paddlepaddle や sklearn などが含まれます。

図4 AI Studioプロジェクト作成ページ

1.3. チュートリアルと情報

チュートリアルに関して言えば、Paddlepaddleの機械学習に関するチュートリアルは、おそらく中国語で最高です。機械学習とディープラーニングに関するビデオ公開コースやチュートリアルドキュメント（入手可能）があるだけでなく、画像分類、単語ベクトル、パーソナライズされた推奨、感情分析、意味役割ラベル付け、機械翻訳など、さまざまな方向のディープラーニングの例が多数含まれています。原理レベルから詳細かつ分かりやすく説明されているだけでなく、1行ずつ実践的に操作するためのモデルコードも提供されており、Everyone can AIを強力にサポートしていると言えます。

1.3.1. サンプルプロジェクト

サンプルプロジェクトは、古典的な機械学習アプリケーションシナリオと以前のコンペティションのノートブックです。各プロジェクトを独自のプロジェクトにフォークして、開発と学習を行うことができます。 AI 機能の構築に意欲的な中小企業にとって、このモジュールは最高の恵みです。私はずっと前に Tensorflow のドキュメントを読みましたが、そこにはいくつかの典型的な問題に対するチュートリアルとコードしか含まれていませんでしたが、ここにはさまざまなシナリオに基づいた多数の AI モデルが含まれており、すぐに使用できます。

1.3.2. 共有プロジェクト

名前が示すように、AI Studio は、全員が互いに学習できるようにプロジェクト共有機能も提供します。オープンソースの時代において、成熟した活発なコミュニティを育成できることはプラットフォームの発展に必要な要素であり、これはTensorflowがディープラーニングの分野で急速に普及できる重要な理由でもあります。

1.3.3. 私のプロジェクト

以下は開発者自身のプロジェクトのリストですが、詳細については説明しません。

2. 実践的なモデリング

AI Studio はプロジェクト中心です。プロジェクトを作成するときに、アップロードしたデータをカスタマイズしたり、プラットフォーム上の既存のデータセットを選択したりできます。現在、環境は Python 2.7 のみをサポートしており、アルゴリズムライブラリには sklearn と PaddlePaddle が含まれます。開発環境を気にする必要がなく、安心してモデルを構築できます。今後のトレンドとしては、モデリングエンジニアリングをクラウドサービス化すること（中小企業が迅速にAI機能を構築できるようにすること）が考えられます。 AI Studio プロジェクト間でリソースが独立して割り当てられ、複数のプロジェクトモデルを同時にデバッグできるため、非常に便利です。

ここでは 2 つの共有プロジェクトを作成しました。プロジェクトを直接フォークしてコードを表示し、すぐに使用できます (Baidu アカウントでログインする必要があります: Titanic プロジェクト、パーソナライズされた推奨プロジェクト)。詳細なコードについては、付録と共有プロジェクトを参照してください。最初のプロジェクトは、最も基本的なデータサイエンス入門問題であるタイタニック号で、人が生き残るかどうかを予測するものです（データを個別にアップロードし、sklearn ランダムフォレストモデルを呼び出します）。2 つ目は、既存のデータ（MovieLens）と PaddlePaddle を使用して、パーソナライズされた推奨モデルを構築することです。一つ小さな問題は、プロジェクトを作成してプロジェクトページに入った後、実行状態に入るために「プロジェクトを実行」をクリックする必要があることです。これは少し冗長に感じます。実行中のプロジェクトは、必要な機能がすべて揃ったシンプルなノートブック開発環境です。個人的には、速度は Kaggle よりもはるかに優れていると感じています (インターネット速度が悪いためかどうかはわかりません)。

図5 AI Studioプロジェクトインターフェース

開発環境の主要部分はノートブックの形式になっています。jupyter に慣れている学生は、シームレスに接続できます。ノートブックに比べて優れている点は、プロジェクトのデータセットが一覧表示され、データパスを 1 回のクリックで取得できることです。メニューバーはよりシンプルになり、基本的な機能がすべて揃っています。ノートブックを保存できます。興味深いのは、プロジェクトを作成するときに環境は Python 2.7 しか選択できないのに、カーネルの選択に Python 3 が表示されることです。

図6 AI Studio開発ページ

3. 多くのプレイヤーが覇権を競う

ワンストップ AI モデリング開発プラットフォームとして、AI Studio は競争の激しい AI 開発プラットフォーム市場でどのようにニッチな市場を切り開くことができるのでしょうか?最も重要な方法は、競争コミュニティの概念を改善し、PaddlePaddle + AI Studioを通じてデータサイエンス競争の分野を獲得することです。ここでは、いくつかのデータ競争プラットフォーム（AI Studio、Kaggle、Tianchi、DataCastleなど）の簡単な比較を示します。開発者の能力向上、プラットフォーム競争の公平性、競争から得られる利益の3つの側面から説明します。

3.1. 能力強化

データモデリングコンテストに参加することは、自分の能力を向上させる最良の方法であると言えます。コンテストでは、さまざまな業界のビジネスフォームやデータ構造を理解できるだけでなく、機能やアルゴリズムに対する自分の理解の違いを真に検証することもできます。優れたコミュニティ環境とコード共有メカニズムは、自分の能力を向上させるための土壌を提供します。この点、Kaggleは最も早く設立されたため、優秀な人材とコードの蓄積があり、Googleに加わってからその優位性がさらに発揮されました。 Tianchi と DataCastle もコミュニティ構築に多大なエネルギーを注いでいますが、Kaggle との間にはまだ大きな差があります。しかし、彼らは中国のコミュニティのリーダーと見なされるべきです。 AI Studio は明らかに後発という欠点がありますが、サンプルプロジェクトを見た後でも、チュートリアルとドキュメントの考え方に感心しています。AI Studio は、AI 中国語チュートリアルの第 1 層への大きな一歩を踏み出したと言えます。

3.2. ゲームの公平性

ここでの公平性は、2 つの側面に反映されています。1 つ目は、データが小さすぎるためにモデルの安定性に問題が発生するのを防ぐために、コンテストでのデータ量が一定規模でなければならないことです。2 つ目は、コンピューティングリソースの公平性です。たとえば、Alibaba チームが P100 GPU クラスターのコンピューティングパワーでコンテストに参加した場合、他のチームが勝つ可能性は奇跡に頼るしかないのではないかと心配しています。ImageNet ほどの規模のデータの場合、PC しか持っていないと、モデルのチューニングはおろか、1 回の反復すら完了できない可能性があります。

この点において、AI Studio には大きな利点があります。このプラットフォームは、出場者に無料のコンピューティングリソースサポートを提供するだけでなく、出場者が使用できる最新バージョンの PaddlePaddle も提供します。天地は予選段階ではクラスターコンピューティングパワーのサポートがなく、準決勝に進出するプレイヤーのみが Shujia プラットフォームを使用する機会を得ます。 Kaggle と DataCastle にはプラットフォームサポートがありません。それに比べて、AI Studio は競争リソースの公平性において大きな優位性を持っています。

3.3. コンテスト結果

ここでの利益とは、現金報酬や履歴書の推薦など、能力以外の物質的な利益のことです。これら 2 つの点は、職場に新しく入ってきた人にとって非常に重要です。客観的に見て、国際的な影響力で言えば、Kaggleは間違いなくNo.1です。GoogleやFacebookへの参入を目指す学生は、Kaggleで質の高いコンペを選ぶことをお勧めします。国内のコンペでは、AI Studio、Tianchi、DataCastleは賞金の面でそれほど差がありません。AI Studiは最も遅く開始されたため、賞金は比較的高くなっています。

全体的に、データサイエンスコンテストの新参者として、Baidu のリソースに支えられた AI Studio は、より公平なプラットフォームリソース出力、報酬システム、完全なチュートリアルドキュメントシステムにより、将来的にデータコンテスト市場を大規模に掌握するでしょう。開発者にとって、GPU リソースの無料使用と開発プロセスの簡素化はすでに大きな魅力です。

4. 百度のAI戦略

AI界隈にいる私は、さまざまな企業のAI製品戦略にかなり興味を持っています。最近最も興味深かったのは、Baidu Create 2018です。このカンファレンスで、Robin Li氏のAIの夢は「All In AI」から「Everyone Can AI」にアップグレードされました。発表されたAI製品は、自動運転バス「アポロ」から百度が自社開発したクラウドAIチップ「崑崙」、二大AIエコシステムプラットフォームDuerOS3.0とApollo3.0にまで及ぶ。百度のAI展開は未熟から成熟へと進み、多軍統合軍の姿で世界の人工知能の舞台に登場したと言える。

Baidu の AI 戦略はオープン性を重視し、技術力の強化を重視しています。

Baiduによると、AI基本プラットフォームサービスを中核として、産業アプリケーションによって駆動され、AI技術製品とサービスによって強化された生態学的クローズドループ（AIオープンプラットフォーム）が形成されているという。 Baiduの公開情報によると、Baiduはスマート小売、金融テクノロジー、商業用不動産、エンタープライズサービス、スマートハードウェア、教育・トレーニングなど、さまざまな業界にAIサービスを適用している。例えば、スマートリテールの場合、百度が基本機能を提供し、パートナーがそれを統合・実装することで、オフライン店舗、ショッピングモール、スーパーマーケット、大手ブランドなどの小売業態に顔認識、身体分析、画像認識、ビッグデータ分析・判断などのサービスを可能にし、ビジネス効率と利益率を効果的に向上させます。技術サービス面では、百度は音声技術、画像技術、顔認識、ビデオ技術などを含む包括的なAI機能を提供しており、プラットフォームサービスには110以上の機能があると言われています。百度は、Apollo自動運転オープンプラットフォームやDuerOS対話型オープンプラットフォームだけでなく、AIチュートリアル、開発環境、アルゴリズムコンピューティングパワーを含むAI Studio、EasyDL画像カスタムモデル構築プラットフォーム、基本的なディープラーニングフレームワークPaddlePaddleなどのワンストップAI開発プラットフォームも備えています。

Baidu は長い間このインテリジェント革命を醸成してきただけでなく、多くの成果も得てきたことがわかります。

5. まとめ

AI Studio は、多数のデータセット、古典的なサンプルプロジェクト、競争プロジェクトを統合する PaddlePaddle ベースのクラウドコンピューティングモデリングプラットフォームです。また、機械学習とディープラーニングのコミュニケーションコミュニティでもあります。 AI Studio は、データサイエンティストの環境設定の煩わしさを可能な限り軽減します。コンピューティングリソース、プロジェクト管理、コード管理、コンペティションなどの機能をクラウドに統合し、学習と作業の両方を考慮したワンストップモデリングプラットフォームを形成します。さらに、AI Studio では、無料のコンピューティングリソース、スペースリソース、ビデオオープンコースも提供しています。無料ですよ！無料ですよ！（重要なことは3回言うべきです）。最後に、さらなるコンテストの開始を楽しみにしてください。

参考文献

http://aistudio.baidu.com
百度
http://www.paddlepaddle.org/
http://ai.baidu.com/paddlepaddle

付録

# 現在マウントされているデータセットディレクトリを表示する 
 !ls /home/aistudio/data/  
 # 個人の永続ワークスペースファイルを表示する 
 !ls /home/aistudio/仕事/  
 numpyをnpとしてインポートする 
 pandasをpdとしてインポートする 
 matplotlib.pyplot をpltとしてインポートします。  
 %matplotlib インライン 
 # タイタニック号の問題 
 # データセットは、古典的な機械学習の問題である巨大な生データです。以下は、データのクリーニング、データ処理、特徴エンジニアリングから、AI Studio プラットフォーム上の Python 2.7 環境でのアプリケーションまでの完全なガイドです。  
 # ランダムフォレストモデルの構築 
 # 最も単純なモデル開発プロセスは次のとおりです 
 # - データを読み込む 
 # - 機能エンジニアリング 
 # - データのセグメンテーション 
 # - モデルのトレーニング 
 # - モデル評価 
 # - クロスチェック 
 ## データの読み取り 
 # プロジェクト作成時にデータを読み込み、ls /home/aistudio/data/ でデータセットディレクトリを表示し、データを追加します。  
 data_train = pd.read_csv( '/home/aistudio/data/data188/train.csv' )  
 data_test = pd.read_csv( '/home/aistudio/data/data188/test.csv' )  
データトレーニングサンプル(3)  
 ## 機能エンジニアリング 
 ### データのクリーニングと特徴処理
# 機能を次のように処理します。  
 # - 特徴量 Age をビンに分割する (simplify_ages)  
 # - 分類のためにキャビンの特徴を抽出する (simplify_cabins)  
 # - ビン分割によって特徴量 Fare を離散化します (simplify_fares)  
 # - 機能名 (format_name) を処理する 
 # - 重要でない機能を削除する (drop_features)    
 
 def simply_ages(df): 定義:  
    df.年齢 = df.年齢.fillna(-0.5)  
    ビン = (-1, 0, 5, 12, 18, 25, 35, 60, 120)  
    group_names = [ '不明' 、 '赤ちゃん' 、 '子供' 、 'ティーンエイジャー' 、 '学生' 、 '若者' 、 '大人' 、 'シニア' ]  
    カテゴリ = pd.cut(df.Age, ビン, ラベル = グループ名)  
    df.Age = カテゴリ 
リターンDF  
 
 def simply_cabins(df):  
    df.Cabin = df.Cabin.fillna( 'N' )  
    df.Cabin = df.Cabin.apply(lambda x: x[0])
リターンDF  
 def simply_fares(df):  
    df.Fare = df.Fare.fillna(-0.5)  
    ビン = (-1, 0, 8, 15, 31, 1000)  
    group_names = [ '不明' 、 '1_quartile' 、 '2_quartile' 、 '3_quartile' 、 '4_quartile' ]  
    カテゴリ = pd.cut(df.Fare, bins, labels=group_names)  
    df.Fare = カテゴリ 
リターンDF  
 defフォーマット名(df):  
    df[ 'Lname' ] = df.Name .apply (lambda x: x.split( ' ' )[0])  
    df[ 'NamePrefix' ] = df.Name .apply (lambda x: x.split( ' ' )[1])  
リターンDF  
 def drop_features(df):  
 df.drop ([ 'チケット' , '名前' , '搭乗' ], axis=1)を返します。  
 def transform_features(df):  
    df = 単純化年齢(df)  
    df = 簡素化キャビン(df)  
    df = 簡素化運賃(df)  
    df = フォーマット名(df)  
    df = ドロップ機能(df)  
リターンDF  
データトレイン = transform_features(データトレイン)  
データテスト = transform_features(データテスト)  
データトレイン.head()  
 
 ### 機能処理 
 # - 利用可能な機能をフィルターする 
 # - カテゴリ特徴の数値処理
 
 sklearn インポート前処理から 
 def encode_features(df_train, df_test):  
    features = [ '運賃' , '客室' , '年齢' , '性別' , '名前' , '名前の接頭辞' ]  
    df_combined = pd.concat([df_train[特徴], df_test[特徴]]) 
 機能内の機能について:  
        le = 前処理.LabelEncoder()  
        le = le.fit(df_combined[特徴])  
        df_train[特徴] = le.transform(df_train[特徴])  
        df_test[機能] = le.transform(df_test[機能])  
 df_train、df_testを返す  
 data_train、data_test = encode_features(data_train、data_test)  
データトレイン.head()
 ## データのセグメンテーション 
 # データセットをトレーニングセットとテストセットに分割する 
 sklearn.model_selectionからtrain_test_split をインポートします 
 X_all = data_train.drop ([ '生存' , '乗客ID' ], axis=1 )  
 y_all = data_train[ '生き残った' ]
 num_test = 0.20  
 X_train、X_test、y_train、y_test = train_test_split(X_all、y_all、test_size=num_test、random_state=23) 
 
 ## モデルのトレーニング 
 # ランダムフォレストモデルを選択し、グリッド検索を使用してパラメータを調整します。  
 sklearn.ensembleからRandomForestClassifier をインポートします 
 sklearn.metricsからmake_scorer、accuracy_scoreをインポートします 
 sklearn.model_selectionからGridSearchCV をインポートします 
 # 分類子のタイプを選択します。  
 clf = ランダムフォレスト分類器()  
 #試すパラメータの組み合わせをいくつか選択する 
パラメータ = { 'n_estimators' : [4, 6, 9],  
 '最大特徴' : [ 'log2' , 'sqrt' , 'auto' ],  
 '基準' : [ 'エントロピー' , 'ジニ' ],  
 '最大深度' : [2, 3, 5, 10],  
 '最小サンプル分割' : [2, 3, 5],  
 '最小サンプル数' : [1,5,8]
             } 
  
 #パラメータの組み合わせを比較するために使用されるスコアリングの種類 
 acc_scorer = make_scorer(精度スコア)  
 # グリッド検索を実行する 
 grid_obj = GridSearchCV(clf、パラメータ、スコアリング=acc_scorer)  
 grid_obj = grid_obj.fit(X_train、y_train)  
 # clfを最適なパラメータの組み合わせに設定する 
 clf = grid_obj.best_estimator_  
 #データに最適なアルゴリズムを適合させます。  
 clf.fit(X_train、y_train) を使います。  
 
 ## モデル評価 
 # 精度を使用してモデル効果を評価する 
予測 = clf.predict(X_test)  
 print(accuracy_score(y_test, predictions))  
 ## クロスチェック 
 #Kフォールド 
 sklearn.cross_validationからKFold をインポートします
def run_kfold(clf):  
    kf = KFold(891, n_folds=10)  
    結果 = []  
    折り畳み = 0  
 kfのtrain_index、test_index の場合:  
        折り畳み += 1  
        X_train、X_test = X_all.values [train_index]、X_all.values [ test_index]  
        y_train、y_test = y_all.values [train_index]、y_all.values [ test_index]  
        clf.fit(X_train、y_train) を使います。
        予測 = clf.predict(X_test)  
        精度 = 精度スコア(y_test, 予測)  
        結果.append(精度)  
        print( "{0} を折ります。精度: {1}" .format(fold, 精度))  
    平均結果 = np.mean(結果)  
    print( "平均精度: {0}" .format(mean_outcome))  
実行_kfold(clf)  
 ids = data_test[ '乗客ID' ]  
予測 = clf.predict ( data_test.drop ( 'PassengerId' 、axis=1))  
出力= pd.DataFrame({ 'PassengerId' : ids, 'Survived' : predictions })  
 #出力.to_csv( 'titanic-predictions.csv' , index = False )  
出力