陸奇氏が楽観視するAI時代のGitHubがついに実現へ

陸奇氏が楽観視するAI時代のGitHubがついに実現へ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI時代の生存と発展に最も重要なことは何でしょうか?

データ、データ、そしてさらにデータ。

特に、変革期にある中小企業や伝統的な企業にとって、データ、高品質のデータ、データの検索と管理は、インターネット開発時代のコード共有と管理の需要と同様に、最も緊急のニーズです。

では、AI 時代に合わせて構築されたデータ指向の GitHub があれば、緊急の課題を解決できるのでしょうか?

実はこれを実現した AI スタートアップ チームが存在します。

楽観的な人の中には、陸奇という大物がいる。

[[374976]]

データのためのGitHub

Gewu Titanium社が製造。

AI データ ホスティングおよびデータ コラボレーション SaaS プロバイダーである創設チームは、現在の問題点をよく理解している最前線の技術エンジニアで構成されています。

一方、AI データの準備とエンジニアリング タスクに費やされる時間は、ほとんどの AI プロジェクトの 80% 以上を占めています。 AI トレーニングでは、高品質のトレーニング データ セットとテスト データ セットが十分にない場合、高品質の AI モデルをトレーニングすることは困難です。

そのため、AI開発プロセスにおける高い隠れたコストに直面し、高品質でシナリオベースの実際の価値のあるデータを提供することが、AI産業チェーンの中核的な要求の1つになっています。

一方、人工知能は「思考」や「意思決定」の基盤として大量のデータに依存しています。これまで、企業は一般的にデータの公開に対して保守的で敏感でした。しかし、さまざまな AI アプリケーション シナリオを実装する際の技術的な難しさが徐々に表面化するにつれ、自動運転車の分野を例にとると、多くの運転シナリオは不足しています。1 つの企業がすべての交通シナリオを含むデータセットを構築するには、膨大なデータ収集コストがかかり、短期間で望ましい結果を達成することは困難です。

したがって、Gewutai の目標は、人為的な障壁の打破を加速し、より高品質で大量のデータをオープンソース方式で共有できるようにして、双方に利益のある協力を実現することです。

コード分​​野でGitHubが担うインフラの役割と同様に、AIデータ分野でも現在そうしたインフラが不足している。

そして、AI が実践されるにつれて、別の現実と事実がますます明らかになります。

AIが実装されている現実の世界では、機械学習システムのごく一部のみが機械学習コードで構成されていますが、周囲のサポートインフラは大規模かつ複雑に構成されています。

その中でも、データとデータセットは最も重要なリンクです。さらに国内の状況に目を向けると、AIプロジェクトの実施に適した実質的な価値のあるデータがさらに不足していることがわかります。

[[374979]]

統計によると、現在中国には約60万人のAI開発者がいますが、彼らが直面している現状は次のとおりです。

  • オープンソースのデータセットは一般的に海外のものであり、互換性が限られています。
  • ダウンロードと解析は困難かつ非効率的です。
  • データは不均一であり、品質を保証することは困難です。
  • 根本的な問題は、中国向けのローカライズされたデータが不足していることです。

さらに、この結果、70% 以上の企業がデータ共有の難しさ、データ バージョン管理の混乱、データ視覚化ラベルの変換の難しさ、非構造化データの専門的な管理のための共有コラボレーション プラットフォームの欠如に悩まされています。

それで、ゲウタイに残された質問はただ一つです。

どうやって?

検索順序

名前が示すように、データセットを検索します。

2歩進んでください。

最初のステップは、AI業界の先駆的な企業と協力することです。

私たちは協力して、自動運転、インターネット エンターテイメント、新しい小売、スマート シティ、オンライン教育など、最も緊急性の高い AI 商用アプリケーションを統合するAI パブリック データセット エコシステム アライアンスを構築します。

諺にあるように、何かを始めて模範を示せば、その価値に気づいた企業や組織がもっと多く参加するようになります。

Xunjilingの発表会では、Yuanrong Qixing、Xinshiqi、Sagitar、Juefei、Aiways、Kujialeなどが「立ち上がって」支持を表明した。

格武台は、たった一つの火花が草原の火災を引き起こす可能性があると述べ、同社は、浚渫嶺の最初の噴火から中国最大の非構造化データセットプラットフォームを構築したいと考えている。

種類としては、画像、動画、音声、テキストなどを総合的にカバーしています。

リソース面では、公開データセットと大手 AI 企業のデータセットリソースの両方を備えています。

分野別に見ると、自動運転、インターネットエンターテインメント、スマートインダストリー、ニューリテール、オンライン教育、ライブストリーミングなど、商業化が最も急務となっている分野が挙げられます。

さらに、このデータセット プラットフォームが GitHub と同様に開発者に人気のあるコミュニティとなり、タイトルに暗示されているセキュリティやその他の要件を含め、より高度なデータセット管理エクスペリエンスを提供できることを願っています。

実際、中国ではこのようなオープンソースのデータセットプラットフォームが不足しているものの、業界での試みが全くなかったわけではありません。

以前、Sinovation Venturesは国内の大手AI企業と提携し、AI Challengerコンペティションを立ち上げました。Baidu、Tencent、Huawei、ByteDanceなどの企業もデータセットをコアリソースとしてチャレンジしています。

しかし、これを「フルタイム」で行うことができる人材はまだ不足しています。

AI 実践者はデータ セットの重要性を十分に認識する必要があります。

たとえば、ImageNet がなかったら、この AI 復活の波はそれほど急速ではなかったでしょう。復活を加速させ、促進したのは、Fei-Fei Li 氏や Jia Li 氏などの中国の科学者によるデータセットへの取り組みでした。

さらに、データセットは産業界、学界、研究界の緊密な連携を促進することもできます。リソースをより便利に使用できれば、より多くの力が加わり、この分野のアルゴリズムの改善と最適化を支援する機会が増えるかもしれません。

率直に言えば、データセットを公開することは、競争を始めるようなものです。産業界、学界、研究界のあらゆる分野の専門家が、アルゴリズムを自己テストできるだけでなく、データセットが配置されているシナリオを継続的により高く、より強力なレベルに進化させることができます。

したがって、この観点からすると、なぜ彼が呂奇の支持を得ることができたのかを想像するのは難しくないかもしれません。

このプロジェクトはQi Ji Chuang Tanのデモデーで注目され、Lu Qiは自らステージに立ってXun Ji Lingのためにスピーチをしました。

全体的に見て、それは良いことであり、ついに誰かがそれをやったのです。

[[374980]]

誰がやったの?

最後に、Gewutai の創設チームを紹介したいと思います。中心メンバーは全員、技術系の出身です。

創業者兼CEOの崔雲凱氏はUberの自動運転チームの初期メンバーであり、長年人工知能の研究と製品化に携わり、Uberの自動運転チームが50人から1,500人に成長するのを目の当たりにしてきました。 Uber の自動運転部門で最年少の技術リーダーであり、中国人初の技術リーダー。

他の2人の共同創業者、 Qiren ChenはSnapchatの初期の従業員であり、チャットとゲームシステムの中核開発者および技術リーダーでした。彼は分散システムソフトウェア開発において長年の経験を持っています。スナップゲームプラットフォームの開発をリードすることは、スナップが将来利益を上げるための重要な方法です。

王光宇氏は、Alibaba Local Life Service Company (Ele.me) のシニア プロダクト エキスパートです。 Ctripの旅行部門のローカルガイドプラットフォームのプロダクトマネージャーとして、プラットフォームを0から1へ、そして1から100へ構築し、プラットフォームの年間3倍の成長を達成し、会社に1億元以上の収益をもたらしました。

<<:  人工知能の真の可能性

>>:  Google Brain の最新研究: AutoML メソッドが Dropout モードを自動的に学習

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

中国科学院による1万語の説明:最先端の画像拡散モデルのレビュー

中国科学院は、Adobe および Apple の研究者と共同で、画像編集における拡散モデルに関する主...

...

8つの一般的なアルゴリズムのアイデアを説明する1つの記事

アルゴリズムとデータ構造は、常にプログラマーの基本的なスキルでした。データ構造の基本インフラストラク...

...

金融業界のデータ管理はどこへ向かうのでしょうか?

近年、インターネット金融の波は伝統的な金融業界に課題をもたらしています。同時に、伝統的な金融企業の情...

5Gは19の業界に浸透?これらの5つの分野はもっと注目に値する

2019年、「5G」は大いに期待されるテクノロジーの流行語となり、その人気は間違いなく人工知能に劣り...

人工知能とビッグデータの時代において、一般の人々はどうやってお金を稼ぐのでしょうか?

将来、旅行には自動運転車、食事にはプログラムされたスナックストリート、ヘアカットにはロボット理髪師、...

触覚を感知し、自己治癒するロボットが現実になりつつある

人間の皮膚は柔軟性があり、触り心地がよく、自己治癒力があるため、複製するのが難しいです。しかし、科学...

スマート物流の1兆ドル規模の扉が開かれ、物流ロボットがトレンドの先端に立っている

近年、インターネットの急速な発展、電子商取引の加速的な台頭、さまざまな新しいビジネスモデルの急速な実...

...

Baidu がモバイル検索ランキングアルゴリズムを調整し、アプリのランキング結果を改善

百度の関係者は、現在、携帯電話でPCのウェブサイトにアクセスした場合、最高の閲覧体験を得ることは難し...

自動運転における機械学習の核となるのはモデルではなくパイプラインである

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

ASRU2019コンペティションが終了、中国語と英語の混合音声認識技術における新たなブレークスルー

2019 IEEE 自動音声認識および理解ワークショップ (ASRU) は、2019 年 12 月 ...