陸奇氏が楽観視するAI時代のGitHubがついに実現へ

陸奇氏が楽観視するAI時代のGitHubがついに実現へ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI時代の生存と発展に最も重要なことは何でしょうか?

データ、データ、そしてさらにデータ。

特に、変革期にある中小企業や伝統的な企業にとって、データ、高品質のデータ、データの検索と管理は、インターネット開発時代のコード共有と管理の需要と同様に、最も緊急のニーズです。

では、AI 時代に合わせて構築されたデータ指向の GitHub があれば、緊急の課題を解決できるのでしょうか?

実はこれを実現した AI スタートアップ チームが存在します。

楽観的な人の中には、陸奇という大物がいる。

[[374976]]

データのためのGitHub

Gewu Titanium社が製造。

AI データ ホスティングおよびデータ コラボレーション SaaS プロバイダーである創設チームは、現在の問題点をよく理解している最前線の技術エンジニアで構成されています。

一方、AI データの準備とエンジニアリング タスクに費やされる時間は、ほとんどの AI プロジェクトの 80% 以上を占めています。 AI トレーニングでは、高品質のトレーニング データ セットとテスト データ セットが十分にない場合、高品質の AI モデルをトレーニングすることは困難です。

そのため、AI開発プロセスにおける高い隠れたコストに直面し、高品質でシナリオベースの実際の価値のあるデータを提供することが、AI産業チェーンの中核的な要求の1つになっています。

一方、人工知能は「思考」や「意思決定」の基盤として大量のデータに依存しています。これまで、企業は一般的にデータの公開に対して保守的で敏感でした。しかし、さまざまな AI アプリケーション シナリオを実装する際の技術的な難しさが徐々に表面化するにつれ、自動運転車の分野を例にとると、多くの運転シナリオは不足しています。1 つの企業がすべての交通シナリオを含むデータセットを構築するには、膨大なデータ収集コストがかかり、短期間で望ましい結果を達成することは困難です。

したがって、Gewutai の目標は、人為的な障壁の打破を加速し、より高品質で大量のデータをオープンソース方式で共有できるようにして、双方に利益のある協力を実現することです。

コード分​​野でGitHubが担うインフラの役割と同様に、AIデータ分野でも現在そうしたインフラが不足している。

そして、AI が実践されるにつれて、別の現実と事実がますます明らかになります。

AIが実装されている現実の世界では、機械学習システムのごく一部のみが機械学習コードで構成されていますが、周囲のサポートインフラは大規模かつ複雑に構成されています。

その中でも、データとデータセットは最も重要なリンクです。さらに国内の状況に目を向けると、AIプロジェクトの実施に適した実質的な価値のあるデータがさらに不足していることがわかります。

[[374979]]

統計によると、現在中国には約60万人のAI開発者がいますが、彼らが直面している現状は次のとおりです。

  • オープンソースのデータセットは一般的に海外のものであり、互換性が限られています。
  • ダウンロードと解析は困難かつ非効率的です。
  • データは不均一であり、品質を保証することは困難です。
  • 根本的な問題は、中国向けのローカライズされたデータが不足していることです。

さらに、この結果、70% 以上の企業がデータ共有の難しさ、データ バージョン管理の混乱、データ視覚化ラベルの変換の難しさ、非構造化データの専門的な管理のための共有コラボレーション プラットフォームの欠如に悩まされています。

それで、ゲウタイに残された質問はただ一つです。

どうやって?

検索順序

名前が示すように、データセットを検索します。

2歩進んでください。

最初のステップは、AI業界の先駆的な企業と協力することです。

私たちは協力して、自動運転、インターネット エンターテイメント、新しい小売、スマート シティ、オンライン教育など、最も緊急性の高い AI 商用アプリケーションを統合するAI パブリック データセット エコシステム アライアンスを構築します。

諺にあるように、何かを始めて模範を示せば、その価値に気づいた企業や組織がもっと多く参加するようになります。

Xunjilingの発表会では、Yuanrong Qixing、Xinshiqi、Sagitar、Juefei、Aiways、Kujialeなどが「立ち上がって」支持を表明した。

格武台は、たった一つの火花が草原の火災を引き起こす可能性があると述べ、同社は、浚渫嶺の最初の噴火から中国最大の非構造化データセットプラットフォームを構築したいと考えている。

種類としては、画像、動画、音声、テキストなどを総合的にカバーしています。

リソース面では、公開データセットと大手 AI 企業のデータセットリソースの両方を備えています。

分野別に見ると、自動運転、インターネットエンターテインメント、スマートインダストリー、ニューリテール、オンライン教育、ライブストリーミングなど、商業化が最も急務となっている分野が挙げられます。

さらに、このデータセット プラットフォームが GitHub と同様に開発者に人気のあるコミュニティとなり、タイトルに暗示されているセキュリティやその他の要件を含め、より高度なデータセット管理エクスペリエンスを提供できることを願っています。

実際、中国ではこのようなオープンソースのデータセットプラットフォームが不足しているものの、業界での試みが全くなかったわけではありません。

以前、Sinovation Venturesは国内の大手AI企業と提携し、AI Challengerコンペティションを立ち上げました。Baidu、Tencent、Huawei、ByteDanceなどの企業もデータセットをコアリソースとしてチャレンジしています。

しかし、これを「フルタイム」で行うことができる人材はまだ不足しています。

AI 実践者はデータ セットの重要性を十分に認識する必要があります。

たとえば、ImageNet がなかったら、この AI 復活の波はそれほど急速ではなかったでしょう。復活を加速させ、促進したのは、Fei-Fei Li 氏や Jia Li 氏などの中国の科学者によるデータセットへの取り組みでした。

さらに、データセットは産業界、学界、研究界の緊密な連携を促進することもできます。リソースをより便利に使用できれば、より多くの力が加わり、この分野のアルゴリズムの改善と最適化を支援する機会が増えるかもしれません。

率直に言えば、データセットを公開することは、競争を始めるようなものです。産業界、学界、研究界のあらゆる分野の専門家が、アルゴリズムを自己テストできるだけでなく、データセットが配置されているシナリオを継続的により高く、より強力なレベルに進化させることができます。

したがって、この観点からすると、なぜ彼が呂奇の支持を得ることができたのかを想像するのは難しくないかもしれません。

このプロジェクトはQi Ji Chuang Tanのデモデーで注目され、Lu Qiは自らステージに立ってXun Ji Lingのためにスピーチをしました。

全体的に見て、それは良いことであり、ついに誰かがそれをやったのです。

[[374980]]

誰がやったの?

最後に、Gewutai の創設チームを紹介したいと思います。中心メンバーは全員、技術系の出身です。

創業者兼CEOの崔雲凱氏はUberの自動運転チームの初期メンバーであり、長年人工知能の研究と製品化に携わり、Uberの自動運転チームが50人から1,500人に成長するのを目の当たりにしてきました。 Uber の自動運転部門で最年少の技術リーダーであり、中国人初の技術リーダー。

他の2人の共同創業者、 Qiren ChenはSnapchatの初期の従業員であり、チャットとゲームシステムの中核開発者および技術リーダーでした。彼は分散システムソフトウェア開発において長年の経験を持っています。スナップゲームプラットフォームの開発をリードすることは、スナップが将来利益を上げるための重要な方法です。

王光宇氏は、Alibaba Local Life Service Company (Ele.me) のシニア プロダクト エキスパートです。 Ctripの旅行部門のローカルガイドプラットフォームのプロダクトマネージャーとして、プラットフォームを0から1へ、そして1から100へ構築し、プラットフォームの年間3倍の成長を達成し、会社に1億元以上の収益をもたらしました。

<<:  人工知能の真の可能性

>>:  Google Brain の最新研究: AutoML メソッドが Dropout モードを自動的に学習

ブログ    

推薦する

...

大規模なモデルを効率的に展開するにはどうすればよいでしょうか? CMU の最新の LLM 推論と MLSys 最適化テクノロジーに関する 10,000 語のレビュー

人工知能(AI)の急速な発展を背景に、大規模言語モデル(LLM)は、言語関連のタスクにおける優れたパ...

ブロックチェーン技術を活用してディープフェイク動画の脅威に対抗する方法

デジタル革新が主流の時代において、ディープフェイク動画の増加は広く懸念されるようになっている。ディー...

速達荷物を受け取るには顔認証しか方法がないのでしょうか?上海郵政:申通、菜鳥郵政などと面談し、集荷の同意を得る必要がある

[[404490]]宅配業者があなたに電話もせずに荷物を集荷場所に「投げる」という経験をしたことはあ...

ビジネス界がディープラーニングの導入に消極的である4つの理由

[51CTO.com クイック翻訳] 過去数年間にわたり、多くの企業がデータ主導のアプローチを採用す...

7億7千万パラメータ、5400億PaLMを超えます! UW Google はトレーニング データの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

大規模言語モデルは優れたパフォーマンスを持ち、ゼロショットまたは少数ショットのプロンプトで新しいタス...

...

ドローンの墜落を防ぐにはどうすればいいですか?

「墜落」とは模型飛行機の用語です。簡単に言うと、模型飛行機が不適切な操作や機械の故障により異常に地...

CNNとRNNの比較と組み合わせ

CNNとRNNはディープラーニングのほぼ半分を占めているので、この記事ではCNN+RNNとさまざまな...

AIサイバーセキュリティの今後の課題:最初で最後の防衛線となる方法

ニューヨーク・タイムズ紙によると、世界の AI サイバーセキュリティの求人市場では、2021 年まで...

建物をスマートかつ持続可能なものに変える重要性

[[428632]]温室効果ガス削減目標と規制要件を満たすには、企業は施設をエネルギー効率の高いスマ...

...

Facebook の 10,000 ワードの記事: すべての AI モデルが PyTorch フレームワークに移行

PyTorch は 2017 年のリリース以来、GitHub の人気リストで急速にトップに立ち、一時...

科学者らが病気の早期発見と治療のための埋め込み型人工知能システムを開発

海外メディアの報道によると、人工知能(AI)は医療とヘルスケアを根本的に変えるだろう。心電図、脳波、...

...