スタートアップにハイエンド AI を実装するにはどうすればよいでしょうか?

スタートアップにハイエンド AI を実装するにはどうすればよいでしょうか?

【51CTO.comオリジナル記事】

[[193891]]

人工知能は、1956 年のダートマス会議でジョン マッカーシーによって提唱されました。 人工知能とは、機械の動作を人間が示す知的な動作のように見せることです。この記事では、人工知能の開発段階とスタートアップ企業が AI 技術チームを構築する方法について説明します。

AIの高レベル知能への移行の3つの段階

現在、人工知能は比較的基本的な計算知能から、より高次の知能へと移行しつつあります。高次の知能には 3 つの段階があります。 最初の段階は知覚知能で、機械が聞くことと見ることができることが必要です。よく音声認識と呼ばれるものは、聴覚的なものです。機械は、人が話した文章を音声信号からテキスト情報に変換します。

そして、視覚、つまりコンピューター ビジョンがあり、これは物を見て、顔や物体、さらには感情の変化さえも区別することができます。

人工知能は知覚段階を通過した後、 次の認知段階に入ります。機械はある程度のコンテンツを理解できるようになり始めています。たとえば、音声認識では、機械はテキストを認識するだけで、人がどのような情報を表現したいのかを実際に理解することはできません。これには自然言語理解が含まれます。これは機械にとっては非常に難しいことです。

認知段階のもう 1 つの方向は分析と判断であり、ここでは機械が現在の状況に基づいて積極的な判断を下します。たとえば、チェスのゲームでは、コンピュータ自体はチェスをプレイしていることを認識していませんが、オペレーターがルールを定義した後は、いくつかの超大規模なディープニューラルネットワークを通じて最善の判断を下すことができます。

人工知能が認知において画期的な進歩を遂げて初めて、次の段階である創造について語ることができるようになります。創造とは、コンピューターが感情や自律的な意識を持ち始め、自ら新しいものを創造できるようになる段階です。この段階はまだ遠いので、コンピューターが人類を滅ぼすという主張についてあまり心配する必要はありません。

大きな出来事と人工知能の着実な発展

1997年、IBM Deep Blueが人間の世界チェスチャンピオンを破りました。これはAI開発の歴史における画期的な出来事でした。しかし、チェスは囲碁よりもはるかに単純であり、長い間、コンピューターが囲碁の問題を解くことができるとは誰も信じていませんでした。

2011年までに、IBMはWatsonを使ってジェパディゲームで人間に勝利しました。これは、言語理解と大規模クエリのいくつかの側面におけるコンピューターの利点を実証します。

2016年にAlphaGoが囲碁の世界チャンピオンを破った後、ディープラーニングと人工知能は確かに多くの問題、特に決定論的な問題を解決できることが皆に分かりました。

人工知能は近年、主にジェフリー・ヒントンの影響により大きな進歩を遂げました。彼はニューラル ネットワークを最初に提案した 3 人のうちの 1 人であり、ディープ ニューラル ネットワークに精力的に取り組んでいます。

異なるマシン上でクラスターを形成できる GPU の登場により、コンピューティング能力が十分に強力になったことに気付いたのは、5 年前のことでした。コンピューティング能力は、10 年前と比べて 100 倍以上も向上していました。 これまで解決できなかった問題が解決できるようになり、これまでトレーニングできなかったモデルもトレーニングできるようになりました。

2 つ目の側面は、 膨大な量のデータです。これは、大量のユーザーデータを保有する Google や Facebook などの大企業によく表れています。現在では、大量のデータがあれば、非常に単純なモデルでも非常に優れた結果を達成できます。言い換えれば、データはアルゴリズムよりも効果的であることが多いのです。

ディープラーニングが提案されてから、 まず音声認識の分野で画期的な進歩が遂げられ、精度が30~40パーセント向上しました。画像認識や機械翻訳でも大きな進歩がありました。

ディープラーニングの素晴らしい点の一つは、 シンプルで実用的であることだと考えます。音声認識を行う際は、最初に非常に複雑なガウス混合モデルと識別トレーニング アルゴリズムを使用します。しかし、ディープラーニングでは、それが比較的簡単になりました。データを準備し、十分な大きさのモデルを用意し、データを入力するだけで、優れたシステムをトレーニングして直接使用することができます。これディープラーニングの利点かもしれません!

一方、 ディープラーニングはGPUクラスター上で計算できるため、大規模なトレーニングを完了するために大量のマシンを購入する必要はありません。多くのスタートアップ企業が比較的大規模なモデルや高性能なシステムをトレーニングできるのも、この理由によるものです。

スタートアップがAIシステムを構築する方法

上記ではAIとは何かについて説明しました。次に、スタートアップ企業が限られたリソースで効率的なAIシステムを構築する方法について説明します。 AI システムは、主にデータ、アルゴリズム、エンジニアリングの3 つの部分に分けられます。人間に例えると、 データは血液、アルゴリズムは脳、エンジニアリングは骨です。

データがなければ、アルゴリズムは教科書の中にしか残れません。データとアルゴリズムが組み合わされて初めて、それらは真の製品のプロトタイプになることができます。強力なエンジニアリングがなければ、製品は研究室から出ることはなく、デモンストレーションの段階にとどまってしまいます。したがって、真に有用な人工知能システムと製品を作成するには、これら 3 つを密接に組み合わせる必要があります。

製品がうまく機能すると、システムはより多くのユーザーデータを取得し、そのデータをシステムにフィードバックすることで、好循環が形成され、システムのパフォーマンスが継続的に向上します。人工知能製品は他の製品と異なる点があります。他の製品は一般的に機能が完成すると完成しますが、人工知能システムは常に反復して最適化されるシステムです。

データに関して、どのようにデータを取得するのでしょうか?

小さなスタートアップ企業なので、特に最初はデータがありません。会社はどのようにして最初のデータを入手すればよいのでしょうか?実はいろいろな方法があるんです。例えば、音声認識をやっているときに、おばさんに料理を手伝ってもらったりとか。料理が終わった後、彼女にレシピ本を渡し、1時間かけて読んでもらい、音声を録音しました。1か月間、1日1時間録音し、1か月後には30時間分のデータができました。

これらのデータは基本的に小さなシステムを作ることができます。私たちはエンドツーエンドのデモシステムを構築し、サーバーをセットアップしました。その後、ユーザーはアプリでクンバオチキンなどの料理について質問することができ、システムはそれを認識します。これを基に、エンジニアリングの最適化とシステム作業を開始できます。

これを行った後、このアプローチが実行可能であることがわかりました。この基本システムを導入すれば、さらに多くの方法と自動データ収集方法を使用してプラットフォームを構築できます。 Google の API が公開されると、ユーザーは音声データを一括して入力でき、システムは結果をユーザーに返すようになりました。結果は 100% 正確ではないかもしれませんが、実験を実行するための基本的なデータがすでにいくつか用意されていました。

どのようなデータが価値があるのでしょうか?

明らかに、実際のユーザーデータが最も価値があります。ただし、この製品に対する企業の定義によっても異なります。スタートアップ企業としては、大規模で包括的なシステムを構築することはできませんが、むしろ垂直的な分野に重点を置き、独自の特徴を作り出すべきです。たとえば、Chumenwenwen は、場所、ホテル、レストラン、列車のチケット、航空券の問い合わせに関連する情報を含む、旅行に関連するいくつかの垂直分野に焦点を当てています。チームはこれらの分野で大量のデータを収集しています。この点において、1 時間のデータは、10 時間以上の一般的なデータの収集に相当します。

システムはどれくらいのデータを収集する必要がありますか?

人工知能システムを構築する際には、どれくらいのデータを収集する必要がありますか?当然、データの量は多いほど良いのですが、コストが限られているため、基本的なニーズを満たすのに十分なデータを収集すれば十分です。ここで判断を下す必要があります。曲線を描くことができます。たとえば、音声認識に関して言えば、さらに 1,000 時間追加すると、システムのパフォーマンスはどの程度向上しますか?一般的に、システムが一定量のデータに達すると、データから得られるパフォーマンスの向上はますます小さくなります。転換点に達すると、アルゴリズムやエンジニアリングなどの他の領域に投資された同じリソースが、より大きな成果をもたらす可能性があります。

オープンソースのアルゴリズムを効果的に使用して、より少ない労力でより多くの結果を得る

学術界では、アルゴリズムの研究は当初、米国国防総省が主導するいくつかのプロジェクトによって進められ、いくつかの学術的進歩がもたらされました。しかし、過去 5 年から 10 年は、基本的に Microsoft Research や Google などの大企業や研究機関が主導してきました。これらの企業は大量のデータと大量のコンピューティング リソースを保有しており、アルゴリズムやテクノロジーに大きな改善をもたらすことができるからです。

スタートアップとして、私たちは車輪の再発明をしたくないので、音声認識用のKaldiや、OpenFstやOpenGrmなどのオープンソースソフトウェアなどのオープンソースのものを使用するようにしています。音声合成、意味理解、ディープラーニングといった部分は基本的にオープンソースのものを使用します。当社では主に Google のオープンソース ソフトウェアを使用しているため、会社全体のエンジニアリング基盤、コード ベース、コード標準はすべて Google のスタイルに準拠しています。

技術チームの構築経験

当社では、C++ コーディング スタイルを重視するなど、コードの品質に対して非常に高い要件を設けています。 Google には可読性という指標があります。つまり、新しい人が入社したとき、どんなに経験豊富でも、コードの可読性テストに不合格になると、そのコードをコードベースに直接提出することはできません。 可読性の証明書を取得する必要があります。

いわゆる可読性を実現するためには、プログラマーは一定量のコードを記述し、そのコードを社内のコード委員会に提出する必要があります。委員会はコードを見て、多くの修正提案を提出します。おそらく、プログラマーが 100 行のコードを書き、500 行の提案が出されたのでしょう。これは普通のことです。そして、このような反復とサイクルを何度か繰り返した後、最終的にこのプログラマーのコーディング能力は Readability Certificate を取得したと言えるようになります。

また、 特にいくつかの重要なアルゴリズム エンジニアリングの側面では、ユニット テストが非常に必要です。ユニットテストは短期的には時間がかかりますが、長期的には非常に重要です。大規模なソフトウェア システムの作成は、積み木を積み上げるようなものだからです。1 つの積み木が安定していないと、建てられた家はすぐに崩壊してしまう可能性があります。特に、人事異動があった場合など、特定の状況では、ユニット テストが行​​われず、新しい人がコードを変更した場合、コードが以前の機能を完了できるという保証はありません。

コードレビューも非常に重要です。私自身もコードレビューに多くの時間を費やしています。特に新しい生徒の場合、コードレビュー機能を使用してコーディングスタイルをすぐに理解し、高品質のコードを書けるようにすることができます。最初の1~2か月は時間がかかるかもしれませんが、軌道に乗ると仕事の効率が大幅に向上します。ただし、フロントエンドチームはこれには適していない可能性があります。

コードの提出に関しては、コードを提出する前に、上級エンジニアから LGTM (Look Good To Me の略) を取得する必要があります。一般的に言えば、LGTM からコードが提出されない場合はプロセスに準拠していないため、通常は彼と話し合います。

最後に、より効率的な開発環境が必要であり、そのためには強力で安定した基本ライブラリが必要です。私たちは、大規模なオープンソース プロジェクトからいくつかの有用なものを抽出して基本ライブラリに組み込み、それを基にして独自の基本ライブラリをいくつか追加します。

強力で安定した基本ライブラリは非常に重要です。たとえば、Google の基本ライブラリでは、基本ライブラリの安定性と効率性を確保するために、Jeff Dean をはじめとするトップ エンジニアによって多くのコードが書かれていることがわかります。

人材採用では問題解決能力に重点を置く

どうやって人材を募集するのですか?どのような人材を募集していますか?実際、大企業と中小企業は大きく異なります。 大企業は、いわゆるスペシャリストと呼ばれる非常にプロフェッショナルな人材を採用したいと考えています。つまり、特定の分野で非常に深い仕事をすることができる人材です。大企業では、10 の異なる側面を理解することは求められていないため、1 つの側面を詳細かつ徹底的に行うだけで済みます。

スタートアップ企業の場合はまったく逆で、社内の従業員はわずかしかおらず、その従業員が 10 項目すべてを達成する必要があります。私たちは通常、 ジェネラリストを採用したいと考えています。つまり、あまり専門的である必要はありませんが、学習能力が高く、より多くのプロジェクトを引き受ける意欲を持っている必要があります。このようにすれば、スタートアップ企業の急速な発展により適した人材になります。

実行も非常に重要です。タスクを時間どおりに完了できなければなりません。もちろん、多くの問題や課題があります。私たちは、従業員がタスクを完了できないさまざまな理由を探すのではなく、最終的にはタスクを完了する方法を自発的に見つけることを願っています。

最後に、 優れたコミュニケーションスキルを持ち、チームメンバーとコミュニケーションをとって協力して仕事ができることが重要です。

中小企業のCTOはオールラウンドな才能が必要

CTO の主な機能は何ですか? まず第一に、会社にとって価値を生み出すことであり、それが間違いなく最も重要なことです。企業にとって最も重要なことは何でしょうか?まず第一に、その製品は品質が良く、商品化可能で、利益を生むものでなければなりません。これが最も重要なことです。 CTO は技術的な側面に責任を負います。テクノロジーと製品をより有機的に組み合わせて、会社にとってより大きな価値を生み出すにはどうすればよいでしょうか?

CTO は、現在のテクノロジーを製品とより良く統合する方法を考えるだけでなく、中期および長期の計画についても考える必要があります。つまり、 既存のチームとリソースを使用して、今後 1 ~ 2 年で製品の優位性を維持し、革新性を維持し、製品の競争力を向上させるために、どのような投資を行う必要があるかということです。これは、CTO の戦術と戦略に対するコントロールをテストするため、非常に重要です。

2 番目のタスクは、 チームを構築し、今後数年間にわたって会社が開発する方向性やテクノロジーを決定することです。次に、 リソースが確保されていることを確認する必要があります。すると、CTO は人材の採用に多くの時間を費やす必要があります。 CTO がすべてをこなすのは不可能です。特定の分野で自分よりも優れた人材を多数採用する必要があります。こうした人材がいれば、エンジニアリング チームと技術チームは真に戦闘態勢を整え、1 人でできないことを達成できるようになります。

多くの場合、中小企業では、CTO は消防士の役割も担います。困難な問題が発生すると、CTO は全員を率いて急いで問題を解決しなければなりません。

著者: Lei Xin 編集者: Wu Congcong、Sun Shujuan この記事は「CTO Says」から抜粋したものです。

レイ・シン

[[193892]]

MobvoiのCTO、人工知能の専門家

Lei Xin 氏は、人工知能、特に音声認識の分野で 10 年以上の研究と業務経験を持っています。 2006 年、ワシントン大学シアトル校で博士号を取得した後、レイ・シンはソフトウェア設計エンジニア兼音声技術科学者としてマイクロソフト本社に入社し、マイクロソフトの音声認識エンジンの話者適応モジュールの開発を担当しました。その後、スタンフォード研究所 (SRI) に研究エンジニアとして入社し、SRI の 2008 年の大規模な中国語音声認識システムの開発を主導しました。その後、Google Research に主任研究科学者として入社し、ディープ ニューラル ネットワークに基づく Google のオフライン音声認識システムの開発を主導しました。現在、Lei Xin は Mobvoi の優秀​​な AI チームを率いて、ウェアラブル、車載、家庭用デバイスへの人工知能の応用に関する研究開発を行っています。


[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  R言語におけるAprioriアルゴリズムの応用

>>:  数十億のプロモーショントラフィックでも正確な推奨を行うことは可能でしょうか?コアアルゴリズムの応用実践の解釈_ITテクノロジーウィークリー第505号

ブログ    
ブログ    
ブログ    

推薦する

今後10年間の主要な投資の方向性を予測して、あなたは未来に向けて準備ができていますか?

古代から今日のモバイルインターネット時代に至るまで、人類の誕生以来、世界に影響を与えてきたあらゆる破...

再サンプリングからデータ合成まで: 機械学習における不均衡な分類問題にどのように対処するか?

機械学習とデータサイエンスを少しでも勉強したことがあるなら、クラス分布の不均衡に遭遇したことがあるは...

Microsoft のエンジニアが PyTorch を使用してグラフ アテンション ネットワークを実装し、驚くべき視覚効果を実現

最近、グラフアテンションネットワークの視覚化に関するプロジェクトが多くの研究者の関心を集めており、開...

生成型AIの7つの秘密

誇大宣伝されているかどうかは別として、人工知能アルゴリズムの可能性は依然として有望です。しかし、今日...

自動応答は人工知能ではなく、自律応答は

セキュリティ オペレーション センター (SOC) のアナリストは推論と意思決定に優れていますが、2...

AIテキスト翻訳システムの品質が44%向上し、500億以上のパラメータを使用して200の言語を翻訳

Meta Platforms は本日、Meta が社内開発した、200 言語のテキストを翻訳できる人...

上海で一人っ子を亡くした母親が、AIを使って14歳の娘を「蘇らせた」...

大切な人が亡くなったら、その人の記憶をAIに引き渡しますか?「The Debaters」のこの討論テ...

...

Google の研究者が発狂: AI に人格があると信じ、有給休暇を取得し、チャットログが恐ろしい

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ジェミニのオンライン初日:ユーザーからの評価はまちまち、デモは「偽物」と疑われ、Googleはそれを認めた

「Googleさん、ちょっと恥ずかしいです。」 Gemini のローンチ初日に、人気のコメントがこの...

...

アルゴリズム図: 括弧が有効かどうかを判断するにはどうすればよいでしょうか?

[[346613]]この記事はWeChatの公開アカウント「Java Chinese Commun...

人工知能について知っておくべきことすべて

人工知能とは何でしょうか? この質問に対する答えは、誰に尋ねるかによって異なります。 1950 年代...

通信業界は最大のAI市場となり、2021年に重要な転換点を迎える

Informa傘下の世界的に有名な市場調査会社Tractica/Ovumは、30の分野で約300件の...

...