[51CTO.com オリジナル記事] Doug Cutting 氏はオープンソース コミュニティにおける技術の神様です。2000 年の Lucene にしても、Lucene から派生したエンタープライズ レベルの検索プロジェクト Solr や ElasticSearch にしても、もちろんその後世界中で人気を博した Hadoop にしても、彼が手がけたオープンソース プロジェクトはどれも影響力が広く、優れた成果を上げています。筆者は長年技術の最前線で働いてきたプログラマーではありませんが、その名前は以前から聞いていました。今回のインタビューは筆者がずっと楽しみにしていたものです。
Hadoopについて Hadoopの誕生について語る際、ダグ・カッティング氏は皆の前で驚きの表情を見せた。彼は、目の前のプロジェクトを完了することだけを望んでいたが、この技術が開発されたら、これほど幅広い用途に使えるとは想像もしていなかったと語った。例えば、当時は製造業、銀行業、通信業など、これほど多くの業界で広く利用されるとは予想していませんでした。当初は主に検索エンジンやウェブサイト作成で利用されるだろうとしか考えていなかったので、嬉しい驚きでした。 「私が最も驚いたのは、Hadoop 周辺および Hadoop に基づくすべてのプロジェクトとテクノロジが独立して存在しているのではなく、複数のテクノロジに基づく一連のファミリであり、テクノロジ システム全体が現在も開発と進化を続けていることです。つまり、Hadoop を中心に非常に強力なエコシステムが形成されており、このエコシステムの進化と発展は、1 つのテクノロジによって制限されるものではありません」とDoug Cutting 氏は付け加えました。 わが国における Hadoop の開発と成長に関して言えば、中国市場と Hadoop の間には非常に自然な適合性があることがわかります。データの観点から見ると、私の国は世界最大の単一市場であり、世界の他のほとんどの国よりもデータ量と規模が大きいと言えます。これが、Hadoop が私の国で非常に成功した理由の 1 つです。この特殊な開発環境により、私の国の Hadoop エコシステムと他の国の Hadoop エコシステムの間にいくつかの違いが生じている可能性があります。 ダグ・カッティング氏は次のように述べた。「中国では、多くのHadoopユーザーがオープンソース版のHadoopに慣れており、特定の企業からのサポートや支援を必要としません。米国と比較すると、中国市場は市場の教育と育成に多くの時間を費やす必要があります。言い換えれば、長期的な視点で、人々はこれらのソフトウェアを使用する過程で関係者からサポートと支援を得ることができれば、より良い体験ができることを理解する必要があります。中国ではこのような市場教育に長い時間がかかるかもしれませんが、私は中国におけるHadoopの発展の見通しに自信を持っています。」 いかなる技術の改善も、継続的な開発のプロセスで革新的な活力を生み出す必要があり、Hadoop についても同様です。クラウド コンピューティング市場にとって、今年はまたもや激動の年です。Doug Cutting は、クラウド コンピューティングが Hadoop に与える影響について独自の考えを持っています。 「クラウドコンピューティングやクラウドモデルは、クラウド環境でのHadoopの使用など、Hadoopの使用方法に関して顧客により大きな柔軟性を与えると思います。Hadoopをローカルインストールで使用する場合、さまざまな異なるアプリケーションをサポートするために単一の大規模なクラスターを作成する必要があり、データの統一されたコピーが必要です。クラウド環境でHadoopを実行する場合、データはAmazon Storageなどのシステムにあり、クラウド環境プロバイダーがデータのコピーの管理を支援します。さらに、クラウド環境でHadoopを使用する場合、顧客は異なるアプリケーション用に異なるクラスターを作成でき、クラスターの切り替えやスケールをオンデマンドで行うことができます。顧客にとっては、アプリケーションの制御が向上し、柔軟性が向上します。 IT全体の長期的な発展傾向を見ると、かつては企業内のITは1つの部門に集中することが多かったが、現在では多くの企業のデータやデジタル技術が企業全体に広がり、活用されている。IT以外のさまざまな部門がITのセルフマネジメントやセルフサービスを行う能力がますます高まり、これを実現するのに役立つツールもますます増えている。クラウドコンピューティングがこの傾向の発展を促進し、牽引してきたと言わざるを得ない。 クラウド コンピューティングの登場により、運用、製造、マーケティングなどの企業内の非 IT 部門が、以前よりもはるかに優れた制御と柔軟性をもって、一部のサービスを独自に購入して実行できるようになりました。したがって、クラウド コンピューティング自体も、IT とデータの分散化とセルフサービス化を促進し、従来の集中型モデルを変えています。インタビュー中、著者は Doug Cutting 氏に、データ ウェアハウス アーキテクチャと少量データ向けの Hadoop アプリケーションに関連する問題についても相談しました。 51CTO レポーター: 最近、データ エキスパートの中には、データ ウェアハウス アーキテクチャの補足として Hadoop を使用する傾向にある人がいます。この問題についてどうお考えですか? Doug Cutting:データ ウェアハウス アーキテクチャに関して言えば、実際にはデータ ウェアハウス全体を Hadoop 上に構築できます。 5 年前、私たちはデータ ウェアハウス アーキテクチャの主要な作成者である Ralph Kimball 博士と協力し、データ ウェアハウスを完全に Hadoop 上に構築できることを解明して証明しました。そして実際に、多くのユーザーがデータ ウェアハウスを完全に Hadoop 上に構築しています。 もちろん、データ ウェアハウスを構築するためのテクノロジーという点では、Hadoop よりも古くから存在するテクノロジーやツールは他にもあります。実際、Hadoop はこれらの古いテクノロジーの機能やパフォーマンスをすべて備えているわけではありません。しかし、それでも多くのユーザーは、より優れたスケーラビリティ、より高いコスト効率、より優れた柔軟性を実現するために、Hadoop アーキテクチャ上にデータ ウェアハウスを構築することを選択しています。 スタートアップ企業の中には、Cloudera Hadoop を使用してデータ ウェアハウス全体を構築するところもあります。一方、従来の技術アーキテクチャを備えたデータ ウェアハウスをすでに持っている他のタイプの企業も、Cloudera Hadoop を採用し、従来のデータ ウェアハウスのワークロードの一部を Cloudera Hadoop プラットフォームに移行します。このような企業では、実際にはデータ ウェアハウスの規模が大きくなり、スケーラビリティが向上し、コストが削減されます。もちろん、従来のテクノロジーに基づくデータ ウェアハウスをすでに持っている企業にとって、すべてのワークロードを Cloudera に移行することは困難です。ただし、適合性と互換性の問題により、部分的な移行は完了できます。 51CTO: データ量が非常に少ないアプリケーションの場合、Hadoop を使用するのはやりすぎだと考える人もいます。これについてはどう思われますか? Doug Cutting: 「大ハンマーでナッツを殺す」ようなものかどうかは、主にユーザーがタスクを完了するためにどのようなツールが必要かによって決まります。規模と拡張性が需要を上回る場合もありますが、それでも柔軟性の利点をもたらすことができます。たとえば、Spark ベースの機械学習ツールを使用する場合、規模が大きすぎる場合でも、ユーザーは Hadoop プラットフォームがタスクを完了するのに非常に役立つと感じることがあります。実際のアプリケーションでは、多くのアプリケーションで、5 ノードのクラスターなどの非常に小さなクラスターであっても、Hadoop を使用すると他の技術オプションよりも優れた出力が生成され、より多くの価値と競争力がもたらされることがわかっています。もちろん、Hadoop がすべての問題を解決できる汎用ツールであるとは考えていません。 Doug Cutting 氏は、Hadoop と Spark に加え、オープンソース分野では Kudu にも注目しています。 Kudu は、Hbase のようなランダム アクセスの強力な知識機能と HDFS の高速クエリ機能の両方を備えた強力なストレージ エンジンです。もう 1 つは、強力なリアルタイム アプリケーション サポートとストリーム処理機能を備えた Kafka です。Cloudera は、顧客のニーズをよりよく満たすために、この 2 つのテクノロジーをプラットフォームに採用したと理解されています。 「当社は、さらにいくつかの Spark 機械学習ツールも構築しています。関連プロジェクトとして、ネットワーク セキュリティ機能を実証し、ハッカーの攻撃からお客様を保護する Apache Spot があります。これは、Hadoop と Spark に基づく当社のさらなる進歩です」と Doug Cutting 氏は述べています。 人工知能について 今日の人工知能の人気を説明するのは難しい。人工知能、ビッグデータ、Hadoopについて、ダグ・カッティング氏は次のように強調した。「 HadoopとAIは非常に相性が良く、相性の良い技術だと思います。AI自体がビッグデータの応用だからです。特にAIシステムをトレーニングする場合、使用するデータが多いほど、AIシステムはより高度になります。先週、Googleは主にAI画像認識に関する記事を発表しました。つまり、数十億の画像認識によるディープラーニングシステムのトレーニングに基づいて、使用するデータと画像が多いほど、ディープラーニングの画像認識能力が強くなります。つまり、人工知能システムのトレーニングに使用するデータの量が多いほど、人工知能システムの質が高くなります。この意味で、AI自体もビッグデータの応用です。」著者は最近、AIに関する多くのコメントや製品に遭遇しており、ダグ・カッティング氏にナレッジグラフとディープラーニングに関する見解を語ってもらいました。 51CTO記者:Googleが2012年にナレッジグラフを発表して以来、業界での認知度が高まっています。ナレッジグラフに代表される知識工学もますます注目を集めています。ナレッジグラフが人工知能の開発と実装を促進するための重要なツールや技術的手段であるという見方をどのように理解していますか? ダグ・カッティング:まず、ナレッジグラフとナレッジエンジニアリングに関して言えば、人工知能を推進するプロセスにおいて、この種のナレッジグラフとナレッジエンジニアリングの方法は、統計的方法ほど成功していないというのが私の意見です。私が学生だった1980年代には、すでに知識工学が非常に人気がありました。現在、ディープラーニングの成功は、知識工学ではなく、主に統計的手法、つまり大量のデータに基づくさまざまなモデルのトレーニングに依存しています。画像認識、音声認識、分類タスクの完了において大きな進歩が遂げられています。もちろん、ナレッジグラフやナレッジエンジニアリングのような手法が人工知能の開発で決して成功しないと言っているわけではありません。ただ、現状では統計的手法ほど効果的ではないというだけです。 51CTO記者:ディープラーニングにはまだどのような欠陥があると思いますか? ダグ・カッティング:ディープラーニングのさらなる発展に向けた課題についてですが、最大の課題はディープラーニングがどれだけ有用で、応用可能で、幅広い範囲に及ぶかということだと思います。現在、ディープラーニングは、いくつかの認識および識別タスクの完了に非常に効果的です。たとえば、ディープラーニングは、大量のノイズや干渉要因の中での明確な識別、分類、ラベル付けに非常に優れていますが、状況分析と意思決定を必要とする他の多くの種類のタスクは、この能力に完全に依存しているわけではありません。現在、ディープラーニングが他の多くのタスクを達成する能力について人々は非常に楽観的ですが、そのような楽観主義が行き過ぎにならないことを願っています。 [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
<<: ディープラーニングを使って夢に現れる物体を分析する(完全版)
>>: Sitechiは新たなブルーオーシャンを開拓し、中小企業市場に注力
現在、AI によって完全に有効化されたプロセスを備えている企業はわずか 25% であり、これらの企業...
51CTO 編集者注: 「Java ガベージ コレクション メカニズムの簡単な分析」では、Java ...
英国のオンラインスーパーマーケットOcadoは最近、アンドーヴァーにある自社の自動倉庫をメディア向け...
情報化の急速な発展に伴い、顔認証や指紋認証などの技術が徐々に普及しつつあります。技術の進歩によっても...
01 「フルスタック自主開発」は小さな農民経済過去2年間、私はさまざまな機会に、さまざまなサプライ...
今日、ますます多くのサーバーベンダーが、人工知能を活用したサーバー自動化テクノロジーの開発に取り組ん...
[[240276]]著者: ゲストブログ翻訳:張玲校正:丁南雅この論文では、ディープラーニングとそれ...
PaddleOCR は、PaddlePaddle ディープラーニング フレームワークに基づいて開発さ...
かつて、人工知能医療診断の先駆者であったIBM Watson(通称ワトソン)は、現実世界における人工...
データ駆動型マーケティング戦略は組織の成長と発展に重要な役割を果たしており、組織はデータ駆動型マーケ...
AI が生成したデータを使用して AI をトレーニングしても魔法のようには機能せず、逆効果になるだ...
あらゆる計算集約型のアクティビティと同様に、ChatGPT のような AI システムでは大量の処理と...