Google: より多くのデータはより優れたアルゴリズムに勝ります!

Google: より多くのデータはより優れたアルゴリズムに勝ります!

Google が発表した新しい研究論文では、音声検索や YouTube 動画へのテキスト説明やタグの追加など、音声認識プログラムの背後にあるデータ サイエンスが詳しく説明されています。ほとんどの人はアルゴリズムを習得できませんが、その考え方は完全に理解できます。この論文の出発点は、人々がビッグデータに魅了される理由と、仕事に適したデータセットを選択することの重要性です。

Google は、データが多ければ多いほど良いと常に信じてきました。製品開発ディレクターの Peter Norvig 氏の言葉を借りれば、「データが多ければ多いほど、アルゴリズムが優れているよりも良い」のです。ノルヴィグの評価にはアルゴリズムに関する細かい指摘がまだ残っているものの、この論文を受け入れた人が増え、ビッグデータの分野で白熱した議論が巻き起こったことは明らかだ。モデルが学習するデータが増えるほど、たとえ最初は最も正確でなかったとしても、モデルの精度は高まります。

では、これ以上前置きせずに、音声認識システムの改善において、より多くのデータが果たす役割について見ていきましょう。研究者らは、データセットと大規模言語モデル(Google の開発に関わった n グラム モデルの Wikipedia による説明)により、最初の単語を受け取った後に次の単語を推測する際のエラー率を削減できることを発見しました。たとえば、Google の上級研究員は 10 月 31 日の研究に関するブログ投稿で次のような例を挙げています。「優れたモデルであれば、最初の 2 つの単語が「ニューヨーク」の場合、次の単語を推測する際に「グラノーラ」ではなく「ピザ」を選択する可能性が高くなります。」音声検索を行う際、彼のチームは、モデルのサイズが 2 桁増加するごとに、関係語のエラー率が 10% 減少することを発見しました。

ここで重要なのは、データセットの種類に関係なく、どのタイプのデータセットがモデルにとって有益であるかということです。検索テストでは、Google は google.com への匿名クエリのランダム サンプルを使用して、スペル修正に表示されなかった 230 語を検索しました。人間の話し方や書き方は通常の入力による検索方法とは異なるため、YouTube のモデルのデータはニュース レポートの録音や大規模な Web サイトからのスクレイピングから取得されます。 「純粋に言語モデル化の観点から言えば、トピックや話し方の多様性により、大規模なウェブクロールは言語モデル化に適した選択肢となる」と彼らは書いている。

この研究は必ずしも画期的なものではありませんが、ビッグデータとデータサイエンスが今日これほど注目を集めている理由を説明しています。消費者がよりスマートなアプリケーションとよりシームレスなユーザー エクスペリエンスを要求するにつれて、あらゆるデータの選択と各データに対応する分析ソリューションが間違いなく最優先事項になります。

<<:  ルーティングテーブルとルーター選択アルゴリズム

>>:  基本的なアルゴリズムについての簡単な説明: AVL ツリーとスプレイ ツリー (パート 3)

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

強くお勧めします!国内無料チャットGPT

導入GPT4がリリースされてから半年以上が経ち、皆さんもある程度は理解できたかと思います。しかし一方...

ディープラーニングのこれらの概念をすべて理解できましたか? TF、TLT、TRT、DS

最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...

860万の超軽量中国語と英語のOCRモデルをオープンソース化し、ワンストップでトレーニングと展開が可能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2021年に注目すべき10の重要なディープラーニングアルゴリズム

[[416068]] [51CTO.com クイック翻訳]人間が未来を予測することは困難ですが、人工...

EasyDLは、臨床試験データの敵対的学習と複数のアルゴリズムの比較を簡単に処理します。

[51CTO.com からのオリジナル記事] 画像学習は高度なアルゴリズムであり、画像への高い適応...

Google の Transformer が NeurIPS 2021 で 4 つの SOTA 賞を受賞

[[440180]] Google の Vision Transformer に関する新しい取り組み...

...

マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に

6月28日、BBCによると、英国はNHS(国民保健サービス)の全トラストに新しい人工知能技術を原価で...

2024年のAIに関する5つの予測

2023 年には、AI、ML、特に GenAI があらゆるところに存在しますが、内容よりもパフォーマ...

マイクロソフトは言語モデルをより調和のとれたものにするために複数のツールとデータセットをオープンソース化

Microsoft は最近、AI 駆動型コンテンツ モデレーション システムを監査し、AI モデルの...

新型コロナウイルス感染症の流行中に音声テクノロジーが再び注目を集めているのはなぜでしょうか?

新型コロナウイルスの世界的大流行により、各国で厳しいロックダウン措置が取られ、多くの人が外出を控えざ...

最新の! 2018年中国プログラマーの給与と生活に関する調査レポート

中国インターネット情報センター(CNNIC)が発表した第41回中国インターネット発展統計報告によると...

...