この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。 この記事では、データ サイエンス ワークフローのオーケストレーションから、より高速なニューラル ネットワークのブレークスルー、問題を解決するための基本的な統計手法の再考に至るまで、最近の最も重要な開発と影響力のあるアイデアをいくつか取り上げ、これらのアイデアを仕事に適用する方法も紹介します。
1. 機械学習システムにおける隠れた技術的負債 リンク: https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf Google リサーチ チームは、データ サイエンス ワークフローを作成する際に避けるべきアンチパターンについて明確な指示を提供します。この論文では、ソフトウェア エンジニアリングの技術的負債の比喩を借用し、それをデータ サイエンスに適用します。 画像出典: DataBricks 次の論文では、機械学習製品の構築がソフトウェア エンジニアリングの専門分野である理由と、この分野から得られる教訓の多くがデータ サイエンスにも当てはまる理由について詳しく説明します。 使用方法: 専門家からの実用的なヒントに従って、開発と生産を効率化します。 2. ソフトウェア 2.0 リンク: https://medium.com/@karpathy/software-2-0-a64152b37c35 Andrej Karpathy 氏の古典的な記事では、機械学習モデルはデータに基づくコードのソフトウェア アプリケーションであるというパラダイムが明確に示されました。データ サイエンスがソフトウェアであるなら、私たちは何を構築しているのでしょうか? Ben Bengafort は、影響力のあるブログ投稿「データ製品の時代」でこの疑問を探求しています。 (https://districtdatalabs.silvrback.com/the-age-of-the-data-product)
データ プロダクトは、ML プロジェクトの運用化段階を表します。 使用方法: データ製品がモデル選択プロセスにどのように適合するかについて詳しく学習します。 3. BERT: 言語理解のためのDeepBidirectional Transformersの事前トレーニング リンク: https://arxiv.org/abs/1810.04805 この論文では、Google の研究チームが、テキスト分析機能の大幅な改善を実現する自然言語処理モデルを提案しました。 BERT がなぜそれほど効果的なのかについては議論がありますが、これは、機械学習の分野では、その仕組みを完全に理解することなく、いくつかの成功する方法が見つかるということを思い出させてくれます。自然そのものと同様に、人工ニューラル ネットワークも謎に包まれています。 使い方:
4. 宝くじ仮説: 疎で訓練可能なニューラルネットワークの発見 リンク: https://arxiv.org/abs/1803.03635 NLP モデルがますます大きくなるにつれて (GTP-3 の 1,750 億のパラメータを参照)、より小型で高速かつ効率的なニューラル ネットワークを直交的に構築する取り組みが行われています。このようなネットワークは、運用にかかる時間が短く、トレーニング コストが低く、必要なコンピューティング リソースも少なくなります。 この独創的な論文では、機械学習の天才であるジョナサン・フランクルとマイケル・カービンが、最初はかなり大きいニューラルネットワークでも、スパースなサブネットワークで同様のパフォーマンスを達成できることを示す剪定方法を概説しています。 ノーラン・デイの「宝くじ分解仮説」 宝くじは効能と非常に強いつながりがあることを意味します。この発見は、ストレージ、実行時間、計算パフォーマンスにおいて多くの利点をもたらし、ICLR 2019 で最優秀論文賞を受賞しました。さらなる研究によりこの技術が構築され、その適用可能性が確認され、元のスパース ネットワークに適用されました。 使い方:
5. 帰無仮説の統計的検定の死の支配から解放する(p < .05) リンク: https://www.researchgate.net/publication/312395254_Releasing_the_death-grip_of_null_hypothesis_statistical_testing_p_05_Applying_complexity_theory_and_somewhat_precise_outcome_testing_SPOT 仮説検定はコンピュータが使用される前から存在していました。このアプローチに関連する課題(たとえば、統計学者でさえ p 値を解釈するのはほぼ不可能である)を考えると、Slightly Precise Outcome Test(SPOT)などの代替案を思いつくには時間がかかるかもしれません。 xkcdの重要性 使用方法: このブログ投稿「統計的仮説検定の終焉」をご覧ください。そこでは、不満を抱く統計学者が、従来の方法に関連するいくつかの課題を概説し、信頼区間を使用する別の方法を説明しています。 (https://www.datasciencecentral.com/profiles/blogs/the-death-of-the-statistical-test-of-hypothesis) これら 5 つの論文は、データ サイエンスの理解を深めるのに役立ちます。 |
<<: IT プロフェッショナルが CIO に人工知能について知ってほしい 9 つのこと
>>: ついに! SM2 国家暗号アルゴリズムが Linux カーネル コミュニティに承認されました
近年、人工知能がブームを迎えており、人々は合理的な分析と思考を通じて、人工知能の波をどのように利用し...
プラットフォームを選択するための第一の原則は、「データに近い」ことです。コードをデータの近くに保つこ...
深層強化学習は近年人気が出てきている技術です。深層強化学習の制御および意思決定プロセスには、状態、ア...
所有権や金額などの取引の基本的な特性は、基本的な数学的特性に基づいて機能する公開鍵暗号化のおかげで簡...
ジョージタウン大学の科学者が率いる国際研究チームは、COVID-19パンデミックの原因ウイルスである...
「人工知能」という用語を Google で検索して、何らかの形でこの記事にたどり着いた場合、または ...
多くの組織と連携する顧客関係管理 (CRM) コンサルタントとして、AI を主要な検討テーマとして見...
新たな住宅消費トレンドが出現[[342344]] 90年代以降の世代である荘さんは、仕事から帰宅...
人工知能やビッグデータなどの新技術の応用と推進に伴い、ビッグモデルも人気の技術となっています。もちろ...
人工知能が両親の写真から子供の顔を合成、親族関係生成のためのディープラーニング 概要: この論文では...
今日、AI テクノロジーは克服するのが難しいいくつかの主要な課題に直面しています。正確な結果を提供す...
米国移民関税執行局の最近の新しい規制は、アメリカのトップ大学の間で騒動を引き起こしている。ハーバード...
ご家族の皆さん、世界中で人気の魔法のダンス「Subject Three」、まさか兵馬俑も踊り始めると...
[[422086]]過去数年間で、Transformer は NLP 分野全体をほぼ支配し、コンピ...