定量評価、アルゴリズム拡張:強化学習研究の10原則

定量評価、アルゴリズム拡張:強化学習研究の10原則

[[252430]]

ビッグデータダイジェスト制作

編纂者:江宝尚

今年 9 月に開催された Deep Learning Indaba 2018 Summit では、多くの有益な情報が得られました。昨日、自然言語処理に関する 27 人の著名人からの素晴らしい質問と回答をまとめました。今日は、強化学習の 10 の原則のリストをまとめます。これらは強化学習に役立つだけでなく、機械学習の研究にも参考になります。

これらの 10 の原則は、インサイト データ解析研究センターの博士課程の学生であるセバスチャン ルーダー氏が、カンファレンス中のデビッド シルバー氏の報告に基づいてまとめたものです。ルーダー氏は独自の分析に加え、自ら撮影した写真も公開しました。

1. 評価が進歩を促す

定量的な評価が進歩を促進します。評価報酬の選択によって、進捗の方向が決まります。評価基準が目標と密接に関連していること、および主観的な評価(人間の被験者など)を避けることが重要です。もう 1 つのポイントは、二重 Q 学習は単一 Q 学習よりも優れているということです。これは、後者の方がバイアスを削減できるためです。

2. アルゴリズムのスケーラビリティが成功を左右する

パフォーマンスの上限を回避するには、アルゴリズムのスケーリング方法が非常に重要です。ディープラーニングは効率的に拡張できるため優れていますが、サンプル効率も同様に重要です。

アルゴリズムのスケーラビリティはリソースに依存し、アルゴリズムのスケーラビリティがアルゴリズムの成功を決定します。では、リソースが増えるとパフォーマンスはどのように向上するのでしょうか。ここでのリソースとは、コンピューティング、メモリ、またはデータを指すことに注意してください。

3. 汎用性、つまり他のタスクにおけるアルゴリズムのパフォーマンスが非常に重要である

重要なのは、挑戦的なタスクのセットを設計することです。つまり、さまざまな新しいタスクを評価する必要があります。現在のタスクをやり過ぎないようにしてください。

4. エージェントの経験を信頼する

人間の専門知識に頼らず、設計された機能にも頼らないでください。データが限られている場合、ドメインの専門知識と帰納的バイアスは非常に重要です。

いくつかのタスクは完了不可能に思えるかもしれませんが、そこから多くのことを学ぶことができるはずです。この種のタスクまたはプロジェクトは通常、次の 3 つのポイントを満たします。

  • RL の根本的な問題を受け入れるのは難しいです。
  • AIの根本的な問題
  • 努力する価値は十分あります

5. ステータスは主観的であるべき

状態は、環境の観点から定義されるのではなく、モデルの状態、つまり RNN の隠し状態として確立される必要があります。エージェントの主観的な世界観だけが重要です。達成される効果は非常に限られるため、外部の現実について推論しないでください。

6. 制御フロー

エージェントはデータフローとエクスペリエンスに影響します。エージェントは制御環境にアクセスできる必要があります。重要なのは、報酬を最大化するだけでなく、フローに対する制御を確立することです。

7. 価値関数が世界を形作る

価値関数は、現在の状況と将来の状況を効果的に要約します。多値関数を使用すると、世界のさまざまな側面をモデル化できます。フロー制御に役立ちます。

8. 想像上の経験から学ぶ

次に何を計画しますか? 同様に、RL アルゴリズムは、Alphago の MCTS や価値関数の使用など、想像上の経験から学習できます。

9. 関数近似値の使用

アルゴリズムの複雑さはニューラル ネットワーク アーキテクチャに統合でき、MCTS、階層制御なども NN を使用してモデル化できます。次に、モデルから何を学んだのかを本当に理解する必要があります。

10. 学ぶことを学ぶ

メタ学習を習得すれば、ネットワーク アーキテクチャを手動で設定する必要がなくなり、すべてがエンドツーエンドの学習になります。つまり、ニューラル ネットワークは、人間の介入をできるだけ少なくして物事を処理することを目的としています。ただし、帰納的バイアスは依然として有用であるはずです。

関連レポート:

https://twitter.com/seb_ruder/status/1040235236284669952?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  アンドリュー・ン氏が AI 変革ガイドをリリース: CEO に 5 つのステップで AI 変革を呼びかける

>>:  2018 年の人工知能の商業化に関する 5 つの洞察

ブログ    
ブログ    

推薦する

「遅れた接客」と批判されたインテリジェント接客の現状とは?

AIや5Gなどの新技術がもたらす変化により、顧客サービスシナリオは多様な変化を遂げており、兆レベル...

自動運転は衛生分野に適用され、問題点に直接対処し、将来性が期待できる

自動運転技術の開発は加速しており、商業的な検討も日々増加しています。現段階では、業界では貨物輸送と旅...

2020年AIセキュリティの「技術」と「トレンド」を理解する丨年末レビュー

[[286212]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

5 年以内に、8,000 万の仕事が機械に置き換えられるでしょう。インダストリアル インターネットは治療薬でしょうか、それとも毒でしょうか?

時代の発展は常に要求と矛盾の中で発展しています。あらゆる産業革命は発展の力をもたらすだけでなく、大き...

ディープラーニングにおける正規化の概要(Python コード付き)

編集者注: 日々の仕事や研究において、データ サイエンティストが遭遇する最も一般的な問題の 1 つは...

人工知能を始めるときに尋ねるべき10の質問

人工知能 (AI) と機械学習 (ML) のテクノロジーは、世界中のほぼすべての業界に革命をもたらし...

...

わずか数行のコードで最初のウェブアプリを作成

データ サイエンス プロジェクトの展開は、データ サイエンティストと機械学習エンジニアの両方に必要な...

スタートアップが大手企業から学び機械学習を開発する際に考慮すべき5つの変数

[[186364]]人工知能 (AI) と機械学習 (ML) をめぐる誇大宣伝は信じられないほどのレ...

人工知能業界では無視できない技術分野「ナレッジグラフ」

[[384932]] 2012 年に、Google は Metaweb から派生した Knowle...

貪欲アルゴリズム: バイナリツリーを監視したい!

[[361051]]バイナリツリーの問題の監視アドレス: https://leetcode-cn....

自動車の未来:スマート製造の採用

インテリジェント製造技術の出現は自動車製造業界に大きな影響を与えました。まず、スマート製造では、自動...

5分間の技術講演 | GPT-4——マルチモーダル大規模モデルの新機能と利点

パート01 GPT-3.5との違い1.1 GPT-4が入力できる単語数は25,000語に大幅に増加写...

KDnuggets 調査 | データ サイエンティストが最もよく使用するアルゴリズム トップ 10

翻訳 | 江凡百理子杰樹校正 | ロリン最新の KDnuggets 調査では、データ サイエンティス...