著者: 徐潔成 最近、センセーショナルなAlphaGo囲碁ロボットを発売したDeepMindが再び大きな動きを見せ、AlphaCodeと呼ばれるコード生成システムを一般公開しました。 DeepMindによれば、AlphaCodeは公式デビュー前に、すでに有名なプログラミングコンテストウェブサイトCodeforcesが開催した10のアルゴリズムコンテストでその能力をテストしていたという。これら 10 回のゲームで、AlphaCode は出場者のほぼ半数に勝利し、最終的に 54% の順位を獲得しました。 論文リンク: https://storage.googleapis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf 一部のAI研究者はソーシャルメディア上で、AlphaCodeが人間のレベルに達するには数年かかるだろうと発言している。Codeforceでのランキングは、参加者の多くが高校生や大学生であるなど、限定的である。また、AlphaCodeによって生成されたプログラムの大半は誤りであり、フィルタリングにサンプルテストを使用することで、AlphaCodeは実際に特定の問題を解決できる。 一部の研究者は、これはアルファスターの多大な努力の結果であるようだとも述べた。 もちろん、人工知能が人間の知能と衝突したのは今回が初めてではない。これまで、人工知能技術の発展の歴史において、多くのAlphaCodeの「先人」が、さまざまな分野のトップクラスの人間との競争で目覚ましい成果を上げており、それぞれの勝利は人工知能技術の発展に大きな影響を与えてきました。 ディープブルー✦人間と機械の対決の歴史において、AI が初めて勝利したのは 1997 年でした。 IBMのスーパーコンピューター「ディープ・ブルー」は、当時世界一のチェス名人だったカスパロフを3.5対2.5のスコアで破った。 技術面では、Deep Blue はハイブリッド意思決定を採用し、一般的なスーパーコンピュータのプロセッサとチェスのアクセラレータ チップを組み合わせ、α-β プルーニング アルゴリズムを使用してチェスのゲーム内のすべてのパスを網羅的に列挙し、各ステップのスコアを比較して最適な実行戦略を選択します。計算能力とアルゴリズムに支えられた Deep Blue は、当時の技術の限界であった毎秒 2 億ステップの計算速度を実現しました。試合後、ディープ・ブルーの設計者徐鳳雄氏は、ディープ・ブルーは厳密な計算によりゲーム中の12手先を予測できたが、カスパロフは10手先を予測できたと語った。 今日の観点から見ると、ディープ・ブルーがチェスの王に勝利したのは、知能よりも計算能力に依存していたが、AIが人間に勝利したことの始まりとして、ディープ・ブルーの成功は人工知能の実践者に大きな想像の余地をもたらした。 ワトソン✦2011年、IBMは新たな試みを行った。ディープ・ブルーの後継機であるワトソンが、アメリカの老舗クイズ番組「Jeopardy!」で人間のチャンピオン2人に挑戦し、ついに勝利したのだ。 上位のディープブルーと比較すると、ワトソンの最大の特徴は自然言語処理を適用できる点にある。IBMはこれをディープQAと呼んでおり、完全な質問応答システムを表している。 Watson の成功の鍵は、キーワードの関連付けだけでなく、コンテキストに基づいて回答を検索できることです。さらに、Watson が使用するソフトウェアは分散システムの統合です。Hadoop と UIMA が連携してデータを誘導し、Watson の各ノードが連携して動作します。 Deep Blue が人工知能が計算能力において人間を超えたことを表すとすれば、Watson は人工知能の自然言語処理能力における画期的な進歩を意味します。最近話題になった冬季オリンピックのAI手話通訳機「Lingyu」をはじめ、これまでに自然言語処理技術をベースに開発されたワトソンの「後継者」が数多く私たちの生活に登場している。 アルファ碁✦2016 年、ディープラーニング開発が最高潮に達し、AI はこれまでで最も重要なハイライトを迎えました。世界史上2番目に優れた囲碁プレイヤーとして知られるイ・セドル氏は、世界中のメディアの注目を浴びながら、グーグルの囲碁人工知能プログラム「アルファ碁」と5局勝負を繰り広げた。最終的にアルファ碁がイ・セドル氏を4対1で破った。 より複雑な囲碁の問題を解決するために、DeepMind は Deep Blue で使用されていたブルート フォース方式を放棄し、AlphaGo 用に決定ネットワークと価値ネットワークという 2 つのニューラル ネットワークを設計しました。教師あり学習決定ネットワークは 13 層の畳み込みニューラル ネットワークであり、その主な機能は、現在のボードの特徴パラメータを入力し、次の動きの確率分布を出力し、次の動きの位置を予測することです。トレーニング サンプルには、3,000 万人のチェス プレイヤーが生成した盤面データを使用し、確率的勾配降下アルゴリズムを使用して調整されています。ポリシー ネットワークのみを使用して、AlphaGo は対戦相手の次の動きを 57% の精度で予測できます。 価値ネットワークも、決定ネットワークと同じ構造を持つ 13 層の畳み込みニューラル ネットワークです。その主な機能は、現在のボード パラメータを入力し、ボード上の特定の場所における次の動きの推定値を出力して、動きの質を判断することです。トレーニングプロセス中、トレーニングデータの相関関係によって引き起こされる過剰適合を克服するために、値ネットワークは決定ネットワークによって生成された 3,000 万のゲームからサンプルを抽出し、関連のない 3,000 万のボードゲームをトレーニングサンプルとして構成し、最終的にテストセットで平均二乗誤差 0.224 を取得しました。 これら 2 つのニューラル ネットワークの主な機能は、ゲーム ツリーの検索空間の規模を縮小することです。検索アルゴリズムの選択に関して、AlphaGo はモンテ カルロ ツリー検索アルゴリズムを使用します。つまり、最初にランダムに移動し、次に最終データを通じて移動値を更新します。このようにランダムなシミュレーションを大量に実行することで、最適なソリューションが自動的に現れます。 Deep BlueやWatsonと比較すると、AlphaGoのデータ学習機能における画期的な探求は、人工知能の発展における画期的な出来事です。この対局の後、DeepMind が AlphaGo のバージョンを再度アップグレードしたことは特筆に値します。新しい AlphaGo Zero は、人間のゲームデータの学習を放棄し、強化学習のみに頼って自己ゲームアップグレードを行いました。わずか 3 日間のトレーニングで、100 対 0 のスコアで AlphaGo に勝利しました。 アルファスター✦AlphaGo が囲碁の分野で優位に立った直後、AI はより複雑な RTS ゲームを再び制覇しました。 2019年、Googleの新世代人工知能AlphaStarは、計算能力、反応能力、操作速度の要件が最も高いとされる電子ゲーム「StarCraft」に挑戦し、2人のプロプレイヤーと10回の対戦を行い、最終的に10対0のスコアで全勝した。 チェスゲームとは異なり、RTS ゲームには不完全情報ゲーム、長期戦略計画、リアルタイム操作などの難しさがあります。強化学習の父である David Silver 氏は、「AI = DL + RL」と述べています。これらの問題に直面して、AlphaStar は深層教師あり学習 + 強化学習という基本フレームワークを選択しました。最も重要な技術はグループトレーニング戦略にあります。AlphaStar は、マスターエージェント、マスターエクスポーザー、アライアンスエクスポーザーの 3 つの戦略セットを同時にトレーニングします。 ゲームの複雑さのため、戦略セットは最初に深層教師あり学習を通じて人間のデータを使用して初期化する必要があり、その後、マスター エージェントは強化学習を使用して、セットの残りの部分で敵対的トレーニングを実行します。 AlphaGo とは異なり、マスター エージェントは優先順位付けされた自己学習戦略を使用するようにプログラムされており、2 人のプレーヤーによるゼロサム ゲームでナッシュ均衡につながる履歴の分布に対抗できる戦略を探します。メインエクスポージャーの相手は現在のメインエージェントのみであり、主な目的は現在のメインエージェントの弱点を見つけることです。 Alliance Exposer もディープラーニング手法を使用しており、敵対者はマスター エージェントの履歴バージョンであり、マスター エージェントの体系的な弱点を発見することが目的です。さらに、マスターエージェントとアライアンスエクスポージャーは、定期的にディープスーパービジョン学習によって得られたセットにリセットされ、対人間戦略の安定性が向上します。 AlphaStar 開発チームが試合後に述べたように、グループトレーニング戦略はより信頼性の高いトレーニング戦略であり、安全で堅牢な AI への道です。現在、AlphaStar で使用されているグループ トレーニング戦略は、天気予報、気候モデリング、言語理解など、多くの分野で不完全な情報を使用した長いシーケンスのモデリング タスクに広く使用されています。 アルファコード✦多くの「前身」と比較すると、AlphaCode の現在の強みとパフォーマンスは平凡としか言えません。しかし、将来的には多数の開発者の作業にアシスタントとして統合されることが期待される AI の新星として、AlphaCode の動作原理を理解して整理する価値は依然としてあります。 DeepMindが公開したブログ紹介と論文から、AlphaCodeの実行プロセスは大まかに4つの部分に分けられることがわかります。 事前トレーニング: 標準言語モデリング目標を使用して、Github データセットで Transformer 言語モデルを事前トレーニングします。 微調整: トレーニング目標として GOLD とテンパリングを使用して、競技プログラミング データセットでモデルを微調整し、検索空間をさらに縮小します。 結果の生成: トレーニング済みのモデルを使用して、タスクの要件を満たす可能性のあるすべてのサンプルを生成します。 送信のフィルター処理: サンプルをフィルター処理し、サンプルに合格しなかったコード サンプルを削除し、残りのサンプルをテスト データ モデルを通じてクラスター化し、送信用に最大のクラスターから 10 個のサンプルを選択します。 全体として、AlphaCode は Transformer モデルとサンプリング フィルタリングを組み合わせて、より斬新なソリューションを作成します。競争に勝つには程遠いものの、AlphaCode が発表した結果は、人工知能の問題解決能力における大きな飛躍を表しています。 DeepMindは、この分野の研究を継続し、さらに研究を進めてより強力なプログラミングツールを生み出したいと述べた。 最後の言葉 ✦現在、人工知能技術が急成長を遂げていることから、将来的には人工知能がさらにさまざまな分野で人類の限界を押し広げ、人類の進歩にさらなる貢献をすると大胆に予測できます。では、現段階では、どのような最先端技術が人工知能のさらなる進歩を促進し、より優れた一般化と応用の実現に役立つと期待されているのでしょうか。知覚知能から認知知能への道のりはどれくらい長いのでしょうか。今後の人工知能技術の発展傾向はどうなるのでしょうか。 上記のすべての質問に対する答えは、WOT グローバル テクノロジー イノベーション カンファレンスで得られます。 4月9日〜10日に開催されるWOTグローバルテクノロジーイノベーションカンファレンスでは、産業界と学界の人工知能分野の多くの技術専門家が特別セッション「認知知能の発展における新たな動向」で、人工知能技術の発展に関する洞察を聴衆と共有します。興味のある学生は、以下の QR コードをスキャンして詳細を確認してください。 現在、この会議ではチケットを20%割引で提供しています。今すぐチケットを購入すると、1,160元の即時割引が受けられます。グループ購入にはさらに割引があります!ご質問がある場合は、チケット担当のQiuqiu:15600226809(電話番号とWeChat)にお問い合わせください。 |
<<: AIは生体認証のなりすまし攻撃を簡単に見分けることができる
>>: 人工知能の時代は私たちの生活にどのような影響を与えるのでしょうか?
ロボットはいくつの業界を置き換えることができるでしょうか? 初期の介護士から、後の編集者 (静かに悲...
イノベーションとテクノロジーの時代において、贅沢な暮らしはスマートホームによって変化しています。これ...
[[427508]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
[[416815]]東京オリンピックが閉幕しました。中国選手団は金メダル38個、銀メダル32個、銅...
最近、数年間業界で働いているスタンフォード大学の AI 卒業生が、AI と機械学習のキャリアのために...
スマートホーム テクノロジーは、家電製品、ホーム セキュリティ、照明、エンターテイメントを強化します...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
機械学習エンジニアの職は、AI 博士号取得者だけのものではありません。インターネット上の公開コースや...
工業情報化部の規定によると、2019年12月1日より、通信事業者はすべてのチャネルで顔認識を実装し、...
コンピューティングは、私たちのほとんどが直感的に理解できる馴染みのある概念です。関数 f (x) =...
[[426889]]古代の学者たちは、一杯の酒を飲みながら心の奥底にある感情を表現したり、武宇寺に...
マドゥ・ネール博士とアシャ・ダス博士は、人工知能 (AI) モデルを使用して患者の組織サンプルのスキ...