最近、Nvidia の CEO である Jensen Huang 氏は、AI は 5 年以内に人間によるテストに合格し、AGI も間もなく登場するだろうと述べました。 スタンフォード大学で開催された経済フォーラムで、黄仁訓氏は「人間はいつ人間のように考えるコンピューターを作ることができるようになるのか」という質問に答えた。 これはシリコンバレーの長期目標の 1 つでもあります。 Lao Huang 氏は次のように答えました。「答えは、この目標をどのように定義するかによって大きく異なります。」 「人間のように考えるコンピュータ」の定義が、人間のテストに合格する能力であるならば、AGI はすぐに到来するでしょう。 5年後にはAIは人間のテストに合格するだろう黄氏は、考えられるあらゆるテストのリストを作成し、それをコンピューターサイエンス業界に提示し、AI に完了させれば、5 年以内に AI があらゆるテストをうまくこなせるようになると考えています。 今のところ、AIは司法試験のような試験には合格できるが、消化器病学のような専門的な医療試験にはまだ苦労している。 しかし黄氏の意見では、5年以内にこれらのテストのどれにも合格できるはずだという。 しかし、人間の心の仕組みをどのように説明するかについては専門家の間でも意見が分かれているため、他の定義に基づくと AGI の実現はまだ遠いかもしれないとも認めた。 したがって、エンジニアの観点から見ると、エンジニアには明確な目標が必要であるため、AGI を実現するのは比較的困難です。 さらに、黄仁鉉氏は、AI 産業の拡大をサポートするにはウェハ ファブがいくつ必要かという別の重要な質問にも答えました。 最近、OpenAI CEO サム・アルトマン氏の 7 兆ドルの計画が世界に衝撃を与えました。彼は、まだウエハー工場がさらに必要だと考えています。 黄仁訓氏の見解では、確かにチップはもっと必要だが、時間が経つにつれて各チップの性能は向上し、必要なチップの数は限られてくる。 「より多くの工場が必要になるだろう」と彼は語った。「しかし、忘れてはならないのは、AIのアルゴリズムと処理も時間とともに劇的に改善されているということだ」 コンピューティングの効率が向上するにつれて、需要は現在ほど大きくはなくなるでしょう。 「10年以内に計算能力を100万倍に高めます。」 Google エンジニア: 2028 年までに AGI を実現する可能性は 10%Google のロボット工学チームのソフトウェア エンジニアである Alex Irpan 氏は、LLM 分野で進歩を遂げた後、AGI が予想よりも早く到来することを発見しました。 Irpan 氏は AGI を次のように定義しています。
4年前、彼はAGIについて次のように予測していました。
しかし、現在ではGPT-4、ジェミニ、クロードといったモデルの登場により、彼は自身の判断を再検討している。 現在、AGI に関する彼の予測は次のとおりです。
イルパン氏は自身の予測について以下のように詳しく説明しています。 計算の役割AGI に関しては、Irpan 氏は主に 2 つの見解があると考えています。 視点 1: モデルのサイズを大きくするだけで AGI を実現できます。 現時点では克服が困難と思われる多くの問題は、モデルの規模が一定の大きさに達すると自然に解消されます。モデルのスケールアップは容易ではありませんが、関連する技術的課題は近い将来解決されると予想され、AGI の実現は自然に続くでしょう。 洞察 2: 既存のモデルを単純に拡大するだけでは不十分です。 規模を拡大することは重要ですが、最終的には規模を拡大しても AGI は達成されないことがわかります。現時点では、現在の技術的パラダイムを打破し、さらなるブレークスルーを達成するための新しいアイデアを見つける必要があります。そして、これは長いプロセスになるでしょう。 2020年になって、筆者は突然、1つ目のポイント(つまり、規模の拡大によるAGI達成の想定)の重要性がますます顕著になったことに気づき、「AGIタイムライン」を調整することにしました。 2024年までに「規模が拡大して初めて出現する」という見方が主流になる。 スケーリングの法則が継続するなら、AGI はそれほど長くはかからないでしょう。そして、これまでの証拠は、スケーリングの法則が正しい可能性が高いことを示唆しています。 言及されていないことがあるとすれば、それは次のトークンを予測する柔軟性です。 十分な「指示例」データに基づいて微調整すると、次のトークンを予測するだけで AI が指示を理解して従っているかのように動作し、真の理解にかなり近づくことがわかります。 この命令の微調整に基づいて、1.5B モデルは微調整されていない 175B モデルよりも優れたパフォーマンスを発揮できます。そして、これが現在のコンピューティング リソースの条件下で ChatGPT を実現可能にするための鍵となります。 時間が経つにつれて、膨大な計算能力と適切なデータセットに頼るだけで、初期のコンセプトから成熟した製品へと飛躍することがますます可能になります。 現在、著者は、このプロセスでは 80% がコンピューティング能力に依存し、20% にはより革新的なアイデアが必要であると信じ始めています。 もちろん、革新的なアイデアは依然として重要です。たとえば、「思考チェーン」は、大規模な言語モデルをより効果的に使用する能力を大幅に向上させました。 論文アドレス: https://arxiv.org/abs/2309.03409 少なくとも現段階では、大規模言語モデルを活用するためのより良い方法を見つけることは、継続的な革新を必要とする分野のままです。 教師なし学習当時、転移学習の分野では、5 つのタスクを同時に処理し、6 番目のタスクを迅速に学習する方法を示した論文に誰もが興奮していました。 しかし現在、誰もが注目しているのは、十分なラウンドで次のトークンを予測することで、ゼロショット方式で複数のタスクを処理できる大規模な言語モデルをどのように使用するかということです。言い換えれば、「LLM はさまざまなパターンを認識できる汎用マシンです。」 対照的に、PCGrad などの専用の転移学習テクノロジーは使用されていないだけでなく、誰も研究すらしていません。 今日、教師なし学習法と自己教師学習法は、あらゆる LLM およびマルチモーダル モデルの開発を推進する「ダーク マター」のままです。この底なしの穴にデータとコンピューティング タスクを「投げ込む」限り、必要な答えが得られるでしょう。 論文アドレス: https://arxiv.org/abs/2307.04721 同時に、教師あり学習と強化学習は、以前ほど人気はないものの、依然として役割を果たしています。 当初、深層強化学習は非常に非効率であると非難されていました。確かに、深層強化学習をゼロから行うことはやや非現実的ですが、評価には効果的なアプローチです。 時代は進み、現在では、人間によるフィードバックによる強化学習 (RLHF) に取り組んでいる人々は、高品質の嗜好データがあれば、ほぼすべての強化学習アルゴリズムが適切な結果を生成できることを示しています。 対照的に、最も重要な問題は強化学習アルゴリズムそのものです。
著者らは、人間によるフィードバックによる強化学習 (RLHF) のパフォーマンスを向上させることができる、より優れた一般的な強化学習アルゴリズムが存在すると依然として考えています。 ただし、事前トレーニングや教師ありの微調整に追加の計算リソースを割り当てることができる場合、これらのアルゴリズムを探す必要性は比較的小さくなります。 特に、機械学習の分野では、実装が容易でコンピューティング リソースをより効率的に使用できるため、模倣学習がアプローチとしてますます好まれるようになっています。 少なくとも現在の研究状況では、一般的な強化学習手法から、動的選好最適化 (DPO) などの選好データ構造を活用する手法へと移行しています。 より良いツールツール開発の面では、Transformers テクノロジがますます多くの人々の第一選択肢になるにつれて、関連ツールはより専門的かつ重点的なものになってきました。 たとえば、汎用の機械学習フレームワークよりも、LLaMa や Whisper がすでに統合されているコード ライブラリが使用される可能性が高くなります。 同時に、API の対象範囲は、愛好家、開発者、研究者など、より広くなり、ベンダーにとってはユーザー エクスペリエンスを向上させるための経済的インセンティブが高まります。 AI が普及し、利用しやすくなるにつれて、研究のアイデアを思いつく人々の数が増え、間違いなくテクノロジーの発展が加速するでしょう。 スケーリングの法則当初認識されていたモデルのスケーリングルールは、Kaplan らによる 2020 年の研究に基づいており、まだ改善の余地が大きく残っています。 2年後の2022年、ホフマンらは「チンチラスケーリング則」を提唱しました。これは、計算能力(FLOP)が与えられれば、データセットが十分に大きい限り、モデルのサイズを大幅に縮小できるというものです。 論文アドレス: https://arxiv.org/abs/2203.15556 Chinchilla スケーリングは、モデルをトレーニングした後、ベンチマークで 1 つの推論のみが実行されるという前提に基づいていることに注意してください。 しかし、実際のアプリケーションでは、大規模なモデルが推論に何度も使用されることがよくあります (製品または API の一部として)。その場合、推論コストを考慮すると、トレーニング時間を延長する方が Chinchilla が提案するよりも経済的です。 その後、Thaddée Yann TYLのブログでは、モデルの規模はこれまで想定されていたよりもさらに小さい可能性があるとさらに分析しました。 記事アドレス: https://espadrine.github.io/blog/posts/chinchilla-s-death.html しかし、著者は、スケーリング ルールを調整することはモデルの機能にとってそれほど重要ではないと考えています。効率は向上しますが、それは明らかではありません。 対照的に、コンピューティング能力とデータは依然として主なボトルネックとなっています。 著者の意見では、現時点で最も重要な変更点は、推論時間が大幅に短縮されたことです。より成熟した量子化テクノロジとより小さなスケールを組み合わせることで、時間やメモリが限られている場合でもモデルを小さくすることができます。 これにより、今日の大規模製品は、Chinchilla の登場以前よりも高速に実行できるようになります。 2010 年代初頭、Google はレイテンシーが検索エンジンの使用に与える影響について詳細な調査を行い、「これは非常に重要である」という結論に達しました。 検索エンジンの応答が遅いと、結果の品質が待つ価値があるとしても、人々は検索エンジンをあまり使用しなくなります。 機械学習製品についても同様です。 製品サイクルの台頭2020年、著者はそんな未来を思い描いています。その中で、規模の拡大を除いて、新しいアイデアはほとんど必要ありません。 平均的な人にとって十分に便利な AI 搭載アプリを開発した人がいます。
アプリが独自の改善を維持するのに十分な収益を獲得できると仮定します。
このスケールベースのアプローチは、研究が少数の効果的なアイデアに集中することを意味します。
今では、著者が起こりそうにないと思っていたことはすべて現実になったようです。 ChatGPT は急速に人気を博し、多くの競合他社に影響を与えました。これは最も強力な生産性ツールではありませんが、人々が喜んでお金を払ってもいいと思うほど強力です。 ほとんどの AI サービスは収益を上げる可能性を秘めているにもかかわらず、成長を追求するために赤字で運営することを選択します。 Microsoft は Github Copilot の追加ユーザーごとに月額 20 ドルの損失を被ると言われていますが、Midjourney はすでに利益を上げています。 それでも、テクノロジー大手やベンチャーキャピタル企業がハードウェアや機械学習の人材に数十億ドルを投資するには十分です。 ディープラーニングは過去のニュースです。現在、人々は「ビッグ言語モデル」、「生成 AI」、「キューエンジニアリング」について語っています。 今のところ、Transformer は機械学習の歴史上、他のどのアーキテクチャよりも進歩しているようです。 もう一度「ノー」と言ってみるさて、「近い将来に AGI が可能だと仮定した場合、それをどのように実現するのか」という質問を詳しく見てみましょう。 まず、進歩は主に計算能力の向上と規模の拡大から生まれると主張することもできます。これは既存のトランスフォーマー技術に基づくものではなく、より効率的な「トランスフォーマーの代替」のようなものかもしれません。 (Mambaやその他の状態空間モデルなど) 十分な計算能力とデータがあれば、コード内のパラメータ数を増やすことは難しくありません。したがって、主なボトルネックは計算能力とデータの獲得にあります。 現状は、機械学習が製品開発を推進し、製品が資金をもたらし、資金がさらに機械学習の進歩を推進するというサイクルです。 問題は、この「スケーリング法則」を無効にするものがあるかどうかです。 論文アドレス: https://arxiv.org/abs/2312.00752 チップに関しては、価格が上昇し続け、モデルのさらなる拡張が制限されるようになったとしても、人々は依然として GPT-4 サイズのモデルを携帯電話で実行したいと考えるでしょう。 それに比べると、データの取得はより大きな課題であるように思われます。 インターネット上のあらゆるものをトレーニング データとして使用しようとしましたが、そうするとラボが公開データの中で目立つことが難しくなります。 現在、モデル間の違いは主に非公開の高品質データの使用から生じています。 GPT-4 はプログラミングに優れていると言われており、その理由の 1 つは、OpenAI が高品質のプログラミング データの取得に多大な時間、労力、資金を投入してきたことです。 Adobe は、AI プロジェクトをサポートするために「バナナの実物写真 500 ~ 1,000 枚」を公に呼びかけました。 Anthropic にはかつて、データを取得して分析するための専用の「トークン」チームもありました。 誰もが良質なデータを求めており、そのためにお金を払う用意があります。データが利用可能であれば、モデルはそれを効果的に使用できると誰もが信じているからです。 これまでに提案されたすべてのスケーリング法則は、データセットのサイズを含め、べき乗法則に従います。 手動でデータを取得するだけでは、次のしきい値を超えるのに十分ではなくなったようです。高品質なデータを取得するためのより良い方法を見つける必要があります。 昔、OpenAI がゲームやシミュレーション環境を通じて強化学習の研究を行っていた頃、イリヤは、計算プロセスを貴重なデータに変換できるため、セルフプレイと呼ばれる手法を非常に重視していると述べたことがあります。 このようにして、AI は環境との相互作用から学習できるだけでなく、スキルを飛躍的に向上させることもできます。残念ながら、これは明確なルールと限られた数のエンティティを持つゲーム環境など、特定のコンテキストでのみ機能します。 現在、私たちはこの自己再生手法を使用して、大規模言語モデルの機能を向上させています。 会話が AI の「環境」であり、AI がテキストを生成することで「行動」し、これらの行動の質が報酬モデルによって判断されると想像してください。 実際のデータが直接使用されていた過去とは異なり、今日のモデルは学習用の高品質なデータ(つまり「合成データ」)を生成できる可能性があります。 一部の学者は、GPT-4 のラベル付けの精度は人間のそれに匹敵することを発見しました。 論文アドレス: https://arxiv.org/abs/2304.03279 さらに、拡散技術に基づく画像強化はロボットの学習に役立つことが示されています。 Anthropic は、最近人気の Claude 3 をはじめ、Constitution AI と AI フィードバックによる強化学習 (RLAIF) に多くの取り組みを行ってきました。 NeurIPS では合成データに関するワークショップも開催されました。 2024 年の LLM は 2016 年の画像分類のようなものです。当時、研究者たちはデータセットを拡張するために生成的敵対的ネットワーク (GAN) を使い始めました。 著者は、彼の最初の論文「GraspGAN」でこの問題について論じたと述べています。 論文アドレス: https://arxiv.org/abs/1709.07857 モデルが Snake のように自己ループしない場合は、人間によるデータがますます少なくなる世界に直面することになるかもしれません。 ここでの進歩は、システムに投入できる計算能力 (FLOPS) の量に完全に依存します。 合成データの精度は手動でラベル付けされたデータほど高くはありませんが、コストは低くなります。 最終的には、人間による直接的なフィードバックは、新しい報酬モデルを構築するため、または既存のデータの品質チェックを実行するためにのみ使用される可能性があります。 その他すべてはモデルによって生成および監視され、自己フィードバック ループが形成されます。 現在の言語モデルは、インターネット上のぼやけた JPEG 画像のようなものです。その理由は、テキストの品質が悪く、トレーニング教材として適していないためです。インターネットを「ぼかす」ことが、現時点で私たちにできる最善のことです。 しかし、状況が変わり、LLM がインターネット自体よりも明確な情報源になることができれば、私たちはどのような未来に直面することになるのでしょうか? 検索とQ*サム・アルトマン氏の解任の際、ロイターはQ*と呼ばれる手法について報道し、幅広い憶測を巻き起こした。この分野の研究者は一般的に、これは Q 学習に基づいた検索プロセスであると考えています。 最後に、Yann LeCun 氏は冷静になるよう呼びかける記事を発表しました。なぜなら、ほぼすべての研究チームが検索テクノロジーと大規模言語モデル (LLM) を組み合わせようとしており、誰かがそれに成功しても不思議ではないからです。 ディープマインドは2014年に早くも論文で、畳み込みニューラルネットワーク(CNN)が囲碁の動きを効果的に評価できることを指摘した。モンテカルロ木探索(MCTS)技術を導入することで、AlphaGo は 1 年足らずで開発されました。 これは、過去 10 年間の機械学習分野における画期的な出来事にもなりました。 検索には膨大な計算リソースが必要ですが、機械学習において最も信頼性の高い方法の 1 つであり、最終的には成功につながります。 MuZero を例にとると、各ボードゲームにおいて、トレーニングに 16 個の TPU を使用し、セルフプレイに 1,000 個の TPU を使用すると、計算能力の需要が約 100 倍に増加することになります。 これらはどれほど信じられる話でしょうか? 全体として、著者らはモデルをさらに拡張することが可能であると考えています。一見ボトルネックのように見えるものも、実際にはそれほど重大ではない場合があり、解決策は常に見つかります。 少なくともこれまでのところ、著者は「スケーリング法則」が実際の障害に遭遇していないと考えています。 誇大宣伝2016年、何人かの有名な機械学習研究者が大きなジョークを言うことにしました。 彼らはRocket AIというウェブサイトを作成し、Temporal Recursive Optimal Learning(TROL)と呼ばれる謎の手法に基づいていると主張し、警察によって閉鎖されたNeurIPS 2016でのワイルドなローンチパーティーについての話をでっち上げた。 記事の最後には、「AI は誇大宣伝のピークにあり、コミュニティの誰もがそれを知っている」という考えさせられる発言があります。 興味深いことに、下のグラフは、2016 年以降の Google 検索トレンドにおける「AI」のパフォーマンスを示しています。当時の人々はまだ世間知らずだったと言わざるを得ません... AI では、モデルが主張する機能を完全に実現することは決してありませんが、できることは拡大し続け、後退することはありません。 今日の人工知能が史上最悪のものになるのと同じです。 楽観主義者と悲観主義者汎用人工知能(AGI)に関しては、楽観主義者が 1 人いる一方、悲観主義者も多数存在します。 楽観主義者は、モデルを拡大し、拡張されたモデルで他のすべての問題を解決する方法を見つけることができると信じています。 一方、悲観論者は、何らかの理由で進歩が鈍化したり停滞したりすると主張し、異なる視点から問題に取り組みます。 データの来歴の課題に直面生成型人工知能 (AI) は、インターネットに低品質のテキストを氾濫させることで、自身のトレーニング プロセスを困難にしているのでしょうか? これは短期的には極めて重要ですが、時間の経過とともに解決策が見つかるでしょう。 「AI セルフプレイ」に関する議論全体は、フィルタリングされた大規模言語モデル (LLM) テキストがトレーニング教材として十分になるという臨界点に到達するという仮定に基づいています。 現在、非常に優れたパフォーマンスを発揮する大規模言語モデル (LLM) が登場するたびに、その原因がテスト セットの漏れによるものではないかという疑問が常に生じます。結局のところ、これは以前にも起こったことであり、この可能性を排除することはますます困難になっています。 これは、特にモデル評価自体にコストがかかる場合には、間違いなく研究の障壁となります。 しかし、著者らは、これは課題ではあるものの、研究に対する根本的な脅威にはならないと主張している。 機械学習分野では2016年から「ベンチマークは高価で不正確」という問題に直面していますが、それでも前進する方法は見つかります。 スケーリングの課題に直面成功する LLaMa モデルがある一方で、期待に応えられない Meta OPT モデルも存在します。 時間があれば、OPT チームによって投稿された膨大な質問ログをご覧ください。感謝祭中に発生した勾配オーバーフローや、予期せぬライブラリのアップグレードにより活性化ノルムが異常に増加した謎の問題などが記録されています。 機械学習モデルのスケーリングは、数値を追加し、ハードウェアを追加して、突然最先端のレベルに到達するという単純なプロセスではありません。これには、機械学習の専門知識だけでなく、論文を読むのではなく実践的な経験から得られる一種の「専門知識」も必要です。 そのため、機械学習モデルのトレーニングをどのようにスケールするかを理解すること自体が研究課題であり、スケールだけでは解決できないという見方があります。結局、問題は非常に解決困難になり、進歩は停滞しました。 これまでの計算能力の拡大の歴史や、アポロ計画(大型ロケットの打ち上げを可能にした)やマンハッタン計画(より濃縮されたウランを生産した)などの大規模プロジェクトの成功を考えると、私はこの見解に特に同意しません。しかし同時に、それを反論する確固たる理由もありません。 身体化の課題に立ち向かう機械学習の分野では、知能が物理的な形状に依存するかどうかが古典的な議論となっています。 言語、音声、視覚データを処理するモデルの能力を考えると、人間にはあってモデルにはない感覚入力は何なのかと疑問に思わざるを得ません。 この質問は、味覚や触覚など、物理的な形に関連する感覚に焦点を当てているようです。 では、知能の発達はこれらの感覚刺激によって制限されると言えるのでしょうか? 人間はさまざまな刺激にさらされ、それを感じることによって学び、成長しますが、機械学習モデルはこれに異なるアプローチをとります。 大規模なモデルは人間の学習方法を模倣する必要はありませんが、次の点が重要です。 1. 人工汎用知能 (AGI) を、経済的に価値のあるほぼすべての (95% 以上) タスクにおいて人間に匹敵するか、あるいは人間を上回ることができる AI システムと定義します。 2. これらの仕事の 95% 以上は、物理的な現実世界での行動の実行を伴います。 3. 現在、モデルに入力されるデータのほとんどはエンティティベースではありません。規模が問題解決の鍵であると信じている場合、エンティティベースのデータの欠如は拡大の障壁になります。 この点に関して、著者は、現在の知能の発達は物理的刺激からのデータだけに限定されているわけではないが、これが現実世界のタスクで良好な結果を達成するための重要な要素であることは間違いないと考えています。 最近では、Open X-Embodiment プロジェクトや Something-Something、Ego4D などのさまざまなデータセットなど、ロボット学習用のエンティティ データの可用性を高める方法について多くの取り組みが行われています。 これらのデータセットの規模は十分に大きくないかもしれませんが、モデル生成方法を通じてこの問題を解決できます。 著者らは、エンティティベースの基礎モデルを調査し、より多くのエンティティベースのデータ取得を促進することが重要であるため、AutoRT プロジェクトの共同リーダーを務めています。 これに対して著者は、超知能のソフトウェアアシスタントよりも、不器用な物理的なアシスタントのほうがよいと述べた。 後者は確かに有用だが、より心配なことでもある。 |
2017年5月に世界保健機関が発表したデータによると、世界中で毎年約125万人が交通事故で亡くなって...
毎年、IT 業界メディアの eWEEK では、新製品、革新的なサービス、開発動向など、IT 業界の今...
2020 = 1024 + 996... 2020 はプログラマーにとってあまり「フレンドリー」に...
AI時代に注目すべき新たな変化は、テクノロジー大手がAIチップを独自に開発し始めたことだ。これは一...
著者についてCtrip の技術専門家である Yu Xiu 氏は、電話の音声およびビデオ通信やインテリ...
[[344159]]効果的なディープラーニング モデルを作成するには、モデルを効果的にトレーニング...
現在、顔認識は人々の生活のあらゆる側面に組み込まれています。携帯電話のロック解除、顔をスワイプしての...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
Googleは再び「量子超越性」を達成したのか?最近、Google は、同社の量子コンピュータが、世...
2018年ももうすぐ終わりです。今年は、ブロックチェーン、5G、チップ、量子コンピューティングが、誰...