OpenAI の共同創設者 Karpathy が記事「自動運転による AGI の解釈」を公開しました。元の投稿は削除されました。保存済み

OpenAI の共同創設者 Karpathy が記事「自動運転による AGI の解釈」を公開しました。元の投稿は削除されました。保存済み

「汎用人工知能」に関しては、OpenAIの科学者カルパシー氏が説明を行った。

数日前、Karpathy 氏は自身の個人ブログに「AGI のケーススタディとして自動運転を研究する」という記事を公開しました。

何らかの理由で、彼はその記事を削除しました。幸いなことに、オンライン上にバックアップがあります。

周知のとおり、カルパシー氏は OpenAI の創設メンバーの一人であるだけでなく、テスラ社の元 AI シニアディレクター兼オートパイロット責任者でもあります。

彼は自動運転を AGI の研究のケースとして取り上げており、この記事の見解は確かに読む価値があります。

自動運転

LLM の急増により、AGI がいつ登場するのか、さらにはそれがどのようなものになるのかについて多くの議論が巻き起こっています。

AGI の将来に希望に満ち、楽観的な姿勢をとっている人もいます。しかし、恐怖と悲観に満ちた人々もいます。

残念ながら、議論の多くは抽象的すぎたため、人々の意見が食い違ってしまいました。

したがって、私は常に具体的な類似点や歴史的前例を探し、より具体的にその主題にアプローチしようとしています。

特に、「AGI はどのようなものになると思いますか」と尋ねられたとき、私は個人的に自動運転の例を挙げるのが好きです。この投稿では、その理由を説明したいと思います。まず、AGI の一般的な定義から始めましょう。

AGI: 経済的に価値のあるタスクのほとんどにおいて人間の能力を上回る自律システム。

この AGI の定義には 2 つの特定の要件があることに注意してください。

まず、これは完全に自律的なシステムであり、人間の監視がほとんどまたはまったくなくても自動的に動作します。

第二に、最も経済的価値のある作業に対して自律的に動作します。この部分のデータに関しては、私は個人的に米国労働統計局の職業指数を参照することを好みます。

これら両方の特性を備えたシステムは AGI と呼ばれます。

この投稿で私が提案したいのは、最近の自動運転機能の開発は、自動化の進展に伴う社会的ダイナミクスの非常に優れた初期ケーススタディであり、AGI 全般がどのような外観や感触になるかの研究にまで拡張できるということです。

私がそう思う理由は、この分野にはいくつかの特徴があるからです。簡単に言えば、「これは大きな出来事です」。自動運転は社会にとって非常に理解しやすく、より一般的なものになります。

経済規模の大部分を占め、多くの人的労働力を雇用しています。運転は十分に複雑な問題ですが、すでに自動化が実現されており、社会から大きな注目を集めています。

もちろん、大規模な自動化を実現している業界は他にもありますが、私が個人的によく知らないか、または上記の属性のいくつかが欠けています。

L2自動化

運転の自動化は、AI の分野において非常に困難な問題と考えられており、一夜にして達成できるものではありません。

これは、運転タスクを段階的に自動化するプロセスを通じて実現され、このプロセスには多くの段階の「ツール AI」が含まれます。

車両の自動化に関しては、現在多くの車に L2 運転支援システムが搭載されています。つまり、出発地から目的地までの旅程を人間のドライバーと協力して完了できる AI です。

まだ完全な自動運転はできないものの、L2 はすでに多くの基本的な運転タスクを処理できます。

場合によっては、自動駐車などの操作プロセス全体を自動で完了することもできます。

このプロセスの間、人間は主に監督の役割を果たしますが、いつでも引き継いで直接運転したり、高レベルの指示(車線変更要求など)を出したりすることもできます。

一部の領域(車線の中央を維持することや素早い判断など)では、AI は人間よりも優れたパフォーマンスを発揮しますが、まれに、不十分な状況が発生することもあります。

これは、他の業界で見られる多くの AI ツール、特に LLM における最近のブレークスルーと非常によく似ています。

たとえば、プログラマーとして、GitHub Copilot を使用してコードの一部を自動的に完成させたり、GPT-4 を使用してより複雑な関数を記述したりする場合、実際には基本的なタスクを自動化システムに引き渡していることになります。

しかし、必要に応じていつでも介入して調整を行うこともできます。

言い換えれば、Copilot と GPT-4 は、プログラミングの世界では「二次的な」自動化ツールのようなものです。

業界全体には同様の「二次的」自動化ソリューションが多数存在しますが、TurboTax から Amazon 倉庫のロボット、翻訳、執筆、芸術、法律、マーケティングなどの分野におけるさまざまな「ツール型 AI」まで、すべてが大規模なモデルに基づいているわけではありません。

完全自動運転

時間が経つにつれて、Waymo が現在そうであるように、一部のシステムは新しいレベルの信頼性に到達しました。

徐々に「完全自動運転」を実現しつつあります。

現在、サンフランシスコでは、アプリを開くだけで Waymo の自動運転車を呼ぶことができ、車が迎えに来て目的地まで安全に運んでくれます。

これは本当に素晴らしいです。運転の仕方を知らなくても、道路状況に注意を払ってもかまいません。ただ快適に座って少し休憩するだけで、システムが出発地点から目的地まで連れて行ってくれます。

私が話した多くの人と同じように、私は個人的には Uber よりも Waymo を好んでおり、市内の移動手段としてはほぼ独占的に Waymo を利用しています。

より安定した予測可能な乗り心地が得られ、乗り心地が非常にスムーズになるため、ドライバーがあなたの話を聞いている間に何を考えているのかを心配することなく音楽を聴くことができます。

複合経済

自動運転技術が現実のものとなったにもかかわらず、依然として多くの人が Uber の利用を選択しています。理由は何ですか?

まず、多くの人は、Waymo を交通手段として選択できることすら知りません。多くの人はそれを知っていても、自動運転システムに対する十分な信頼を得られず、人間のドライバーによる運転を好みます。

しかし、自動運転を受け入れたとしても、運転手との会話や他者との交流を楽しむなど、人間の運転手を好む人もいるかもしれません。

これは単なる個人的な好みではない。現在のアプリで待ち時間がどんどん長くなっていることからもわかるように、Waymo は供給が需要を上回るという問題に直面している。市場に出回っている車の数は需要を満たすには程遠い。

これは、Waymo がリスクと世論の管理と監視に非常に注意を払っていることが一因であると考えられます。

一方、私が理解しているところによると、Waymo は規制当局によって、路上に一定数の車両しか走らせることができないという制限を受けている。もう一つの制限要因は、Waymo が一夜にして Uber を完全に置き換えることはできないということだ。

インフラを構築し、自動車を生産し、事業規模を拡大する必要がある。

個人的には、他の経済分野での自動化でも同じことが起こると考えています。つまり、一部の人や企業はすぐに自動化を導入するでしょうが、多くの人は(1)これらの技術を理解しない、(2)理解したとしても信頼しない、(3)信頼したとしても、やはり人間と一緒に働くことを好むでしょう。

しかし、それ以上に、需要が供給を上回り、開発者の自制、規制上の制限、GPU データセンターをさらに構築する必要性などのリソース不足など、同じ理由により AGI は制限されることになります。

テクノロジーのグローバル化

リソースの制限についてすでに述べたように、このテクノロジーは世界規模で展開するには非常に高価で労力がかかり、拡張も遅くなります。

現在、Waymo はサンフランシスコとフェニックスでのみ走行可能ですが、テクノロジー自体は汎用性が高く拡張可能なため、同社は近いうちにロサンゼルス、オースティン、その他の地域にも展開する可能性があります。

自動運転車は、大雪の中での運転など、他の環境要因によって制限される可能性もあります。まれに、オペレーターによる救助が必要になる場合もあります。

さらに、技術力の拡大には多くのリソースコストが必要であり、無料ではありません。

たとえば、Waymo は、別の都市に進出す​​る前に、街路地図の作成、全体的な認識経路の計画、特定の特殊な状況や現地の規制に適応するための制御アルゴリズムなどのリソースを投資する必要があります。

仕事の比喩が示唆するように、多くの仕事は特定の状況でのみ自動化可能であり、その範囲を拡大するには多大な労力が必要になります。

いずれにしても、自動運転技術自体は汎用性が高く、拡張性も高いため、時間の経過とともにその応用の見通しは徐々に広がっていくでしょう。

社会の反応: すぐに雲行きが怪しくなった

自動運転技術が徐々に社会に統合されていく中で、私が特に興味深いと思うことの一つは、次の点です。

ほんの数年前まで、それが成功するのか、あるいは実現可能かどうかについては激しい議論と多くの疑問や懸念の対象となっていました。今や自動運転はもはや未来の夢ではなく、実際に実現しています。

これは単なる研究用のプロトタイプではなく、お金で購入できる完全に自動化された交通手段です。

現在の適用範囲内では、自動運転技術は完全な自律性を実現しています。

しかし、全体としては、あまり注目を集めていないようです。私が話すほとんどの人(技術者を含む!)は、この進展についてさえ知りません。

サンフランシスコの路上で Waymo に乗ると、多くの人が好奇心を持ってそれを見ていることに気づくでしょう。彼らは最初は驚き、その後好奇心を持って見つめます。

その後、彼らは人生を歩み続​​けます。

自動運転技術が他の業界で完全な自律性を実現したとき、世界は混乱に陥らないかもしれない。

ほとんどの人は、最初はこの変化に気付かないかもしれません。気づいたときには、好奇心を持ってただそれを見て、その後は無視するなど、否定から受け入れまでさまざまな反応を示します。

これに憤慨し、Waymo の車の前に交通コーンを置くなどの抗議行動を起こす人もいるかもしれません。

もちろん、現時点では、この現象が完全に現れるのを見るにはまだ遠い道のりです。しかし、そうなった場合、それは大部分が予測的なものになると予想しています。

経済への影響

仕事について言えば、Waymo が明らかにドライバーの職に取って代わったことは否定できない。

しかし、ニューラルネットワーク用にデータをラベル付けする人、問題のある車を遠隔操作でサポートするカスタマーサービススタッフ、車両を製造および保守する労働者など、以前には存在しなかった比較的目立たない仕事も数多く生み出しました。

1 つ目は、これらの洗練されたハイテク自動車を製造するために設計されたセンサーと関連インフラストラクチャのまったく新しい産業の誕生です。

一般的に人々が仕事について考える方法と同様に、多くの仕事は変化し、いくつかの仕事は消滅しますが、多くの新しい仕事も生まれるでしょう。

雇用削減は最も明白な変化ではありますが、これは実際には単純な雇用削減ではなく、仕事の構造の変化です。

全体的な雇用が時間の経過とともに減少しないと主張するのは難しいですが、変化のペースは単純に予想されるよりもはるかに遅いです。

競争環境

最後に、自動運転分野における競争環境についてお話ししたいと思います。

数年前、自動運転車の会社がキノコのように出現した。しかし今日では、この技術の複雑さに対する人々の認識が高まるにつれて(個人的には、現在の AI とコンピューティング技術に基づいて自動化するのはまだ非常に難しいと思います)、この分野では大規模な統合が行われました。

その中で、ウェイモは自動運転の未来を完全に実証した最初の企業となった。

それにもかかわらず、Cruise、Zoox、そして私のお気に入りのTeslaなど、追いついている企業はまだいくつかあります。

ここで、この分野での私の経験と関わりに基づいて、簡単に触れておきたいと思います。私の考えでは、自動運転業界の究極の目標は、世界規模で完全な自動運転を実現することです。

ウェイモはまず自動運転を実現し、その後世界規模で拡大するという戦略を選択したが、テスラはまず世界規模で展開し、その後徐々に自動運転技術を向上させていくという戦略を選択した。

明らかに、両社は非常に異なる調整に直面するでしょう。一方は主にソフトウェアに取り組んでおり、もう一方はハードウェアに取り組んでいます。

これまでのところ、私は彼らの製品に非常に満足しており、個人的にはテクノロジー自体を非常に支持しています。

同様に、他の多くの業界も急速な成長と拡大の段階を経る可能性があります (2015 年頃の自動運転分野など) が、最終的には、競争に生き残れるのはほんの一握りの企業だけかもしれません。

このプロセスでは、多くの実用的な AI 支援ツール (現在の L2 ADAS 機能など) といくつかのオープン プラットフォーム (Comma など) が広く使用されるようになります。

汎用人工知能 (AGI)

上記は、汎用人工知能(AGI)の将来の発展についての私の一般的な考えです。

このような変化が、多くの予測不可能な相互作用や連鎖反応を伴い、さまざまな速度で経済全体に広がっていくことを想像してみてください。

このアイデアは完璧ではないかもしれませんが、覚えておく価値があり、参考にするのに役立つモデルだと思います。

ミームの観点から見ると、AGI は、人間の制御を逃れ、サイバースペースで再帰的に自己改善し、致命的な病原体やナノボットを作成し、最終的に銀河をグレイグーに変えてしまうような超知能とは程遠いものです。

対照的に、それはむしろ、急速に進歩し、社会を変える可能性を秘めた自動化技術である自動運転技術の開発に似ています。その発展速度は、教育を受けた労働力、情報、材料、エネルギー、規制など、多くの要因によって制限されます。

この点で、社会は観察者であると同時に参加者でもある。

世界は崩壊するのではなく、適応し、変化し、再建されるでしょう。

自動運転自体については、交通の自動化により安全性が大幅に向上し、都市はより新鮮でスムーズになり、道路の両側を占領していた駐車場や駐車車両が徐々になくなり、より多くのスペースが生まれます。

私自身、汎用人工知能 (AGI) によってもたらされる可能性のあるあらゆる変化に大きな期待を抱いています。

ネットユーザーの間で熱い議論

全体的に、カルパシー氏は AGI を自動運転の開発に似たものと見ており、この特定の類推は多くのネットユーザーの間で議論を巻き起こしました。

「FSD を実現できなかった人が、FSD と AGI の類似点を指摘するのを見ると、まだ何十年も先があるという自信が湧いてきます。」

そうです、彼は「G」を忘れていたようです。数十年前、ノーヴィグが人工知能に関する著書の中で、「知能」は万能を意味するものではないと述べていたことを覚えています。インテリジェントエージェントが有用であるためには、小さな問題を解決できれば十分です。私の意見では、G はここから来ています。

そして今、私たちは突然、以前の狭い定義に戻ってしまったのでしょうか? LLM と自動運転から AGI への道はまだ見えません。

もちろん、Waymo の自動運転車の開発で見られたように、AGI の開発は段階的かつゆっくりと進む可能性があります。しかし、これは数ある方法のうちの 1 つに過ぎず、大規模な LLM のスケールアップなど、非常に異なる方法で AGI が登場する可能性もあります。

<<:  中国のLMM体格に適したベンチマークであるCMMMUがここにあります:30以上のサブ分野、12Kの専門家レベルの質問

>>:  CMU 中国チームは、スタンフォード大学のエビ揚げロボットに勝る高エネルギーロボットを開発するために 18 万ドルを費やしました。完全自律操作、1時間で12種類のドアを開ける方法を学習

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

アルゴリズム取引システム用のデータベースはどのように選択すればよいでしょうか?

[[314073]]あらゆるソフトウェア システムの重要なコンポーネントは、データを保存、取得、分...

プロンプトエンジニアリング

プロンプト エンジニアリング (コンテキスト プロンプトとも呼ばれる) は、モデルの重み/パラメータ...

メディア業界の自動化をリードする10のAI分野

データ爆発の時代では、データの収集だけでは不十分です。ビジネスを運営し、成長させるための洞察を得るに...

スタンフォード大学は対照的嗜好学習を提案:強化学習なしで人間のフィードバックから学習する

人間によるフィードバックによる強化学習 (RLHF) は、モデルを人間の意図に合わせるための一般的な...

新しい無料プログラミングツール! Copilot の 2 倍の速度と 20% の精度向上 | Feishi Technology 発行

Microsoft GitHub Copilot を数秒で上回る国産プログラミング ツール。どれくら...

ブロックチェーン科学: 非対称暗号化、楕円曲線暗号

ブロックチェーン暗号化入門ブロックチェーン暗号化技術ブロックチェーン技術の応用と発展において、デジタ...

ChatGPTは、すべての過去のチャットの学習、記憶のリセット、および「読んだ後の書き込み」という新機能をテストするために公開されました。

ChatGPT は、大きな新機能をリリースしようとしている可能性があります。つまり、過去のチャット...

...

国産大型モデルの推論能力がGPT-3.5を超えた! OpenAI評価リストの第1層に入る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

アシモフのロボット工学三原則とモービルアイの自動運転五原則

テクノロジー・トラベラーは11月20日、北京から報道した(執筆者:ガオ・フェイ):多くのSF作家の想...

1.4GB 未満のビデオ メモリで 10,000 フレームのビデオをセグメント化します。コードは現在オープン ソースです。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

テンセントの馬化騰、センスタイムの唐暁ら6人の大物が人工知能の過去、現在、未来を深く解釈する

[[203162]]テクノロジー、特に今人気の人工知能は、生活、ビジネス、学術などにどれほどの影響を...

Google 検索と競合する FRESHLLM は、より少ない幻想とより正確な情報で「最新の出来事」を把握しています。

BARD や CHATGPT/GPT-4 などの大規模言語モデルの機能は誰の目にも明らかです。これ...

GPT-4 はグラフィカル推論を実行できないのですか? 「手放す」後も、正解率は33%にとどまる

GPT-4 のグラフィカル推論能力は人間の半分以下?米国のサンタフェ研究所の調査によると、 GPT-...