本日、テスラAIのディレクターであり、オートパイロットビジョンチームのリーダーであるアンドレイ・カルパシー氏がTwitterに投稿し、AI分野における継続的な統合に対する驚きを表明した。 「10年前は、視覚、音声、自然言語、強化学習などは完全に別々で、分野横断的な論文さえありませんでした。手法も完全に異なり、通常は機械学習に基づいていませんでした。」と彼は言いました。 2010年以降、視覚、言語、自然言語、強化学習などの分野における障壁が徐々に打ち破られ、機械学習、特にニューラルネットワークという同じ技術的方向に向かって動き始めました。使用されているネットワーク アーキテクチャには多様性がありますが、少なくとも論文は、基本的には大規模なデータセットとネットワークの最適化を使用する点で、似たような内容になり始めています。 AI技術の発展により、過去2年間でさまざまな分野のモデルアーキテクチャが類似してきたようです。多くの研究者が Transformer アーキテクチャに注目し始め、研究のためにこれを基に小さな変更を加えています。 例えば、2018年に発売されたGPTには1億1,700万のパラメータがあり、2019年のGPT-2には15億のパラメータがあり、2020年には1,750億のパラメータを持つGPT-3に拡張されました。 Karpathy は PyTorch をベースに、わずか 300 行ほどのコードで小さな GPT トレーニング ライブラリを作成し、minGPT と名付けました。この minGPT は、加算演算と文字レベルの言語モデリングを高い精度で実行できます。コア minGPT ライブラリには、mingpt/model.py と mingpt/trainer.py の 2 つのファイルが含まれています。前者には実際の Transformer モデル定義 (約 200 行のコード) が含まれており、後者はモデルのトレーニングに使用できる GPT に依存しない PyTorch ボイラープレート ファイルです。 いくつかのコードのスクリーンショット。 完全なコードは 197 行: https://github.com/karpathy/minGPT/blob/master/mingpt/model.py モデルアーキテクチャの融合により、単語シーケンス、画像パッチシーケンス、音声シーケンス、強化学習シーケンス(状態、アクション、報酬)をモデルに入力できるようになりました。条件設定に任意のトークンを追加できます。このモードは、非常にシンプルで柔軟なモデリング フレームワークです。 視覚などの領域内でも、歴史的には分類、セグメンテーション、検出、生成のタスク間にはいくつかの違いがありました。ただし、パッチ検出のシーケンスやバウンディング ボックスの出力シーケンスなど、これらすべても同じフレームワークに変換されます。 現在、主な特徴として以下の点が挙げられます。 1) データ 2) 問題をベクトル列にマッピングし、問題の入力/出力仕様をベクトル列からマッピングする 3) 位置エンコーダの種類とアテンションマスクにおける問題固有の構造化スパースパターン したがって、技術的に言えば、展望、論文、才能、アイデアなど、AI 分野のあらゆる側面が突然非常に重要になりました。基本的に誰もが同じモデルを使用しており、ほとんどの改善点やアイデアは AI のあらゆる分野に素早く「コピー アンド ペースト」できます。 多くの人が気づき指摘しているように、大脳新皮質は、そのすべての入力様式にわたって高度に統一されたアーキテクチャを持っています。おそらく自然は、非常によく似た強力な建築物を偶然見つけ、いくつかの詳細だけを変えて、同じようにそれを模倣したのでしょう。 このアーキテクチャの融合により、ハードウェア、ソフトウェア、インフラストラクチャに重点を置くことができ、AI 分野の進歩がさらに加速します。 「いずれにしても、とても楽しい時期です。」 ネットユーザーも、アンドレイ・カルパシー氏が説明したAI統合のトレンドについて意見を述べた。 Twitterユーザーの@Neural Net Nailさんは、「これは貴重な洞察です。コンバージェンスによりAI分野のイノベーションのペースが加速し、エッジでAIを活用した最先端の製品がより実現可能になるでしょう。ばらつきは品質の最大の敵だと思います」とコメントしています。 ネットユーザーの @sisil mehta 氏も、「ML インフラストラクチャはエキサイティングな時代を先導しました。モデル アーキテクチャが統合されるにつれて、モデリング フレームワークとインフラストラクチャも統合されます。PyTorch Lightning も同様になることを心から願っています」と考えています。 ネットユーザーの@Marcos Pereiraさんは、「一方では、変圧器はどこでも使用されているため、障害に遭遇し、革新が必要です。他方では、変圧器はどこでも使用されているため、追いついていきましょう」と述べました。 元記事は@Andrej KarpathyのTwitterより: https://twitter.com/karpathy/status/1468370605229547522 Pythonをベースに、NVIDIA TAO ToolkitとDeepstreamを使用して車両情報認識システムを迅速に構築 NVIDIA TAO Toolkit は、AI/DL フレームワークへの既成のインターフェイスを提供し、コーディングなしでより高速なモデル構築を可能にする AI ツールキットです。 DeepStream は、人工知能アプリケーションを構築するためのストリーミング分析ツールキットです。ストリーミング データを入力として受け取り、人工知能とコンピューター ビジョンを使用して環境を理解し、ピクセルをデータに変換します。 DeepStream SDK は、スマート シティでの交通と歩行者の把握、病院での健康と安全の監視、小売店でのセルフサービス検査と分析、製造工場での部品欠陥検出などの視覚アプリケーション ソリューションの構築に使用できます。 |
<<: ケンブリッジ大学チームは約50年後に初めて量子スピン液体を検出し、その研究はサイエンス誌に掲載された。
ニューヨーク・タイムズ紙は7月20日、3つの情報源を引用して、グーグルがAI技術を使ってニュース記事...
次のようなシナリオを想像してください。 あなたはレベル3の自動運転機能を備えたAudi A8を所有し...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
概要グラフィカル モデルは通常、問題自体に複数の相互に関連する変数があるシナリオで使用され、これらの...
CIO やその他の経営幹部が持続可能性の取り組みを拡大する方法を模索する中で、取り組みはデータ セ...
この記事では、データ サイエンティスト兼アナリストの Vincent Granville が、データ...
人工知能は近年の科学技術発展の重要な方向です。ビッグデータの時代において、データの収集、マイニング、...
修士課程の学生として、私は頑固にアルゴリズムの方向を選択しました。今年の秋の採用は確かに寒い冬でした...
共同通信社のウェブサイトの最近の報道によると、日立製作所の研究チームが人工知能学会で論文を発表した。...
[[241723]]新しい技術を学ぶとき、多くの人は公式ドキュメントを読み、ビデオチュートリアルやデ...