テスラのAIディレクター、カルパシー氏は、すべてのMLモデルをTransformerで定義することでAI統合のトレンドについてツイートした。

テスラのAIディレクター、カルパシー氏は、すべてのMLモデルをTransformerで定義することでAI統合のトレンドについてツイートした。

本日、テスラAIのディレクターであり、オートパイロットビジョンチームのリーダーであるアンドレイ・カルパシー氏がTwitterに投稿し、AI分野における継続的な統合に対する驚きを表明した。

「10年前は、視覚、音声、自然言語、強化学習などは完全に別々で、分野横断的な論文さえありませんでした。手法も完全に異なり、通常は機械学習に基づいていませんでした。」と彼は言いました。

2010年以降、視覚、言語、自然言語、強化学習などの分野における障壁が徐々に打ち破られ、機械学習、特にニューラルネットワークという同じ技術的方向に向かって動き始めました。使用されているネットワーク アーキテクチャには多様性がありますが、少なくとも論文は、基本的には大規模なデータセットとネットワークの最適化を使用する点で、似たような内容になり始めています。

AI技術の発展により、過去2年間でさまざまな分野のモデルアーキテクチャが類似してきたようです。多くの研究者が Transformer アーキテクチャに注目し始め、研究のためにこれを基に小さな変更を加えています。

例えば、2018年に発売されたGPTには1億1,700万のパラメータがあり、2019年のGPT-2には15億のパラメータがあり、2020年には1,750億のパラメータを持つGPT-3に拡張されました。 Karpathy は PyTorch をベースに、わずか 300 行ほどのコードで小さな GPT トレーニング ライブラリを作成し、minGPT と名付けました。この minGPT は、加算演算と文字レベルの言語モデリングを高い精度で実行できます。コア minGPT ライブラリには、mingpt/model.py と mingpt/trainer.py の 2 つのファイルが含まれています。前者には実際の Transformer モデル定義 (約 200 行のコード) が含まれており、後者はモデルのトレーニングに使用できる GPT に依存しない PyTorch ボイラープレート ファイルです。

いくつかのコードのスクリーンショット。

完全なコードは 197 行: https://github.com/karpathy/minGPT/blob/master/mingpt/model.py

モデルアーキテクチャの融合により、単語シーケンス、画像パッチシーケンス、音声シーケンス、強化学習シーケンス(状態、アクション、報酬)をモデルに入力できるようになりました。条件設定に任意のトークンを追加できます。このモードは、非常にシンプルで柔軟なモデリング フレームワークです。

視覚などの領域内でも、歴史的には分類、セグメンテーション、検出、生成のタスク間にはいくつかの違いがありました。ただし、パッチ検出のシーケンスやバウンディング ボックスの出力シーケンスなど、これらすべても同じフレームワークに変換されます。

現在、主な特徴として以下の点が挙げられます。

1) データ

2) 問題をベクトル列にマッピングし、問題の入力/出力仕様をベクトル列からマッピングする

3) 位置エンコーダの種類とアテンションマスクにおける問題固有の構造化スパースパターン

したがって、技術的に言えば、展望、論文、才能、アイデアなど、AI 分野のあらゆる側面が突然非常に重要になりました。基本的に誰もが同じモデルを使用しており、ほとんどの改善点やアイデアは AI のあらゆる分野に素早く「コピー アンド ペースト」できます。

多くの人が気づき指摘しているように、大脳新皮質は、そのすべての入力様式にわたって高度に統一されたアーキテクチャを持っています。おそらく自然は、非常によく似た強力な建築物を偶然見つけ、いくつかの詳細だけを変えて、同じようにそれを模倣したのでしょう。

このアーキテクチャの融合により、ハードウェア、ソフトウェア、インフラストラクチャに重点を置くことができ、AI 分野の進歩がさらに加速します。 「いずれにしても、とても楽しい時期です。」

ネットユーザーも、アンドレイ・カルパシー氏が説明したAI統合のトレンドについて意見を述べた。

Twitterユーザーの@Neural Net Nailさんは、「これは貴重な洞察です。コンバージェンスによりAI分野のイノベーションのペースが加速し、エッジでAIを活用した最先端の製品がより実現可能になるでしょう。ばらつきは品質の最大の敵だと思います」とコメントしています。

ネットユーザーの @sisil mehta 氏も、「ML インフラストラクチャはエキサイティングな時代を先導しました。モデル アーキテクチャが統合されるにつれて、モデリング フレームワークとインフラストラクチャも統合されます。PyTorch Lightning も同様になることを心から願っています」と考えています。

ネットユーザーの@Marcos Pereiraさんは、「一方では、変圧器はどこでも使用されているため、障害に遭遇し、革新が必要です。他方では、変圧器はどこでも使用されているため、追いついていきましょう」と述べました。

元記事は@Andrej KarpathyのTwitterより: https://twitter.com/karpathy/status/1468370605229547522

Pythonをベースに、NVIDIA TAO ToolkitとDeepstreamを使用して車両情報認識システムを迅速に構築

NVIDIA TAO Toolkit は、AI/DL フレームワークへの既成のインターフェイスを提供し、コーディングなしでより高速なモデル構築を可能にする AI ツールキットです。

DeepStream は、人工知能アプリケーションを構築するためのストリーミング分析ツールキットです。ストリーミング データを入力として受け取り、人工知能とコンピューター ビジョンを使用して環境を理解し、ピクセルをデータに変換します。

DeepStream SDK は、スマート シティでの交通と歩行者の把握、病院での健康と安全の監視、小売店でのセルフサービス検査と分析、製造工場での部品欠陥検出などの視覚アプリケーション ソリューションの構築に使用できます。

<<:  ケンブリッジ大学チームは約50年後に初めて量子スピン液体を検出し、その研究はサイエンス誌に掲載された。

>>:  AIと機械学習をサイバーセキュリティに組み込む方法

ブログ    
ブログ    

推薦する

...

2021年第1四半期のロボット産業の新製品在庫

2021 年の最初の 3 か月間にロボット業界ではどのような新製品が登場しましたか? [[38857...

...

世界初、AIによる豚のクローン作成に成功!南開大学がやった

超AI制御により、機械が自動的に人間の胚のクローンを作成し、培養用の栄養プールに送り込み、人間のバッ...

警告!長距離LiDAR認識

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

ギャップを埋める:AI時代のデータセンターの変革

ハイパースケールかエンタープライズかを問わず、現代のあらゆるデータセンターは、より広範なイノベーショ...

変革的な AI、ノーコード、ローコード - エンタープライズ AI 導入に最適なパスはどれでしょうか?

COVID-19のパンデミックにより、私たちはテクノロジー、オンライン活動、人工知能への依存をさら...

AIとプライバシーの未来: コンピュータービジョンソリューションとプライバシー

データ保護とセキュリティは、何十年もの間、企業にとって最大の懸念事項でした。現在、75% 以上の企業...

Java プログラミング スキル - データ構造とアルゴリズム「多方向検索ツリー」

[[391530]]二分木問題の分析バイナリツリーは動作効率が高いですが、問題点もあります。次のバ...

Google の内部対立が激化!従業員が共同書簡に署名:AIマスターのジェフ・ディーン氏は謝罪すべき!

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

人工知能の時代:どの業界が大きな変化を遂げているのでしょうか?

近年、人工知能技術はコンピューティング能力、ビッグデータ、アルゴリズムの飛躍的進歩により急速に発展し...

新しいAIシステムが地震を正確に予測できるようになりました

科学者たちは地震を正確に予測できる人工知能(AI)システムを開発した。これは自然災害に備え、人命を救...