Andrej Karpathy 博士は、モデルを動かすにはデータが必要だと言いました。モデルは上限を決定し、データはモデルがこの上限に到達するのを助けます。 単にデータをマークするだけではないのか?何がそんなに素晴らしいのか?と疑問に思う人もいるかもしれません。 ? ?小学生を数人見つけて、1日100元払えば、マウスをクリックするだけでできるようになります。 (小学生OS:やりたくないよ、王様になるのに忙しいんだ!) 注意! 2021年になり、レベル4自動運転の量産化が議論され始めています。中国の宇宙ステーションもすでに宇宙に打ち上げられており、データのラベル付けはもはやマウスをクリックするだけの問題ではありません。 ! データアノテーションの秘密をゆっくり説明しましょう。ディープラーニングやコンピュータービジョンに携わっている学生なら、ImageNet、MS COCO、Cityscapes などの有名な公開データセットに詳しいかもしれません。これらのデータセットは主に 2D 画像の認識タスクを対象としており、マウスをクリックするだけで 2D 画像に直接注釈が付けられます。 しかし、自動運転の時代になると、すべての知覚タスクは最終的に現実の3D世界に適用され、データセットのサイズはもはや数万、数十万、数百万の写真ではなく、以前と同じではなくなり、当然、ますます複雑な問題に直面することになります。 前述の認識システムについては、Andrej Karpathy がすべてを 1 人で処理できますが、データのラベル付けに関しては、Tesla には 2 人の大物が別々に導入されています。 2 人の大物とは、先ほど紹介した手動ラベリングを紹介した Andrej Karpathy 博士と、4D 自動ラベリング、データ シミュレーション、データとモデルの反復を紹介した Autopilot Software のディレクター、Ashok Kumar Elluswamy です。 データラベリングシステム全体は、手動ラベリング、自動ラベリング、データシミュレーション、大規模データ生成の 3 つの部分に分かれています。 1 手動注釈約 4 年前、テスラのデータ ラベリングは、今日の多くの CV 企業と同様に、サードパーティによって処理されていました。サードパーティのデータラベリング機関は、比較的基本的なデータラベリングとメンテナンスを提供できますが、ラベリング要件が複雑な場合は、ラベリングの遅延が長すぎるという問題や、ラベリング品質が十分に高くないという問題がよく発生します。 そこでテスラは、1,000人を超えるラベラーを擁する独自のラベリング チームを設立しました (ああ、まだお金があるんですね)。プロの注釈者とエンジニアが緊密に連携して、高品質の注釈を保証します。 テスラは、この目的のために専用のデータ ラベリング システムも構築しました。専門チームがこのラベリング フレームワークとその背後にあるデータを管理し、ラベリング ワークフローで各個人と各データ バッチに対して正確なデータ分析を行うことができます。 図1. 2D画像上のデータ注釈 当初、Tesla の注釈のほとんどは 2D 画像で行われていましたが、その後すぐに注釈は 4D 空間 (3D 空間 + 時間次元) に移行し、クリップを最小の注釈単位として、ベクトル空間で直接注釈を付けるようになりました。 図2: 4D空間におけるデータ注釈 クリップは道路のセクション上のすべてのカメラとセンサーのデータで構成され、このデータに基づいて対応する道路セクションの 3D 再構築結果を生成できます。画像または 3D 再構築の注釈を変更すると、他のデータへの変更が直接反映されます。 このような 4D 注釈は、2D 注釈よりも自動運転タスクのニーズに近いですが、それだけでは十分ではありません。 テスラは、人間のラベル付け担当者は意味情報のほうが得意であるが、コンピュータは幾何学、再構成、三角測量、追跡のほうが得意であることを発見しました。同時に、データのサイズが大きくなるにつれて、ラベル付けチームの規模を無制限に拡大することは不可能です (テスラはコスト削減も望んでいます)。したがって、ベクトル空間でより正確なデータラベル付けを行うには、ラベル付け担当者とコンピューターの連携が必要です。 それ以来、注釈は次の時代、つまり自動注釈の時代に入りました。 2 自動ラベル付け自動注釈から始まり、CMU 卒業生の Ashok Kumar Elluswamy 氏による以下のコンテンツの紹介です。カレー味満載ですが、本当に美味しい内容です。 (話題から外れて、10,000語省略...インド英語のリスニング力を身につけよう!英語を学びたいすべての人に、カレーイングリッシュの魅力を体験することをお勧めします) 自動注釈に関しては、混乱する人が多いです。誰もがすぐに理解できるように、簡単な例を使って説明します。 プログラマーは AI にこう言いました: あなたはすでに成熟した AI です。データにラベルを付けて自分自身をトレーニングする方法を学ぶ必要があります... トレーニングデータとトレーニングパラメータが一定である場合、サーバー上で実行できる「ビッグモデル」の精度と一般化能力は、車両側に展開された「スモールモデル」よりも優れていることが多いことは誰もが知っています。同時に、Essemble 以降の複数の「ビッグモデル」の精度と一般化能力は、単一の「ビッグモデル」よりも優れていることがよくあります。 したがって、「小さなモデル」のパフォーマンスが低い大量のデータを取得できる場合は、精度と一般化が向上した統合モデルを使用してこれらの新しいデータを「ラベル付け」し、ラベル付けされたデータを使用して小さなモデルをトレーニングすることができます。 新しいデータを完全に適合させた後は、この小さなモデルがいかに劣悪であっても、この新しいデータ バッチでのパフォーマンスは、以前の統合モデルのパフォーマンスに近くなる可能性があります。 つまり、これは基本的にテスラの自動ラベリング システムが行うことですが、いつものように、テスラはそれを極限まで推し進めています。 図3、テスラ自動ラベリングシステム 前述のように、クリップは Tesla 注釈システムの最小の注釈単位です。クリップの概念を確認しましょう。クリップは、ルート上のすべてのカメラとセンサーのデータで構成されます。クリップには通常、45 秒から 1 分間の道路セグメント データが含まれます。 クリップが与えられると、自動注釈システムはまずさまざまなアルゴリズム モデルを使用してデータを予測し、セグメンテーション、ターゲット検出、深度、オプティカル フローなどの結果を取得し、次に一連のアルゴリズムで処理して、モデルのトレーニングに使用される最終的な注釈を生成します。オプションで、人間の注釈者が機械でラベル付けされたデータの最終チェックと変更を行うことができます。 次の例では、道路標示を使用してこのプロセスを説明します。 通常、路面を表現するにはスプラインやグリッドを使用できますが、トポロジ制約は微分可能ではないため、これらの表現方法はあまり役に立ちません。最適化を容易にするために、ここではニューラル ネットワークを選択して、路面を暗黙的にモデル化します。 路面上の (x, y) ポイントを照会し、ネットワークに路面の高さ z と、車線、道路境界などの意味情報を予測させます。各 (x, y) に対して、ネットワークは z を予測し、3D ポイントを取得します。この 3D ポイントを各カメラからの画像に再投影することができます。 このようなクエリを何百万回も実行することで、各カメラに再投影する多数のポイントを取得できます。図 4 の右上隅には、このようにして画像に再投影された点が示されています。 図4 道路再建のプロセス 次に、これらの再投影されたポイントを元の画像に戻し、画像空間での直接的なセマンティックセグメンテーションの結果と比較し、各カメラで空間と時間にわたる共同最適化を実行して、非常に高品質の再構築結果を得ることができます。 図5: 各カメラの時間的・空間的一貫性を満たす道路再構築結果 最後に、図 5 に示すように、クリップ全体にわたって連続的で一貫した高密度の注釈結果が得られます。この一貫性は、同じオブジェクトの注釈が、ビデオ シーケンスの前のフレームと次のフレーム、および異なるカメラからの画像で一貫していることを意味します。 このような一貫性は、純粋な手動注釈では実現できません。 この技術を使用すると、データ収集車両が道路の一部を通過するときに、近くの関連するクリップを収集してマークすることができます。さらに、1 台以上の車両を使用して同じ場所をさまざまな方法で複数回通過することで、同じ場所の複数のクリップを取得し、ラベル付けすることができます。 図6: 異なる車両を使用して同じエリアを複数回通過し、複数の注釈結果を取得できます。 これらのクリップと対応する注釈を組み合わせて大規模な最適化を行うことで、より正確で詳細な注釈結果を得ることができます。 図 7 は、ベクトル空間内およびさまざまなカメラ視点からの観察下での車線線などのさまざまな特徴の一貫性を確保するために、16 個のクリップを整列させた結果を示しています。 図 7: 複数のクリップの結果を重ね合わせて共同最適化することで、より正確で詳細な注釈結果を得ることができます。 この種の注釈付け方法は、高精度のマップを取得するだけでなく、関連するクリップに注釈を付けるものであり、少し「クラウドソーシング マップ」の趣があります。 自動ラベル付けが完了したら、必要に応じて、プロのラベル付け担当者がラベル付けの結果を確認したり、ノイズを除去したり、その他の注釈を追加したりできます。 つまり、車が 1 回走行し、モデルが 1 回実行され、その後、それらが共同で最適化され、データにラベルが付けられます。 Tesla の自動ラベル付けシステムは、同様の方法を使用して、クリップ内のすべての要素に自動的にラベルを付けます。静的オブジェクトの場合は 3D 再構築結果を提供し、動的な障害物の場合は、各瞬間の特定の位置と姿勢を提供し、3D の動きの軌跡を計算します。 図 8 は、カメラによって生成された高密度 3D ポイント クラウドを示しており、道路上および車両周囲のすべての障害物が含まれています。上記で紹介した方法は、静的障害物の問題を解決できます。次に、動的障害物の処理を紹介します。 図8. 画像データから生成された3D点群 動的障害物、つまり移動するターゲットの場合、自動運転認識システムは、過去の各ターゲットの位置、方向、移動速度、移動軌跡などの情報を制御に提供し、将来の移動軌跡を推定する必要があります。注釈システムにとって、この情報の真の価値を知ることは非常に重要です。 これらの問題に関して、自動ラベル付けには「神の視点」があります。 これらのクリップでは、私たちは常に過去に何が起こったかだけでなく、将来何が起こるかも知ることができ、ほとんど「カンニング」のような方法で正しい答えを得ることができます。したがって、各ターゲットの「将来の」運動軌跡の真の値を正確に与えることができます。 さらに、「神の視点」は閉塞の問題も解決できます。各移動ターゲットの移動軌跡がわかっているため、遮蔽前後のターゲットの移動軌跡に基づいて遮蔽状態での移動軌跡と姿勢を復元することができ、注釈が遮蔽の影響を受けなくなります。 図9: 自動ラベル付けにより、移動するターゲットの遮蔽問題を解決できます 最後に、図 10 に示すように、Clip の完全な注釈結果が得られます。 図10: 自動注釈の完全な結果 このような自動注釈により、Tesla は数百万のクリップに簡単に注釈を付けてモデルをトレーニングできます。 悪天候で視界が悪いなど、モデルのパフォーマンスが十分でないシナリオでは、大規模な艦隊を使用して対応するシナリオに関する大量のデータを収集し、このデータを使用して自動ラベル付けを通じてモデルを迅速にトレーニングし、パフォーマンスを迅速に向上させることができます。 自動ラベル付けでは 1 週間で 10,000 個のクリップにラベルを付けることができますが、同じ規模のラベル付けを手動で完了するには数か月かかります。 3 データシミュレーション自動ラベリングを終えて、自動化の甘さを味わった馬社長は、データ収集車の電気代さえ払いたくなくなり、データシミュレーションについて考え始めました。 ハハ、冗談です。データ シミュレーションの利点は、コストを節約できるだけでなく、多くの問題を解決できることです。たとえば、ロングテール効果のある多くのコーナー ケースでは、データ シミュレーションを通じてデータを収集できます。 もし牛や象の群れが突然高速道路に現れたら、自動運転車はどのように対処するでしょうか? こうしたデータの収集は明らかに非常に困難です。象の群れを高速道路に突入させ、データ収集車両を運転させてデータを収集するなどということは、実際には不可能です。しかし、実際にそのような状況に遭遇した場合、自動運転車が対処できることを期待するため、対応するデータが必要になります。 同様の問題を解決するために、テスラの次の切り札はデータシミュレーションです。実際のデータと比較して、シミュレートされたデータには次の利点があります。 (1)シミュレーションデータは完璧な注釈を提供でき、注釈付けが難しい多くのシーンもシミュレーションデータを使用してラベル付けできる。 (2)シミュレーションデータは、実データの収集が困難な場合に、高品質なデータを提供することができる。 (3)シミュレーションは、調節制御アルゴリズムのための安全な実験環境を提供することができる。 (4)シミュレーションデータはお金を節約します、お金を節約します、お金を節約します! シミュレーション データは非常に便利なようですが、使用可能なシミュレーション データを作成するには、まだある程度の労力が必要です。データ シミュレーションは、仮想データを可能な限りリアルにすることです。この目的のために、Tesla チームは次のような取り組みを行ってきました。 1) 正確なセンサーシミュレーション: データシミュレーションの第一の優先事項は、シミュレータによって生成されたデータを、実際のカメラでキャプチャされたデータにできるだけ近づけることです。 そのため、テスラのチームは、カメラセンサーのノイズ、モーションブラー、光学歪み、さらにはフロントガラスの回折スポットのシミュレーションなど、さまざまな側面から対応する取り組みを行いました。 図11. シミュレーションではまずカメラのさまざまな特性を正確にシミュレーションする必要がある 2) リアルなレンダリング: シミュレーションでは、ゲームのような偽の画像がなく、リアルに近いレンダリングを実現する必要があります。この目的のために、Tesla チームはレンダリング効果を保証するためにニューラル レンダリングを使用し、リアルな照明効果を保証するためにレイ トレーシングを使用しました。 図12、レンダリング効果、この写真が偽物だと信じられますか? 3) 豊かなシーンと俳優陣。認識モデルが数種類の車や単一のシーンに過剰適合するのを防ぐため、テスラのチームは、さまざまな種類の車やさまざまな服を着た歩行者など、多くの「俳優」と「小道具」を設計し、それらを仮想世界に配置しました。 同時に、米国の東海岸と西海岸の間の距離に相当する総距離2,000マイル以上の仮想道路も設計されました。 ボス・マーは本当に寛大です。まるで生きた「ウエストワールド」のようですね。 図13. シミュレーションには多様なアクターとシナリオが必要 4) 大規模なシーン生成。前述の仮想データは氷山の一角に過ぎないとアショク氏は言う。モデルのトレーニングに使用される実際のデータは、特定のルールとアルゴリズムに従ってこれらの資料から生成される。天候や照明条件はもちろんのこと、道路の曲率、木の形や分布、アイスクリームコーンや電柱の配置、さまざまな速度で移動する車両など、すべて必要に応じて設定できます。 これらの資料をランダムに使用してトレーニング データを生成することは確かに可能ですが、モデルは生成されたシナリオのほとんどで良好なパフォーマンスを発揮できるため、Tesla チームはいくつかの基本的な機械学習アルゴリズムを使用して、モデルがエラーが発生しやすいシナリオを見つけられるようにし、対応するシナリオに基づいてさらにデータを生成してモデルをトレーニングします。 このようにして、データとモデルのクローズドループが完成し、継続的な反復によりパフォーマンスが向上します。 図14. 各種パラメータを調整することで、さまざまなシーンを生成できます。 5) シーンの再構築。テスラはまた、現実世界の自動運転タスクにおける障害事例を再現し、シミュレーターで簡単に再現して問題を発見し解決できるようにしたいと考えている。 図15に示すように、左側の写真は実際の車から収集されたデータを示しており、自動注釈システムを通じて3D再構築の結果が得られています。これらの再構築結果を視覚情報と組み合わせることで、同一の仮想シーンを再構築することができます。 この仮想シーンでは、さまざまな実験を行って、以前の問題を見つけて解決することができます。 図15. デバッグを支援するために実際のデータから仮想データを生成できる 現在、テスラの車両に導入されているモデルは、すでに仮想データでトレーニングされており、仮想データの規模は37億1000万枚の画像と4億8000万の注釈に及んでいます。こうしたデータを「核燃料貯蔵庫」と表現するのは誇張ではない。 この数字を見て、データを待っていた新世代の移民労働者たちはトイレで泣きながら気絶したという… 図16: 仮想データは本当に良い テスラのデータラベリングシステムは、手動ラベリングから自動ラベリング、そしてシミュレーションまで、このようなプロセスを経てきました。これは本当に良い参考になります。自動運転の分野だけでなく、CV関連のあらゆる側面にも応用できます。 このシステムを通じて、ミリ波レーダーを排除し、純粋な視覚にこだわるテスラの自信が伺えます。 テスラのソリューションは、学習体験であるだけでなく、私たちにインスピレーションを与えてくれます。CV アルゴリズムがすでに比較的成熟している今日では、単一のアルゴリズムの改善ではあまり多くの変化をもたらすことはできませんが、アルゴリズム システム レベルでの研究には依然として大きな可能性があります。ハードウェア、データ、アルゴリズムは、設計と反復のために統合される必要があります。 その後にもたらされた変化はまさに革命的なものでした。 勉強に加えて、「他人の野心を高め、自分の名声を破壊する」必要はありません。実はテスラだけではなく、多くの国内企業がすでに関連分野を開拓し、かなりの経験を積んでいます。 次は、AIの火花を猛烈な炎に変えるために、一緒に取り組んでいきましょう! |
<<: パーシー・リャンらによる新しい研究:新しいBingのような生成型検索エンジンはそれほど役に立たないかもしれない
>>: 目の反射神経が 3D の世界を開き、ブラック ミラーを実現します。メリーランド州出身の中国人による新作がSFファンを熱狂させる
[[228774]]ビッグデータ概要編集者: Wanjun、VVN、Zhang Lijun、Yun...
AI は、その潜在的パワーにもかかわらず、ビジネスを前進させるイノベーションの創出や推進において補助...
人工知能は戦闘機を効果的に操縦できるのか?米空軍は、コードネームXQ-58ヴァルキリーという実験機で...
RPA ツールの使用はここ数年で急増しています。今年のパンデミックにより、組織は、特に RPA が最...
人間の脳は地球上で最も効率的な計算装置です。わずか 20W の電力と 1.3kg の質量で、1 秒間...
OpenAI の新しい GPT-4V バージョンは画像のアップロードをサポートしており、これにより...
スタンフォード大学は10月11日、Googleリサーチディレクターのピーター・ノーヴィグ氏がスタンフ...
人工知能の分野における画像分類問題に関して言えば、トレーニングとテストに最もよく使用されるデータセッ...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
昨年末、Google Geminiが業界に衝撃を与えた。これはGoogleの「最大、最も有能、最も多...